Comment extraire des données GSC avec un simple script Python

Comment extraire des données GSC avec un simple script Python

[ad_1]

Téléchargement et installation d’Anaconda

Téléchargez et installez le dernier package Anaconda pour votre système d’exploitation. Il installera la plupart de ce dont vous aurez besoin, notamment:

  • Invite de commande pour exécuter votre script et installer les bibliothèques nécessaires (invite Anaconda). Nous utiliserons l’invite de commande Powershell intégrée dans ce didacticiel pour le rendre encore plus simple.
  • Jupyter Notebook, qui rendra la création de ce script encore plus facile.
  • Python 3.x (dernière version).

Site web d'Anaconda

Pendant le processus d’installation, suivez le guide d’installation. Vous n’avez pas besoin de modifier les valeurs présélectionnées à moins que vous ne sachiez ce qu’elles sont et que vous souhaitiez les personnaliser.

Allez-y et trouvez «Anaconda Navigator» dans votre menu de démarrage. Une fois ouvert, vous verrez tous les logiciels installés avec le package. Ouvrons celui que nous utiliserons – Jupyter Notebook.

Lancez Jupyter Notebook

L’interface Jupyter s’ouvrira avec une vue similaire à celle-ci:

Vue de départ de Jupyter

Noter: si vous avez déjà installé Anaconda sur votre machine, assurez-vous d’abord de mettre à jour la dernière version.

Préparer l’environnement

Tout d’abord, nous devrons installer quelques bibliothèques que nous utiliserons dans le script que nous allons écrire. Ne vous inquiétez pas, ce processus sera assez simple et vous n’avez pas besoin de savoir comment ils fonctionnent. Entrez simplement (ou copiez / collez) les commandes ci-dessous:

1. En haut à droite, cliquez sur «Nouveau», puis sur «Terminal».

Terminal ouvert

2. La fenêtre du terminal s’ouvre dans votre navigateur.

Vue de départ du terminal

3. Pour vérifier si l’installation de Python a réussi, tapez ce qui suit et appuyez sur «Entrée»

python --version

4. Si rien ne se passe, vous n’avez pas installé Python. Essayez de désinstaller / réinstaller Anaconda. Sinon, vous verrez quelque chose comme ceci:

$ python --version
Python 3.7.0

5. Installons le premier paquet appelé «pandas». Dans le terminal, tapez (ou collez):

conda install pandas

6. Appuyez ensuite sur «Entrée». Lorsqu’on vous demande si vous voulez continuer, tapez «y» et appuyez à nouveau sur «Entrée»; cela devrait prendre quelques secondes pour terminer.

Noter: si la commande ne fonctionne pas, vous pouvez essayer de la remplacer par:

pip install pandas

Pour accéder à l’API Google Search Console, j’utilise ce génial wrapper créé par Josh Carty et accessible sur GitHub.

7. Pour pouvoir installer à partir du GitHub, nous devons d’abord l’installer sur notre machine, alors allez-y et saisissez votre terminal:

conda install git

8. Pour installer le wrapper à partir de GitHub, dans votre type de terminal:

pip install git+https://github.com/joshcarty/google-searchconsole

C’est tout ce dont nous aurons besoin pour ce projet.

Accéder à l’API GSC

Pour accéder à l’API Google Search Console (API GSC), vous devez créer les informations d’identification dans la Google Developer Console. Comme il s’agit d’un processus assez détaillé, je ne pourrais pas faire un meilleur travail qu’un super SEO, Jean-Christophe-Chouinard. Veuillez suivre les instructions pour le faire dans son guide.

Important: l’interface utilisateur de la Developer Console change avec le temps, de sorte que l’emplacement des éléments de navigation changera; cependant, c’est indispensable que vous suivez les étapes dans l’ordre dans lequel elles sont présentées dans le lien ci-dessus. Cette étape est la plus sujette à des erreurs à l’avenir. Si vous ne trouvez pas «Autre» comme type d’application, vous pouvez utiliser «Bureau», car il fonctionne également.

Important: Veuillez noter que vous devez être connecté à la Google Developer Console avec le même compte Google que celui que vous souhaitez utiliser pour accéder à Google Search Console.

Une fois terminé, téléchargez et enregistrez une copie JSON de votre fichier « secrets client » à partir de la Google Developers Console. C’est également une bonne idée de conserver une copie de ce fichier quelque part pour la conserver sur votre disque dur, car vous pourrez la réutiliser pour tout votre travail avec l’API GSC à l’avenir.

Commençons par le codage!

1. Ouvrez un nouveau bloc-notes

Tout d’abord, créez le dossier de votre projet quelque part sur votre disque dur. Dans votre interface Jupyter Notebook, accédez au dossier dans lequel vous souhaitez commencer à travailler (important!) Et créez un nouveau notebook Python 3.

Démarrer le notebook Python 3

Vous serez accueilli avec une interface simple avec une seule ligne active.

Vue de démarrage du notebook

Nous utiliserons cette interface pour créer le code d’extraction des données GSC.

Pendant que nous y sommes, laissez tomber un copie de votre fichier «clients secrets» dans le même dossier et renommez-le «client_secrets.json». Nous en aurons besoin plus tard.

2. Activer les modules nécessaires

À ce stade, nous devons activer les modules que nous avons téléchargés précédemment. Pour ce faire, tapez ce qui suit et appuyez sur Maj + Entrée pour exécuter:

import pandas as pd
import searchconsole

Vous devriez voir quelque chose comme ceci:

Pandas et console de recherche

Conseil:
Appuyez sur «Maj + Entrée» = exécuter et créer une nouvelle ligne dans le cahier.
Appuyez sur «ctrl + entrée» = exécutez la ligne dans le cahier (aucune nouvelle ligne ne sera créée).

3. Authentifier l’accès à l’API

Même si l’authentification peut être effectuée à chaque fois que vous accédez à l’API GSC, dans ce guide, je vais vous montrer comment simplifier le processus d’authentification afin que vous n’ayez pas à vous connecter à chaque fois. La prochaine étape consistera à arrêter l’apparition d’une invite de reconnexion chaque fois que vous exécutez le script. je fortement recommande de le suivre pour créer un fichier credentials.json réutilisable:

3.1 Déposez votre fichier client_secrets.json renommé dans le même dossier à partir duquel vous exécutez le notebook (si vous ne l’avez pas déjà fait) et tapez / copiez-collez ce qui suit:

account=searchconsole.authenticate(client_config='client_secrets.json', serialize="credentials.json")

3.2 Vous serez invité à vous connecter au même compte avec lequel vous avez créé client_secrets.json. Autorisez l’accès. Cette commande créera un fichier credentials.json, que vous utiliserez à l’avenir avec client_secrets.json pour éviter les invites de reconnexion chaque fois que vous aurez besoin d’accéder à l’API.

Cette étape vous facilitera la vie: à chaque fois par la suite, lorsque vous créez un nouvel export d’API GSC, utilisez plutôt cette ligne:

account=searchconsole.authenticate(client_config='client_secrets.json', credentials="credentials.json")

Noter: vous devrez conserver la copie de client_secrets.json et credentials.json dans le dossier du projet, c’est-à-dire d’où votre script python s’exécute.

4. Récupérez les données

Enfin, nous sommes sur la dernière étape!

4.1 Allez-y et tapez ce qui suit dans, suivi de «shift + enter» pour exécuter:

webproperty=account[' https://www.example.com/']

Important: assurez-vous que le domaine est exactement comment il est entré dans GSC, y compris www et / ou barre oblique de fin.

exampleGSC = webproperty.query.range('2020-09-01', '2020-09-02').dimension('query').get()

(appuyez sur «shift + enter» pour exécuter)

4.2 Choisissez votre plage de dates et votre dimension. Vous verrez que l’exemple ci-dessus comprend deux jours de données et une «requête» en tant que dimension. Si vous souhaitez accéder à plus de dimensions, je le couvre plus tard dans ce guide, alors continuez à lire.

4.3 Faites-en un bloc de données (ne vous inquiétez pas de ce que c’est, mais vous en avez besoin pour pouvoir exporter vers le fichier CSV) tapez ce qui suit et appuyez sur «Maj + Entrée» pour exécuter:

exampleBVreport = pd.DataFrame(data=exampleGSC)

4.4 Et, enfin, exportons-le:

exampleBVreport.to_csv('exampleCSV.csv', index=False)

(appuyez sur «ctrl + entrée» pour exécuter)

4.5 Vérifiez votre dossier de projet. Vous trouverez l’export complet des données dans exampleCSV.csv.

C’est tout. Vous l’avez fait!

Noter: Cela vous aidera à différencier les projets sur lesquels vous travaillez.

Bonus: le rendre facilement réutilisable

Maintenant que tout est configuré et que vous savez que votre code fonctionne, vous pouvez l’enregistrer dans le * .py (Python), ce qui vous permettra de le réutiliser très facilement. Enregistrez le code en tant que * .py fichier et placez-le dans votre dossier de projet.

Noter: le texte suivant «#» est un commentaire expliquant ce que fait la prochaine étape du code.


# Import Pandas
import pandas as pd

# Import Search Console wrapper
import searchconsole

# Authenticate with GSC (don't forget to drop both JSON files into the same folder)
account=searchconsole.authenticate(client_config='client_secrets.json', credentials="credentials.json")

# Connect to the GSC property
webproperty= account['https://www.example.com/']

# Set your dates and dimensions
exampleGSC = webproperty.query.range('2020-09-01', '2020-09-02').dimension('query').get()

# Make it a Data Frame
exampleBVreport = pd.DataFrame(data=exampleGSC)

# Export to *.csv
exampleBVreport.to_csv('exampleCSV.csv', index=False)

N’oubliez pas de:

  • Placez vos fichiers client_secrets.json et credentials.json dans votre dossier de projet.
  • Remplacez la valeur de propriété Web par exact URL du domaine complet du compte.
  • Fixez vos dates.
  • Vous pouvez modifier le nom du fichier CSV exporté si vous le souhaitez (ceci est facultatif).

Ensuite, vous devrez accéder au dossier dans lequel le script est enregistré dans votre terminal. Voici quelques astuces rapides pour vous déplacer dans votre système de fichiers dans le terminal:

  • Si vous tapez cd .. (c’est deux périodes), vous irez au répertoire au-dessus de celui dans lequel vous êtes actuellement.
  • Si vous tapez ls (c’est un L, pas un I), vous listerez tous les fichiers de la catégorie (utile lorsque vous oubliez dans quelle catégorie vous voulez entrer).
  • Si vous tapez cd /folder/deeperfolder vous naviguerez jusqu’à l’endroit spécifié dans le chemin (dans ce cas, ‘deepfolder’). Si vous le souhaitez, vous pouvez déplacer un dossier à la fois.

Noter: si vous souhaitez en savoir plus sur la navigation dans le terminal, cet article peut être un bon point de départ.

Lorsque vous accédez à la catégorie du terminal dont vous avez besoin, exécutez la commande:

python yourfilename.py

Il passera automatiquement par toutes les étapes de votre script et exportera le fichier dans votre dossier. Voyez à quelle vitesse vous pouvez faire cela?

Qu’en est-il des autres informations GSC?

Vous pouvez exporter quatre dimensions différentes avec cet accès API:

  • ‘mettre en doute’
  • ‘page’
  • ‘dispositif’
  • ‘country’ (exportera le code du pays)

Si vous souhaitez faire cela, vous devrez mettre à jour la ligne de dimensions de votre code, comme indiqué ci-dessous (voir le texte en gras):


# Import Pandas
import pandas as pd

# Import Search Console wrapper
import searchconsole

# Authenticate with GSC (don't forget to drop both JSON files into the same folder)
account=searchconsole.authenticate(client_config='client_secrets.json', credentials="credentials.json")

# Connect to the GSC property
webproperty= account['https://www.example.com/']

# Set your dates and dimensions
exampleGSC = webproperty.query.range('2020-09-01', '2020-09-02').dimension('query','page','device','country').get()

# Make it a Data Frame
exampleBVreport = pd.DataFrame(data=exampleGSC)

# Export to *.csv
exampleBVreport.to_csv('exampleCSV.csv', index=False)

Noter: vous pouvez ajouter ou supprimer des dimensions pour créer différentes combinaisons en fonction de vos besoins, mais n’oubliez pas que plus vous incluez de dimensions, plus les fichiers d’exportation deviennent volumineux.

Voici les fichiers à télécharger et à réutiliser

Téléchargez les fichiers python pour l’exportation des requêtes et toutes les dimensions disponibles.

Avec un peu de préparation pour configurer l’environnement, vous pouvez non seulement accélérer les exportations de votre date Google Search Console, mais également contourner la limite d’exportation de 1000 lignes. Vous pouvez réutiliser le même code à chaque fois en modifiant simplement le site Web sur lequel vous travaillez et les paramètres nécessaires à l’exportation.

Veuillez laisser un commentaire ci-dessous si vous avez des questions, je serai plus qu’heureux de vous aider.



[ad_2]

Les commentaires sont clos.