Crawl Google, logs et zones d'ombre : comprendre Googlebot au lieu de deviner
Google ne vous ignore pas.
Google vous lit, vous teste, vous compare.
Le probleme, c'est que ce travail se fait en silence.
Vous publiez une page.
Vous l'optimisez.
Vous la reliez.
Puis vous attendez.
Parfois, elle monte.
Parfois, elle stagne.
Parfois, elle disparait.
Sans lecture du crawl, vous pilotez a vue.
Avec les logs, vous voyez ce que Googlebot fait vraiment :
- quelles URLs il revisite
- quelles sections il delaisse
- ou il gaspille son effort
- quelles pages il priorise implicitement
En bref
Ce guide vous donne :
- une lecture simple du crawl
- une methode pratique pour exploiter les logs
- un plan d'action pour diriger Googlebot vers les pages strategiques
Si vous cherchez le pendant "structure interne" : maillage interne : définition + exemples.
1) Crawl, indexation, classement : trois choses differentes
Beaucoup de confusions viennent de la.
Crawl
Googlebot visite une URL et lit son contenu.
Indexation
Google decide d'ajouter (ou non) cette URL dans son index.
Classement
Google decide la position de la page sur une requete.
Une page peut etre crawlée sans etre indexee.
Une page indexee peut etre mal classee.
Diagnostic connexe : pourquoi Google n'indexe pas mon site.
2) Googlebot ne crawl pas "tout", il priorise
Googlebot n'inspecte pas votre site de maniere lineaire.
Il suit ses habitudes :
- chemins deja connus
- pages souvent mises a jour
- zones bien reliees
- URLs qui ont deja montre de la valeur
Cela signifie qu'un site peut avoir des centaines de pages en ligne, mais seulement une partie reellement revisitee.
3) Ce qu'on appelle vraiment le crawl budget
Le crawl budget n'est pas un nombre fixe affiche quelque part.
C'est un compromis entre :
- ce que Google veut crawler (crawl demand)
- ce que votre serveur peut absorber (crawl capacity)
Si votre site envoie trop de bruit (URLs inutiles, filtres, variantes), Google gaspille son effort.
Si votre structure est lisible et hierarchisee, Google concentre plus facilement son effort sur les bonnes pages.
4) Les logs : la source la plus proche de la realite
Search Console donne une vue tres utile, mais partielle.
Les logs serveur montrent le comportement brut du robot.
Dans un log, vous voyez :
- date et heure du hit
- user-agent
- URL appelee
- code HTTP renvoye
- eventuellement referer et temps de reponse
Ce sont ces donnees qui permettent de repondre a la vraie question :
"Googlebot passe-t-il la ou j'ai besoin qu'il passe ?"
5) Mini-methode logs en 30 minutes
Etape 1 : extraire les hits Googlebot
Exemple format Apache/Nginx :
grep -i "Googlebot" access.log > googlebot.log
Etape 2 : lister les URLs les plus crawlées
awk '{print $7}' googlebot.log | sort | uniq -c | sort -nr | head -n 100
Etape 3 : croiser avec les types de pages
Classez les URLs en familles :
- pages business
- articles SEO
- pages techniques
- pages inutiles (filtres, parametres, archives peu utiles)
Etape 4 : observer les rythmes
Le volume brut est utile, mais le rythme l'est encore plus.
Une section qui passe d'un crawl tous les 2 jours a tous les 7 jours envoie un signal de desengagement.
Etape 5 : appliquer corrections de structure
- renforcer liens internes vers pages cibles
- reduire bruit navigationnel
- supprimer ou desindexer zones sans valeur SEO
6) Les signaux de sur-crawl et de sous-crawl
Sur-crawl (problematique)
Googlebot visite trop souvent :
- pages de recherche interne
- facettes/filtres sans valeur
- pages quasi dupliquees
- URLs avec parametres
Impact : moins d'effort disponible pour vos pages strategiques.
Sous-crawl (problematique)
Googlebot visite trop peu :
- pages services importantes
- nouveaux articles supports
- pages mises a jour recemment
Impact : indexation plus lente et progression retardee.
7) Pourquoi les pages qui convertissent sont parfois peu crawlées
C'est un cas frequent.
Les pages informationnelles longues et anciennes deviennent des "repères" pour Google.
Les pages business, elles, sont parfois plus courtes, moins liees, moins mises a jour.
Resultat : Google revient souvent sur des pages qui attirent, mais pas sur celles qui convertissent.
Solution :
- utiliser les pages sur-crawlées comme hubs de redistribution
- ajouter des liens contextuels forts vers les pages business
- enrichir les pages business pour qu'elles gagnent en valeur percue
8) Architecture et profondeur : le crawl aime les chemins courts
Plus une page est profonde dans l'arborescence, plus elle a tendance a etre crawlée tard et moins souvent.
Objectif pratique :
- limiter la profondeur de clic vers pages importantes
- clarifier les niveaux de navigation
- eviter les labyrinthes de taxonomies
Pour l'arbitrage global : backlinks ou architecture.
9) Robots, noindex, canonicals : quand utiliser quoi
robots.txt
A utiliser pour empecher le crawl de zones techniques non utiles.
noindex
A utiliser pour laisser crawler une page mais l'exclure de l'index.
canonical
A utiliser pour indiquer la version principale quand plusieurs URLs proches existent.
Erreur frequente : combiner ces directives sans coherence, ce qui brouille les signaux.
10) Les zones d'ombre : utiles si elles sont volontaires
Toutes les pages n'ont pas vocation a etre fortement crawlées ni indexees.
Certaines pages servent de structure :
- hubs internes
- archives de navigation
- pages de transition
Le probleme n'est pas d'avoir des zones d'ombre.
Le probleme est de les subir sans les piloter.
11) Playbook de correction quand le crawl part au mauvais endroit
Situation A : sur-crawl de pages faibles
Actions :
- reduire liens vers ces pages
- bloquer zones techniques non utiles
- uniformiser canonicals
- verifier parametres URL
Situation B : sous-crawl de pages strategiques
Actions :
- ajouter liens entrants depuis pages sur-crawlées
- remonter ces pages dans navigation logique
- mettre a jour leur contenu
- les inclure clairement dans sitemap
Situation C : nouvelles pages peu revisitees
Actions :
- publication avec contenu deja solide
- maillage immediat depuis 3 a 5 pages existantes
- inspection URL Search Console
- verification des logs a J+3/J+7/J+14
12) KPI crawl a suivre chaque mois
Suivez des indicateurs simples :
- part des hits Googlebot sur pages business
- part des hits sur contenus supports recents
- ratio hits utiles vs hits de bruit
- evolution des codes HTTP (200, 301, 404, 5xx)
- vitesse de re-crawl apres mise a jour
Ces KPI servent a piloter, pas a collectionner des chiffres.
13) Crawl et delais SEO : le lien direct
Un crawl mieux oriente reduit les delais :
- decouverte plus rapide des nouvelles pages
- reevaluation plus rapide des pages optimisees
- meilleure diffusion des mises a jour
Reperes complets : combien de temps faut-il pour le référencement naturel.
14) Erreurs classiques en audit crawl
- analyser un seul jour de logs (trop court)
- ignorer les rythmes hebdo/mensuels
- confondre volume de crawl et qualite de crawl
- corriger robots avant d'avoir cartographie les URLs
- oublier de relier les analyses crawl aux objectifs business
15) Procedure simple en 30 jours
Semaine 1
- extraire logs Googlebot
- classifier les URLs
- identifier bruit et pages cibles
Semaine 2
- corriger directives robots/noindex/canonical
- ajuster maillage vers pages prioritaires
Semaine 3
- publier/mettre a jour contenus supports
- ajouter liens depuis pages sur-crawlées
Semaine 4
- relire logs et comparer les rythmes
- verifier indexation et positions
- re-prioriser le mois suivant
Ce cycle simple suffit souvent a remettre Googlebot sur la bonne trajectoire.
FAQ
Comment savoir si Googlebot visite vraiment mon site ?
La source la plus fiable reste les logs serveur. Search Console complete bien, mais les logs montrent les hits reels.
Faut-il bloquer beaucoup d'URLs dans robots.txt ?
Non. Bloquez seulement les zones sans valeur SEO. Un blocage excessif peut couper des chemins utiles.
Pourquoi Google crawl des pages inutiles ?
Souvent a cause de liens internes, de filtres ouverts, de parametres URL ou d'anciennes structures encore actives.
Le crawl frequent garantit-il un bon classement ?
Non. Le crawl frequent facilite la reevaluation, mais le classement depend aussi de la pertinence, de la qualite et de l'autorite.
Dois-je demander l'indexation apres chaque mise a jour ?
Pas necessaire pour de petits ajustements. Utilisez l'inspection URL surtout apres une mise a jour majeure ou une nouvelle page strategique.
A lire ensuite
- Prioriser des optimisations rentables : 6 optimisations SEO
- Canaliser l'autorité interne : maillage interne
- Arbitrage architecture vs liens : backlinks ou architecture
- Diagnostiquer la non-indexation : pourquoi Google n'indexe pas mon site