Comment Google découvre un site : découverte, crawl et indexation expliqués
Mettre un site en ligne et constater que Google l’ignore pendant des jours est très fréquent.
La question est simple mais fondamentale : comment Google découvre-t-il l'existence d'un site ? Et surtout, comment faire pour qu'il le découvre rapidement, qu'il explore les bonnes pages, et qu'il finisse par les indexer ?
Beaucoup de débutants en SEO sautent cette étape en pensant que Google "voit" automatiquement tout ce qu'on publie. En réalité, le processus de découverte, de crawl et d'indexation est progressif, sélectif, et parfois bloqué par des problèmes techniques simples à corriger — si on sait où regarder.
Ce guide explique le processus complet, de la première découverte d'une URL jusqu'à son positionnement dans les résultats, avec les outils et actions concrètes pour chaque étape.
En bref : les 3 étapes avant d'apparaître dans Google
Google doit :
1) découvrir une URL
2) la crawler (Googlebot visite la page et lit son contenu)
3) l'indexer (Google la stocke et peut la présenter dans les résultats)
À n'importe laquelle de ces étapes, un blocage peut survenir. C'est pourquoi un site peut être :
- découvert mais peu crawlé (serveur trop lent, robots.txt restrictif)
- crawlé mais non indexé (contenu insuffisant, noindex, duplication)
- indexé mais mal positionné (requête mal alignée, concurrence forte)
Si tu veux vérifier tout de suite : comment savoir si ton site est indexé sur Google.
Les 3 étapes expliquées en détail
Étape 1 : La découverte
La découverte, c'est simplement le moment où Google prend conscience qu'une URL existe. Sans cette étape, tout le reste est impossible.
Google maintient une liste permanente d'URLs à visiter — ce qu'on appelle la file de crawl ou crawl queue. Quand une nouvelle URL est détectée, elle est ajoutée à cette file. Googlebot la visitera quand son budget de crawl le permet.
La découverte peut prendre quelques heures (si un site actif fait un lien vers vous) ou plusieurs semaines (si le site est tout nouveau et isolé).
Étape 2 : Le crawl
Le crawl, c'est quand Googlebot (le robot de Google) visite réellement la page. Il télécharge le HTML, lit le contenu, suit les liens, et transmet ces informations à Google pour traitement.
Ce que fait Googlebot pendant le crawl :
- Lire le contenu textuel de la page
- Analyser la structure HTML (H1, H2, liens, images...)
- Suivre les liens internes pour découvrir d'autres pages
- Vérifier la vitesse de chargement et la stabilité
- Analyser les balises techniques (canonical, noindex, hreflang...)
Googlebot ne "voit" pas les pages comme un humain. Il ne charge pas le JavaScript de la même façon, ne voit pas les images (sauf via les balises alt), et ne remplit pas les formulaires.
→ Guide complet sur le crawl : crawl Google + analyse des logs
Étape 3 : L'indexation
Après le crawl, Google traite les informations collectées et décide (ou non) d'indexer la page. Cette décision est basée sur plusieurs critères :
- Le contenu est-il utile et non dupliqué ?
- La page répond-elle à une intention de recherche réelle ?
- N'y a-t-il pas de directive technique qui bloque l'indexation ?
L'indexation n'est pas permanente. Google peut désindexer une page si elle perd de sa valeur ou si sa qualité se dégrade.
Google avance par étapes :
- Découverte : Google apprend que l’URL existe
- Crawl : Googlebot vient visiter la page
- Indexation : Google décide d’ajouter la page à l’index
Guide blocage : pourquoi Google n’indexe pas certaines pages.
Les 4 sources de découverte d'une URL
Comment Google apprend-il l'existence d'une page ? Il y a quatre canaux principaux.
1. Les liens externes (backlinks)
C'est historiquement le principal vecteur de découverte. Quand un autre site fait un lien vers votre page, Googlebot suit ce lien lors de son exploration du site source — et découvre ainsi votre URL.
Pourquoi c'est puissant : si le site qui fait le lien est crawlé très fréquemment par Google (un grand média, par exemple), la découverte peut être quasi-instantanée.
Implication pratique : pour un nouveau site, obtenir même un ou deux liens depuis des sites déjà bien établis (forums spécialisés, annuaires sérieux, partenaires) peut accélérer considérablement la découverte.
2. Les liens internes
Une fois la homepage (ou une première page) découverte, Google explore votre site principalement via les liens internes. Il suit chaque lien pour trouver de nouvelles URLs.
Une page sans aucun lien interne est invisible pour Googlebot — il n'a aucun moyen de la trouver si elle n'apparaît pas dans le sitemap.
C'est l'une des raisons pour lesquelles le maillage interne est aussi important pour le découverte que pour le positionnement.
→ Guide complet sur le maillage interne : maillage interne SEO : définition, exemples et méthode
3. Les sitemaps XML
Un sitemap.xml est un fichier qui liste explicitement toutes les URLs importantes de votre site, avec optionnellement leur date de dernière modification et leur fréquence de changement.
Ce que le sitemap fait :
- Il dit à Google "voici les pages qui existent sur mon site"
- Il permet à Google de découvrir rapi dement les nouvelles pages
- Il aide à prioriser certaines URLs dans le crawl
Ce que le sitemap ne fait pas :
- Il ne garantit pas l'indexation des pages listées
- Il ne remplace pas le maillage interne
- Une page dans le sitemap mais sans contenu utile ne sera pas indexée pour autant
Bonne pratique : soumettez votre sitemap à Google Search Console (Indexation → Sitemaps). Google confirmera qu'il a bien lu le fichier et combien d'URLs il y a découvertes.
4. Google Search Console (soumission manuelle)
Google Search Console offre deux outils directs :
L'inspection d'URL → "Demander l'indexation" : pour une URL précise, vous pouvez demander manuellement à Google de la crawler rapidement. Utile pour des pages importantes que vous venez de créer ou de modifier.
La soumission d'un sitemap : comme mentionné ci-dessus, soumettre votre sitemap via Search Console est souvent la première action à faire sur un nouveau site.
Le crawl budget : ce que tout propriétaire de site doit comprendre
Le crawl budget (ou budget de crawl) est le nombre de pages que Googlebot accepte d'explorer sur votre site par période de temps. Il est limité, et Google l'alloue en fonction de sa perception de la valeur de votre site.
Pourquoi le crawl budget est important
Pour un petit site de 20-50 pages, le crawl budget n'est généralement pas un problème — Google peut explorer toutes les pages en quelques heures.
Pour un site de plusieurs milliers de pages (e-commerce, site de presse, annuaire), le crawl budget devient stratégique. Si Google dépense son budget sur des pages de peu de valeur (filtres, tags, pages de résultats vides), il n'en aura plus pour les vraies pages importantes.
Facteurs qui influencent le crawl budget
Facteurs qui l'augmentent :
- Autorité du domaine (plus votre site est reconnu, plus Google y investit)
- Vitesse du serveur (un serveur rapide permet à Googlebot d'explorer plus de pages)
- Mise à jour fréquente du contenu (Google revient plus souvent si vous publiez régulièrement)
- Liens depuis des sites très crawlés
Facteurs qui le réduisent ou le gaspillent :
- Pages de peu de valeur (filtres, tags, URLs avec paramètres)
- Erreurs 404 (Googlebot perd du temps sur des pages inexistantes)
- Redirections en chaîne (chaque redirect consomme du budget)
- Contenu dupliqué (Googlebot explore le même contenu plusieurs fois)
- Serveur lent (Googlebot crawle moins vite pour ne pas surcharger le serveur)
Comment optimiser le crawl budget ?
- Bloquer les pages sans valeur SEO via robots.txt (pages d'admin, pages de filtres, duplicat)
- Consolider les pages similaires pour réduire la fragmentation
- Améliorer la vitesse serveur pour permettre à Googlebot d'aller plus vite
- Renforcer le maillage interne pour que les pages importantes reçoivent le plus d'attention
- Corriger les erreurs 404 et les redirections en boucle
Comment aider Google à découvrir votre site : checklist complète
Étape 1 – Configuration initiale (à faire une fois) :
- [ ] Crear un compte Google Search Console et vérifier la propriété du site
- [ ] Générer un sitemap.xml (votre CMS le fait souvent automatiquement) et le soumettre à Search Console
- [ ] Vérifier que robots.txt n'est pas trop restrictif (
votresite.com/robots.txt) - [ ] S'assurer que le certificat SSL est valide (HTTPS)
- [ ] Ajouter un analytics (Google Analytics 4 ou autre) pour mesurer le trafic dès le début
Étape 2 – Favoriser la découverte (premières semaines) :
- [ ] Créer des liens internes depuis chaque nouvelle page vers d'autres pages déjà indexées
- [ ] Créer des liens internes depuis les pages existantes vers les nouvelles pages
- [ ] S'assurer que toutes les pages sont accessibles en moins de 3 clics depuis la homepage
- [ ] Obtenir au moins 1-2 liens externes depuis des sites fiables (partenaires, annuaires sérieux)
- [ ] Partager le lien sur les réseaux sociaux (signal d'activité)
Étape 3 – Suivi et optimisation :
- [ ] Vérifier l'indexation une fois par mois dans Search Console (rapport Pages)
- [ ] Demander l'indexation des pages importantes non encore indexées
- [ ] Corriger immédiatement les erreurs de crawl signalées par Search Console
- [ ] Publier régulièrement du nouveau contenu (signal d'activité pour Googlebot)
Les erreurs les plus fréquentes qui bloquent la découverte
1. Lancer un site en "mode maintenance" ou avec robots.txt bloquant et oublier d'ouvrir
C'est plus fréquent qu'on ne le pense. Pendant le développement, robots.txt ou une option "Blog privé" dans le CMS bloque tout crawl. Une fois le site "lancé", personne ne pense à ouvrir le fichier.
2. Ne pas créer de maillage interne vers les nouvelles pages
Publier des articles "orphelins" — sans aucun lien interne depuis d'autres pages — est la cause numéro un des pages jamais découvertes sur un site existant.
3. Ne jamais soumettre de sitemap
Sans sitemap et sans liens internes cohérents, la découverte peut prendre des semaines. Surtout pour un nouveau site sans backlinks.
4. Créer des milliers de pages de peu de valeur
Tags, filtres, archives, résultats de recherche internes... Ces pages consomment le crawl budget sans le mériter. Bloquer-les dans robots.txt ou les mettre en noindex est une bonne pratique.
5. Pages trop profondes dans l'arborescence
Une page accessible uniquement en cliquant 5 fois depuis la homepage sera crawlée rarement, voire jamais. Les pages importantes doivent être à 1-3 clics maximum.
La différence entre présence dans l'index et visibilité dans les résultats
Il y a une confusion fréquente entre être "découvert", être "indexé" et "apparaître dans les résultats".
Découverte → Google sait que l'URL existe.
Crawl → Google a visité et lu la page.
Indexation → Google juge la page digne d'entrer dans son index.
Position dans les SERPs → Google décide à quel rang la page apparaît pour quelles requêtes.
Chaque étape peut être bloquée ou sous-optimale indépendamment. Un site peut être entièrement indexé mais invisible dans les résultats parce que ses contenus ne ciblent pas de requêtes réelles.
→ Comprendre pourquoi un site indexé n'a quand même pas de trafic : pourquoi mon site n'a pas de trafic
Monitoring de la découverte : lire les logs serveur
Pour les professionnels SEO ou les sites importants, l'analyse des logs serveur est la méthode la plus précise pour comprendre le comportement de Googlebot.
Les logs enregistrent chaque requête que Googlebot (ou tout autre bot) fait à votre serveur. En les analysant, vous pouvez voir :
- Quelles pages Google crawle le plus souvent
- Quelles pages il ignore complètement
- À quelle fréquence il revient sur le site
- Si certaines sections consomment trop de budget de crawl
Des outils comme Screaming Frog Log Analyser, SEMrush Log File Analyzer ou OnCrawl permettent d'analyser ces fichiers visuellement.
→ Guide complet sur l'analyse des logs : crawl Google + analyse des logs
Cas pratique : que faire quand un nouveau site n'est pas découvert après 2 semaines ?
Checklist de diagnostic :
- Vérifier robots.txt →
votresite.com/robots.txt→ est-ce que Googlebot est bloqué ? - Vérifier Search Console → Le site est-il bien ajouté et vérifié ?
- Vérifier que le sitemap existe →
votresite.com/sitemap.xml→ accessible ? - Vérifier la vitesse du serveur → Si le serveur met > 3 secondes à répondre, Googlebot peut abandonner
- Vérifier les liens internes → Les pages principales sont-elles accessibles depuis la homepage ?
- Inspecter l'URL principale dans Search Console → quelle raison est donnée ?
Si tout est correct et que le site n'est toujours pas découvert : demandez l'indexation via Search Console et attendez. Parfois, il faut juste un peu de temps.
FAQ
Combien de temps avant que Google découvre un tout nouveau site ?
Parfois quelques heures (si un site actif fait un lien vers vous), parfois 2 à 4 semaines (avec seulement un sitemap soumis à Search Console). En moyenne, avec un sitemap soumis et quelques liens internes, on voit les premières visites de Googlebot dans les logs en 3 à 7 jours.
Est-ce que soumettre un sitemap suffit pour que Google découvre tout le site ?
C'est utile mais pas suffisant seul. Le sitemap aide Google à lister les URLs, mais le maillage interne et la qualité globale du site influencent fortement ce que Googlebot décide d'explorer et d'indexer réellement.
Pourquoi certaines pages ne sont jamais découvertes même sur un site existant ?
Souvent : pages orphelines (aucun lien interne vers elles), pages trop profondes dans l'arborescence (5+ clics depuis la homepage), ou pages exclues par robots.txt/noindex de manière involontaire. Le maillage interne bien fait résout la plupart de ces problèmes.
Est-ce que Google découvre éternellement de nouvelles pages ou à un moment il "arrête" ?
Google maintient une exploration continue de l'ensemble du web. Il ne "s'arrête" pas, mais alloue son budget de crawl différemment selon l'intérêt perçu de chaque site. Un site actif qui publie régulièrement verra Googlebot revenir beaucoup plus fréquemment qu'un site statique qui n'évolue jamais.
Peut-on forcer Google à crawler une page ?
Oui, via l'outil "Inspection d'URL → Demander l'indexation" dans Search Console. Cette action envoie une demande prioritaire pour que Googlebot visite la page prochainement. Mais si la page a des problèmes (contenu insuffisant, noindex), le crawl ne suffira pas à la faire indexer.
Si on supprime une page, Google la désindexe-t-il automatiquement ?
Pas immédiatement. Google détectera lors de sa prochaine visite que la page renvoie une erreur 404 ou une redirection, et la retirera progressivement de l'index. Si vous voulez accélérer ce processus, utilisez l'outil "Suppression d'URL" dans Search Console.
En résumé
Google découvre les sites grâce aux liens (externes et internes), aux sitemaps et à Search Console. Le processus complet — découverte → crawl → indexation — peut prendre de quelques heures à plusieurs semaines selon le site.
Pour accélérer : soumettre un sitemap, créer du maillage interne dès le départ, obtenir quelques premiers liens externes, et demander l'indexation des pages prioritaires dans Search Console.
Si votre site est bien exploré mais que le trafic reste faible, le problème vient souvent du choix des sujets, de la qualité du contenu ou de la structure globale du site.
→ Comment améliorer le SEO d'un site
Besoin d'aide pour la découverte et l'indexation ?
→ **Audit stratégique** — analyse complète de l'état de découverte, crawl et indexation de votre site, avec les actions prioritaires
→ **Range Ton Site** — gestion du maillage interne et du contenu pour que chaque nouvelle page soit découverte et indexée rapidement