Toute personne qui cherche à améliorer son SEO a déjà entendu parler du budget crawl. Malheureusement, le budget crawl, comme beaucoup d’autres choses en SEO, est un concept abstrait qui n’est pas si simple à comprendre. Dans cet article, revenons sur la définition du budget crawl, comment réussir à le visualiser et à l’améliorer.
Pour faire simple, le budget crawl, ce sont les ressources que Google va accorder à ses robots chaque jour pour visiter votre site.
Généralement, le budget crawl va représenter une quantité de données qui seront traitées. Cela veut dire qu’entre deux sites qui ont un budget crawl identique, un site qui aura des pages plus légères en termes de poids de fichiers verra plus de pages de son site être visitées par les robots, qui sont aussi appelés des crawlers.
L’objectif pour améliorer son SEO va donc être de bien gérer son budget crawl pour faire en sorte que les crawlers passent leur temps sur les pages les plus utiles et ignorent les pages inutiles. Il est donc nécessaire de comprendre comment fonctionne un crawler.
Le but d’un crawler comme celui de Google est de découvrir et visiter un maximum de pages. Pour découvrir des pages, il va se baser sur plusieurs éléments dont :
Le robot va en priorité visiter les pages présentes dans le sitemap et va ensuite découvrir et visiter chaque lien qu’il va trouver sur le site. S’il n’a plus de ressources pour explorer les liens qu’il a trouvés, il les mettra de côté pour plus tard.
Il est donc primordial de surveiller et analyser les liens internes de votre site pour éviter de désoptimiser votre budget crawl avec des pages de mauvaise qualité.
Dans une configuration technique classique, votre site laisse accès au robot à toutes les pages du site, que ce soit des pages que vous avez créées ou des pages générées automatiquement par votre CMS. Et ce sont généralement ces pages générées par votre CMS qui vont avoir tendance à pénaliser votre budget crawl.
Les spider trap sont des groupements d’URLs générées automatiquement qui peuvent piéger un robot pour qu’il détecte une infinité d’URL. C’est assez fréquemment le cas sur les sites e-commerce avec un catalogue conséquent à cause des filtres à facettes.
Le sujet des spider trap est un sujet très complexe, un article détaillé à été rédigé spécifiquement sur les spider trap et les moyens de les détecter.
Sur les sites e-commerce, on retrouve par exemple les moteurs de tri et de filtres qui vont générer des paramètres, sauf que si vous croisez plusieurs paramètres entre eux, vous générez une nouvelle URL indexable et pouvez donc par ce système, générer une infinité de pages qui n’apportent aucune valeur aux robots et qui seront visitées et potentiellement indexées.
Par exemple, sur le site privatesportshop.fr, si vous accédez à une page catégorie running trail (https://www.privatesportshop.fr/brand/running-trail), celle-ci est indexable. Si vous appliquez des filtres pour afficher les produits en taille M, vous générez l’URL suivante : https://www.privatesportshop.fr/brand/running-trail?standard_size=M qui est elle aussi indexable et explorable par Google. Si vous activez un second filtre, vous générez une nouvelle URL et pouvez donc créer une infinité d’URL sur le site que Google pourrait théoriquement explorer (par chance, elles ne sont pas présentes dans le maillage interne).
Sur Wordpress, lorsque vous publiez un article de blog, une page archive est générée pour regrouper tous les articles publiés à la même date. Une nouvelle page d’archive sera donc générée chaque jour où vous publiez un article.
Cette page générée n’apporte rien à votre référencement et n’a donc aucune raison d’être explorée par les robots.
Par exemple, sur le site blueberryhome.fr, toutes les pages archives sont indexables et explorables par les robots, ce qui représente une forte perte de budget crawl.
Toujours sur wordpress, les pages de tag (étiquettes) permettent de regrouper des articles qui parlent de thématiques similaires. C’est un très bon point pour la navigation des utilisateurs et la création de blocs de maillage interne. Le souci est qu’à chaque étiquette, une nouvelle page sera créée pour regrouper les articles et cette page est explorable, vous pouvez donc rapidement exploser votre budget crawl en ajoutant trop d’étiquettes sur vos articles.
Sur des sites gérés par des CMS, le code est généré automatiquement et les pages ont tendance à contenir beaucoup de code inutile. En plus du poids initial des pages, chaque module va aussi venir alourdir la page en ajoutant du code pour l’affichage de ses blocs. Un tel fonctionnement va avoir tendance à ralentir la vitesse de chargement du site et donc pénaliser votre budget crawl.
Le temps de réponse du serveur peut aussi avoir un impact sur votre budget crawl car il va ralentir le passage des robots avec des temps d’attente parfois élevés. Il est important de s’assurer d’avoir un bon TTFB (Time To First Byte) car c’est aussi un critère qui peut provoquer un taux de rebond important côté utilisateur.
Pour mesurer votre TTFB, vous pouvez ouvrir la console de développement de Google Chrome, vous rendre dans l’onglet network et relancer le chargement de votre page.
Vous pourrez ensuite regarder la data “waiting for server response” qui correspond au temps de réponse du serveur. Un bon temps de réponse sera inférieur à 200 ms et correspondra à un serveur de qualité hébergé en France.
Le fait d’avoir des pages en erreur ou des pages redirigées dans votre maillage interne est aussi pénalisant pour votre budget crawl car les robots vont avoir tendance à essayer de visiter ces pages pour ensuite se rendre compte qu’elles ne sont pas accessibles. La requête initiale va consommer votre budget crawl qui ne sera pas utilisé pour visiter des pages fonctionnelles.
La balise canonical a pour but initial de faire en sorte que les robots ne visitent pas de pages de mauvaise qualité et donc limiter la duplication de contenu entre pages similaires. Le problème, c’est qu’une balise canonical mal configurée peut générer des boucles de redirections pour les robots.
Il est possible par exemple qu’une page A ait sa canonical qui pointe vers une page B, mais que cette même page B soit redirigée vers la page A. Cela va créer une boucle de redirection jusqu’à ce que google décide d’ignorer votre balise canonical.
Sur les sites de vente de produits d’occasion ou sur les sites d’offre d’emploi, les pages créées ont une durée de vie très faible et sont donc visitées par les robots pour ensuite finir en erreur car supprimées. Les robots vont donc perdre du temps à indexer un catalogue qui n’a pas vocation à durer dans le temps.
Ces cas spécifiques de catalogue temporaires doivent être gérés de manière spécifique. Nous avons préparé un article détaillé sur la gestion de vos pages temporaires pour vous aiguiller dans vos choix en fonction de votre situation.
Dans le cas d’un e-commerce avec une forte profondeur de catalogue ou d’un blog / média avec une forte fréquence de publication, l’optimisation du système de pagination devient indispensable. En effet, si vous avez une catégorie avec beaucoup de produits attribués, vous pouvez facilement atteindre les 10, 15, 20 pages de pagination. Il est indispensable que ces pages de pagination soient explorées pour le maillage interne des produits. Il faut donc faire en sorte de réduire le nombre de pages de pagination et trouver le juste équilibre.
Il existe des bonnes pratiques pour améliorer la pagination de votre site. Cela commence par le choix du bon système de pagination, mais aussi du bon nombre de produits dans les pages.
Ce souci concerne de nombreux sites e-commerce comme ça peut être le cas du Marché Saint Pierre qui sur sa page catégorie de tissu, n’affiche que 32 produits par page et a donc 40 pages paginées. Un tel nombre de pages paginées va fortement impacter le budget crawl.
Certains outils permettent d’avoir une vision sur le passage des robots sur votre site, cela vous permet donc de savoir quelles pages sont visitées et donc mettre en place des solutions adaptées. On va retrouver 3 solutions principales :
La meilleure solution pour analyser le comportement des robots sur votre site est de procéder à une analyse de log. Votre serveur recueille des logs sur toutes les visites que reçoit votre site, dont celles par des robots. Vous pouvez donc exploiter ces logs pour les analyser sur une période définie (30 jours par exemple). Sur certains CMS propriétaires tels que Shopify ou Webflow, il n’est pas possible de collecter les logs, il faudra donc vous contenter des données de la Search Console sur l’exploration. Vous trouverez dans logs de nombreuses informations :
Vous pourrez donc trier les pages visitées pour identifier les pages qui ne sont pas pertinentes ou pour lesquelles vous n’avez pas de potentiel SEO et en bloquer l’exploration.
Bien qu’elle soit moins performante que l’analyse de logs, l’analyse des statistiques de l’exploration de la Search Console peut vous donner des indications sur les pages visitées par Google et la fréquence de passage des robots.
Pour trouver cette fonctionnalité, il faut vous rendre dans les paramètres de votre propriété sur la Search Console. Dans la section “Exploration”, vous trouverez le rapport sur les statistiques sur l’exploration.
Une fois dans ce rapport, vous pourrez voir la courbe qui retrace les statistiques sur l’exploration des différents sous-domaines de la propriété. Vous allez donc choisir le domaine qui vous intéresse pour accéder aux statistiques détaillées.
Vous pourrez retrouver toutes les pages en 301, en 404, en 500 qui sont visitées par les robots pour soit les bloquer, soit les rediriger. Vous pourrez voir les pages qui sont visitées par les Googlebot ordinateur et mobile, pour voir comment se répartit votre budget crawl.
La meilleure technique pour analyser facilement est de se rendre dans les URLs Ordinateur et Mobile pour avoir la liste des pages crawlées et les exporter. Dans cet export, vous retrouverez les 1000 dernières pages qui ont été crawlées par les GoogleBot (limites de la Search Console). IL vous suffira ensuite de trier ces 1000 URLs et mettre en place des règles pour bloquer l’exploration des URLs inutiles qui sont visitées.
Le souci de cette technique est qu’elle ne concerne que les robots de Google et que le nombre d’URLs est très limité et ne permet pas une analyse complète.
Une fois les URLs problématiques trouvées, il est important de trouver comment elles ont pu être générées sur le site pour trouver la solution la plus adaptée. La meilleure solution est de faire un crawl complet de son site sur Screaming Frog. Vous pourrez savoir si vos URLs problématiques sont présentes dans votre maillage interne et faire en sorte de supprimer les liens vers ces pages. En effet, plus une page est maillée en interne, plus elle va être considérée comme importante par Google et crawlée régulièrement. Le tri de votre maillage interne va donc avoir un impact considérable sur l’optimisation de votre budget crawl.
Une fois les URLs de mauvaise qualité identifiées, il faut faire en sorte de bloquer le passage des robots sur ces pages. Il existe donc plusieurs solutions qui vont soit ralentir la fréquence de passage des robots, soit bloquer complètement leur passage.
La seule solution pour bloquer le passage des robots sur une URL, c’est l’ajout de règles sur le fichier robots.txt. Ces règles vont permettre de bloquer l’accès à des pages spécifiques ou à des dossiers en fonction de patterns dans l’URL. Vous pouvez donc par exemple bloquer en une seule règle la visite sur toutes les pages archives de 2025. Voici un exemple de règle qui pourrait être intégrée pour bloquer les archives de l’année 2025 sur wordpress :
“user-agent:*
disallow: */2025/*”
La syntaxe est assez simple, avec la première ligne, vous indiquez quels robots vous ciblez, en l'occurrence, l’étoile indique que vous vous adressez à tous les robots. La seconde ligne va elle contenir la règle que vous voulez appliquer. Dans le cas de notre exemple, toutes les pages qui contiennent /2025/ dans l’URL seront bloquées.
L’objectif va donc être de bloquer toutes les URLs inutiles en leur trouvant des patterns communs.
Attention, une règle pas assez restrictive dans votre fichier robots.txt pourrait mener au blocage de pages de qualité. Il est donc primordial de tester son fichier robots.txt avant de la publier.
Si vous ne souhaitez pas ou ne pouvez pas bloquer une URL avec votre fichier robots.txt, il existe d’autres solutions qui vont pouvoir réduire la fréquence de crawl sur votre site. Par exemple, les robots vont tendance à espacer le crawl sur les pages qui sont désindexées ou qui ne sont pas présentes dans le sitemap et dans le maillage interne.
Il sera donc pertinent de mettre en place une balise noindex sur les pages inutiles de votre site et faire en sorte de limiter le nombre de liens internes (soit en retirant des liens, soit en mettant en place de l’obfuscation pour éviter que Google ne détecte les liens). Historiquement, le nofollow était une très bonne solution qui était utilisée pour améliorer le budget crawl. Le nofollow est souvent confronté à l’obfuscation. Cette solution est aujourd’hui beaucoup moins utilisée que l'obfuscation puisque le nofollow est détecté par google, qui ne va pas suivre le lien, mais tout de même envoyer la popularité du lien dans le vide là ou l’obfuscation ne transmet aucune popularité pour un impact similaire sur le budget crawl.
Votre budget crawl est très étroitement lié à la fréquence de publication de votre site, à votre trafic et à votre notoriété. Plus vous allez produire du contenu de qualité qui attire des visiteurs sur votre site, plus votre budget crawl sera élevé.
L’idéal est de définir un rythme de publication de contenu régulier pour faire en sorte que les robots aient toujours de la nouvelle matière à découvrir sur votre site. Plus votre rythme de publication sera élevé, plus votre budget crawl aura tendance à suivre, mais attention, si vous multipliez le contenu de mauvaise qualité, votre budget crawl aura tendance à s’améliorer temporairement pour ensuite s’effondrer.
Si vous voulez que Google passe plus souvent sur les pages principales de votre site, il est important que ces pages soient priorisées dans le maillage interne et que Google puisse détecter du changement sur votre page. L’idéal est donc de réduire les liens internes vers les pages les moins pertinentes et d'augmenter le nombre de liens vers les pages les plus pertinentes.
Pour faire en sorte que vos pages stratégiques soient constamment en changement, l’idéal est d’y intégrer un bloc qui va reprendre les derniers articles de blog en lien avec la thématique de votre page. A chaque publication d’un nouvel article en lien avec votre page, votre bloc se mettra à jour, changeant donc le contenu de votre page de conversion, permettant ainsi d’éviter le statut 304 lors du passage des robots qui indique qu’aucun changement n’a été effectué sur la page depuis le dernier passage. Ce statut 304, s’il perdure au fur et à mesure des crawls enverra un signal de stabilité et le crawl sur les pages en 304 va de plus en plus s’espacer si le statut n’évolue pas.