Comment orienter efficacement le crawl Google sur son site ?


Accueil > Internet, informatique et high-tech

Comment orienter efficacement le crawl Google sur son site ?

Camille Lafranger - le 12 avril 2018 - 0 commentaires

Lorsqu'on atteint un certain degré de maturité dans le domaine du SEO, il devient utile et même nécessaire d'initier des chantiers plus techniques, pas forcément très complexes d'un point de vue informatique, mais qui demandent une bonne connaissance du fonctionnement des moteurs de recherche en général, et de Google en particulier. Nous parlerons dans ce guide des diverses techniques permettant d'orienter le crawl de Google, c'est-à-dire d'influer sur la manière dont Googlebot, le crawler de Google, voit un site internet. On distinguera principalement les balises de type noindex et les directives présentes dans un fichier robots.txt

Le NoIndex

Le noindex consiste à indiquer aux moteurs de recherche qui crawlent une page que l'on ne souhaite pas indexer cette page, ou qu'on souhaite la désindexer si celle-ci était auparavant autorisée à ce niveau. La méta « robots » contenant une valeur noindex permet, dans les faits, de ne pas indexer de pages jugées inutiles, voire néfastes à son référencement naturel. La technique consistant à ne pas indexer tout et n'importe quoi possède de nombreux avantages : tout d'abord, cela peut permettre d'éviter le contenu dupliqué interne, par exemple sur la navigation à facettes d'un site de vente en ligne – ces fameux filtres que l'on trouve sur des listes de produits de sites Prestashop par exemple.

Le second avantage consiste à économiser ce qu'on appelle du budget de crawl. Sur un site donné, Google détermine un certain nombre de pages que son crawler va parcourir dans une journée par exemple, et ce chiffre n'est pas à la discrétion de chaque référenceur. Par conséquent, il vaut mieux que Googlebot crawle régulièrement vos « bonnes » pages plutôt que des pages sans intérêt pour votre visibilité, voire même des pages de contenu dupliqué qui vous portent préjudice.

Le robots.txt

Le fichier Robots.txt permet de bloquer l'accès des crawlers à une page ou un répertoire donné. Cette technique permet d'économiser sur son budget de crawl mais ne permet pas à un moteur de prendre en compte des modifications que vous auriez pu faire sur une page. Par exemple, si vous souhaitez désindexer tout un répertoire de pages inutiles, il est contre-productif de leur associer une méta robots en noindex et de les bloquer complètement dans le fichier Robots.txt : les crawlers ne passant plus sur ces pages web, ils ne pourront pas comprendre que vous souhaitez les désindexer.







Vous avez aimé cet article, recommandez-le à votre réseau :



Laisser un commentaire