Fichier robots.txt : définition
Nous partageons dans cet article tout ce que vous devez savoir sur robots.txt
En bref
Robots.txt est un fichier qui indique aux moteurs de recherche les pages d’un site Web auxquelles ils sont autorisés à accéder et celles interdites d’accès. Il aide les propriétaires de sites Web à contrôler la façon dont leur site Web est exploré et indexé par les moteurs de recherche.
La première chose que vous devez savoir est que le fichier robots.txt vit sur votre site Web. Vous devez également savoir que les robots des moteurs de recherche intelligents rechercheront automatiquement vos robots.txt pour recevoir des instructions avant d’explorer votre site Web. Ainsi, vous devriez toujours avoir vos fichiers robots.txt dans votre répertoire racine car c’est le premier endroit où ils iront chercher des instructions.
Vous pouvez simplement vérifier si vous avez robots.txt sur votre site web en effectuant une recherche www.nomdevotresite.com/robots.txt.
Google recommande à tous ceux qui possèdent un site Web d’avoir un fichier robots.txt. Si les robots d’exploration de Google ne trouvent pas votre fichier robots.txt, le moteur de recherche n’explorera probablement pas toutes les pages importantes de votre site Web. Le travail d’un moteur de recherche consiste à explorer et indexer votre site Web pour qu’il soit accessible aux gens.
Que fait robots.txt ?
Robots.txt vous permet de bloquer des parties de votre site Web et d’indexer d’autres parties de votre site Web. Vous pouvez choisir “ d’autoriser” ou “ d’interdire” certaines pages et dossiers de votre site Web.
Si vous autorisez certaines pages, vous autorisez les robots à accéder à cette zone spécifique de votre site Web et à l’indexer. Inversement, interdire signifie que vous ne voulez pas que les robots trouvent certaines pages et zones de votre site Web.
robots.txt permet à votre site Web d’être disponible et accessible sur les moteurs de recherche. Ainsi, par exemple, si vous avez une page de contact sur votre site Web, vous pouvez décider de bloquer cette page, à l’aide de robots.txt, afin que Google puisse explorer d’autres pages importantes sur votre site Web et ne pas passer du temps à explorer une page dont vous ne vous souciez pas vraiment si les gens ont accès à la page ou non à partir du moteur de recherche.
En faisant cela, vous dites à Google de ne pas explorer le contenu de votre page de contact. Bien sûr, vous pouvez également bloquer entièrement votre site Web avec robots.txt si c’est quelque chose que vous souhaitez faire.
Comment fonctionne robots.txt ?
Il existe différents types de robots pour différents moteurs de recherche et plates-formes. Nous appelons généralement ces robots d’exploration “Agent utilisateur”. Ainsi, lorsque vous décidez d’autoriser ou d’interdire une zone particulière de votre site Web, vous pouvez choisir d’identifier le robot d’exploration spécifique, par exemple Googlebot (les robots d’exploration de Google), en tant qu’agent utilisateur, ou vous pouvez simplement utiliser un * et vous référer à tous les robots d’exploration qui vivent sur le world wide web.
Vous pouvez aller assez loin avec robots.txt. Par exemple, vous pouvez bloquer des URL, des répertoires ou même des paramètres d’URL spécifiques.
La même technique s’applique aux pages que vous souhaitez que Google explore et porte une attention particulière. Vous pouvez indexer ces pages favoris à l’aide de robots.txt.
Délais
Vous pouvez inclure des retards dans vos fichiers robots.txt. Par exemple, vous ne voudrez peut-être pas qu’un robot d’exploration explore votre site Web aussi rapidement, de sorte que vous pouvez mettre des délais. Signification: vous dites maintenant aux araignées d’explorer votre site Web jusqu’à ce qu’un délai ait été spécifié.
Vous devez utiliser le délai pour vous assurer que les robots d’exploration ne surchargent pas votre serveur Web.
Cependant, gardez à l’esprit que Google ne prend pas en charge les délais. Si vous ne souhaitez pas surcharger votre serveur Web avec des robots Google, vous pouvez plutôt utiliser le taux d’exploration. Vous pouvez choisir votre taux d’exploration préféré dans la console de recherche Google et essayer de ralentir les robots.
Correspondance des modèles
Si vous avez un site Web plus complet, vous pouvez envisager de mettre en œuvre la correspondance de modèles. Que ce soit Google ou tout autre moteur de recherche, vous pouvez demander à ces moteurs de recherche de parcourir et d’explorer vos pages en fonction d’un ensemble de règles.
La correspondance de modèles implique un ensemble de règles que vous souhaitez que les robots d’exploration suivent. Par exemple, vous pouvez bloquer les URL contenant le mot “site Web”.
Pourquoi devriez-vous utiliser robots.txt ?
Beaucoup de gens utilisent robots.txt pour interdire à des tiers d’explorer leurs sites Web. Cependant, il n’y a pas que des moteurs de recherche qui explorent votre site Web; d’autres tiers essaient également constamment d’accéder à votre site Web. Par conséquent, tout ce qui rampe sur votre site Web ralentit votre site Web et votre serveur, ce qui entraîne une expérience utilisateur négative. De plus, ces widgets tiers peuvent causer des problèmes de serveur que vous devez résoudre.
Vous pouvez également utiliser robots.txt pour interdire à des tiers de copier du contenu de votre site Web ou d’analyser les modifications que vous apportez à votre site Web. robots.txt est un excellent moyen de bloquer les choses que vous ne voulez pas sur votre site Web.
Gardez à l’esprit que si un tiers est très intéressé par votre site Web, il peut utiliser un logiciel, comme Screaming Frog, qui lui permet d’ignorer le “blocage” et d’explorer votre site Web. Ainsi, vous ne devriez pas compter à cent pour cent sur des robots.txt lorsqu’il s’agit de protéger certains aspects de votre site Web.
Vérifier robots.txt
Vous pouvez utiliser la console de recherche Google pour voir si vous bloquez une page avec un vérificateur de robots.txt. Il est bon de vérifier cela de temps en temps pour vous assurer que vous n’avez pas bloqué une page importante par accident.
Soyez très prudent lorsque vous travaillez avec des fichiers robots.txt. Cela peut causer de graves dommages à votre site Web si vous bloquez accidentellement l’indexation de l’ensemble de votre site Web.