Le fichier robots.txt… Mais, de quoi s'agit-il ? À quoi sert-il ? Comment le créer ? Autant de questions que l'on se pose lorsque l'on souhaite optimiser son site internet.
Nous vous proposons donc de faire le point sur ce petit fichier qui influence autant un site web.
Qu’est-ce que le fichier robots.txt ?
Il se trouve à la racine de chaque site internet. C’est une sorte de fichier de configuration qui fixe des règles pour les robots d'exploration.
En effet, afin d'indexer les pages de sites, les moteurs de recherche, tels que Google, utilisent des robots d'exploration. Aussi appelé crawler, ce sont de petits programmes qui parcourent internet régulièrement pour en référencer les contenus.
Les moteurs de recherche ne cessent d’améliorer leurs robots d’exploration. Ainsi, maintenant, ils sont capables de connaître votre fréquence de publication ou de mise à jour d’articles afin de passer plus ou moins régulièrement sur votre site.
Le but de ces crawlers est d’indexer toutes les pages intéressantes de votre site. Ainsi, en leur fournissant un fichier robots.txt pour guider leur exploration, ils optimiseront leur visite sur votre site.
À quoi sert le robots.txt ?
Les moteurs de recherche utilisent donc des robots d'exploration pour indexer les pages des sites internet. Un fonctionnement simple qui existe depuis l'arrivée des moteurs de recherche sur internet.
Cependant, personne ne souhaite que l'administration de son site web ou que des fichiers privés soient accessibles à ces petits programmes. Personne ne veut que l'adresse URL de son administration apparaisse dans les résultats de Google…
C’est là qu'intervient notre fameux fichier robots.txt !
En complément des liens nofollow / dofollow (qui donnent la possibilité de ne pas transmettre de PageRank à la page web liée), il va nous permettre de définir des règles pour interdire, ou au contraire, inciter les robots d'exploration à parcourir les fichiers de notre site.
C’est le premier fichier qui va être lu lors du passage du robot d’exploration. Il va donc être le fichier d’accueil, celui qui va guider le crawler.
Que contient le fichier robots.txt ?
C'est un petit fichier qui ne possède que quelques lignes. Chacune de ces lignes représente une instruction pour les robots d'exploration.
Le chemin vers le Sitemap
L’une des instructions les plus importantes pour le référencement de votre site internet est en général la première du fichier : il s’agit du chemin vers votre sitemap.
Sitemap : chemin_vers_le_fichier/sitemap.xml
Pour rappel, le fichier sitemap et le fichier qui référence tout le contenu de votre site : textes, images, vidéos, podcast. Il sert de carte pour les crawler. Il est donc primordial que le fichier robots.txt indique son emplacement.
Autoriser les robots d’exploration
Ensuite, on retrouve la liste des robots d'exploration autorisés à parcourir votre site.
User-agent : *
L’étoile représente tous les robots d'exploration sans exception. Si on veut être plus précis, on peut également lister les robots un par un. Par exemple : « Googlebot » ou « Googlebot-Image »…
Chaque moteur de recherche possède un document indiquant le nom de ces robots l'exploration. En effet, vu l’importance d’internet aujourd’hui, il existe plusieurs crawlers spécialisés : mobile, images, vidéos… Il est conseillé d’utiliser l’étoile pour ne pas en oublier et intégrer directement les nouveaux robots de chacun des moteurs de recherche.
Gérer les autorisations de parcours des dossiers
Viennent ensuite les instructions Allow et Disallow qui, respectivement, autorisent ou non l'accès à des répertoires ou des fichiers.
Disallow : /admin
C'est un petit fichier simple à créer. Un éditeur de texte basique permet de créer le fichier et d’y insérer les instructions. Une fois le fichier créé, il suffit de le déposer à la racine de votre site via un logiciel de FTP.
La difficulté vient du fait qu’il faille parfaitement connaître la structure interne de votre site web. Car la moindre erreur dans ce fichier peut compromettre le référencement de votre site internet.
Créer ou modifier un fichier robots.txt
La plupart des constructeurs de sites, comme SiteW, génèrent directement le fichier robots.txt ainsi que le sitemap.xml. Ainsi, ces deux fichiers sont complètement optimisés et adaptés à votre site pour que vous n'ayez pas besoin de le modifier.
C’est un fichier critique pour votre site et une mauvaise manipulation de celui-ci peut entraîner une chute de votre positionnement sur Google. À l’inverse, un fichier robots.txt bien configuré peut booster le référencement de votre site.
Si toutefois, vous avez besoin de le modifier, vous pouvez le faire valider par un outil de Google, La Google Search Console, afin de minimiser les risques lors de sa mise en ligne.
Conclusion
Le fichier robots.txt est indispensable pour votre site. Il permet d'indiquer au moteur de recherche votre sitemap pour garantir une bonne indexation de vos pages. Il protège également vos dossiers d'administration et vos dossiers personnels afin qu'ils ne soient pas indexés.
Enfin, la modification de ce fichier doit être faite avec précaution. Car même s'il contient des instructions simples, une faute de frappe peut par exemple pénaliser tout votre site. C'est pour cette raison que SiteW génère le fichier robots.txt de chacun de ses clients de manière optimisée.