Comment faire un bon fichier robot.txt

Un robot qui représente le fichier robots.txt

Un robot qui représente le fichier robots.txt

Un fichier robots.txt est un excellent outil pour limiter les capacités d’un moteur de recherche. Ce fichier peut empêcher certains fichiers et répertoires d’être explorés pour les visiteurs de votre site web. Les moteurs de recherche tels que Google, Yahoo, Bing, etc. consultent d’abord votre fichier robots.txt pour les aider à trouver tous les fichiers de votre site. Si vous n’avez pas de fichier robots.txt, ils se contentent de trouver une page qu’ils peuvent indexer. Il est donc dans votre intérêt de disposer, dans votre arsenal d’outils SEO, d’un fichier robots convenable aux Spider.

Voici quelques éléments qui vont vous aider à faire un bon fichier robot.txt.

L’importance de l’utilisation du fichier robots.txt

Le fichier robots.txt n’est pas un document essentiel pour un site web. Votre site peut se classer et se développer parfaitement sans ce fichier. Cependant, l’utilisation du fichier Robots.txt offre certains avantages:

Décourager les robots d’explorer les dossiers privés – bien que cela ne soit pas parfait, le fait d’empêcher les robots d’explorer les dossiers privés les rendra beaucoup plus difficiles à indexer – du moins par les robots légitimes (tels que les moteurs de recherche).

Contrôler l’utilisation des ressources: chaque fois qu’un robot explore votre site, il absorbe votre bande passante et vos ressources de serveur, ressources qui seraient mieux utilisées par de vrais visiteurs. Pour les sites avec beaucoup de contenu, cela peut entraîner une augmentation des coûts et nuire à l’expérience des vrais visiteurs.

Prioriser les pages importantes : si vous voulez que les robots des moteurs de recherche explorent les pages importantes de votre site (telles que les pages de contenu), sans gaspiller des ressources en fouillant dans des pages inutiles.

Comment créer un fichier Robot.txt ?

Robots.txt étant un fichier texte de base, sa création est très simple: tout ce que vous avez à faire c’est d’ouvrir un éditeur de texte et d’enregistrer un fichier vide sous le nom de fichier robots.txt. Et tout ! Vraiment simple n’est-ce pas ?

Pour charger ce fichier sur votre serveur, utilisez votre outil FTP préféré (je vous recommande d’utiliser le célèbre Filezilla) pour vous connecter à votre serveur Web. Ouvrez ensuite le dossier public_html et ouvrez le répertoire racine de votre site.

Selon la configuration de votre hébergeur web, le répertoire racine de votre site peut se trouver directement dans le dossier public_html. Ou, cela pourrait être un dossier à l’intérieur de celui-ci.

Une fois le répertoire racine de votre site ouvert, faites-y glisser le fichier Robots.txt.

Vous pouvez également créer le fichier Robots.txt directement à partir de votre éditeur FTP.

  • Pour ce faire, ouvrez le répertoire racine de votre site et cliquez avec le bouton droit de la souris -> Créer un nouveau fichier.
  • Dans la boîte de dialogue, tapez «robots.txt» (sans guillemets) et cliquez sur OK.
  • Vous devriez voir un nouveau fichier robots.txt à l’intérieur

Pour finir, il faut veiller à définir les droits d’accès appropriés sur le fichier Robots.txt. Pr exemple, vous pouvez définir que le propriétaire – vous-même – lise et modifie le fichier, mais pas les autres utilisateurs et encore moins le public.

Votre fichier Robots.txt doit indiquer «0644» comme code de permission. Si ce n’est pas le cas, cliquez avec le bouton droit sur votre fichier Robots.txt et sélectionnez «Autorisations de fichier…».

Voilà un fichier Robots.txt entièrement fonctionnel!

Mais que pouvez-vous réellement faire avec le fichier robot.txt?

Si vous avez bien suivi ce que je vous ai dit depuis le début, vous ne devriez maintenant avoir un bon fichier robots.txt. Mais s’il est vide, il ne sera pas d’une très grande utilité. Voici quelques commandes que vous pouvez utiliser dans votre fichier Robots.txt

Bloquer tous les robots de votre site

Vous souhaitez empêcher tous les robots d’explorer votre site? Ajoutez ce code à votre fichier Robots.txt:

User-agent: *

Disallow: /

Pour le dire simplement, cette commande indique à chaque agent utilisateur (*) de ne pas accéder aux fichiers ou dossiers de votre site. Je vous explique concrètement ce qui se passe :

User-agent: * – L’astérisque (*) est un caractère «générique» qui s’applique à chaque objet (tel que le nom de fichier ou, dans ce cas, bot). Si vous recherchez «* .txt» sur votre ordinateur, tous les fichiers portant l’extension .txt seront affichés. Ici, l’astérisque signifie que votre commande s’applique à chaque agent d’utilisateur.

Disallow: / – “Disallow” est une commande robots.txt interdisant à un bot d’analyser un dossier. La simple barre oblique (/) signifie que vous appliquez cette commande au répertoire racine.

Bloquer l’accès de tous les robots à un dossier spécifique

Que faire si vous voulez empêcher les robots d’analyser et d’indexer un dossier spécifique? Par exemple, le dossier / images?

Eh bien, vous allez utiliser cette commande:

User-agent: *

Disallow: / [nom_du_dossier] /

Cette commande est utile si vous avez un dossier de ressources que vous ne souhaitez pas submerger par les demandes de robot d’exploration.

En conclusion

Le fichier Robots.txt est un outil puissant pour contrôler le comportement des robots sur votre site. Lorsqu’il est utilisé correctement, il peut avoir un effet positif sur votre classement et faciliter l’exploration de votre site. Cependant, cela peut également conduire à un désastre SEO si non utilisé correctement.