Un fichier robots.txt est un fichier contenant des instructions a donner aux engins de recherche, et qui serviront lorsque qu'ils visiteront votre site accessible à la racine où votre site est hébergé.
But du fichier
Le fichier robots.txt permet d'interdire à des moteurs de recherche des répertoires entiers ou des pages. Il existe une erreur très fréquente et relativement grave dans le nom du fichier : robots.txt (en minuscule). Sinon, il sera inutile.
Construction du fichier
Il est conseillé d'utiliser un éditeur de texte tel que le Bloc-notes. Des programmes comme Word sont utilisables, mais avec précaution, car le fichier sauvé sur le serveur peut parfois ne pas être au format ASCI pur.
Le fichier est composé des deux instructions suivantes :
User-agent: { nom du robot }
Disallow: { document-a-exclure }
Par exemple, pour indiquer au spider d'Alta Vista, dénommée Scooter, de ne pas indexer les fichiers perso.html et emploi.html, il faut insérer les lignes suivantes dans robots.txt :
User-agent: Scooter
Disallow: membres.html
Disallow: vip.html
Syntaxe :
User-agent User-agent: { nom du robot } L' ordre concerne un robot précis
User-agent:* L'ordre concerne tous les robots.
Disallow Disallow:/membres.htm Indique aux robots qu'ils ne doivent pas indexer la page /membres.htm située à la racine du site.
Disallow:/admin/ Indique aux robots qu'ils ne peuvent indexer les fichiers contenus dans le répertoire admin.
Disallow: Indique aux robots que tout doit être indexé. Identique à un fichier robots.txt inexistant.
Noindex
Noindex Ne pas indexer les pages
Commentaires # commentaires Vos commentaires doivent être précédé d'un #
Google
Quelques commandes réservées uniquement à Google
nosnippet Ne pas mettre d'extraits de pages
noarchives Émécher l'archivage des pages
Pour de plus amples information, communiquez avec un de nos conseiller
Haut de page Robots.txt |