Par Bruno, mardi 18 septembre 2007 à 18:00 | General | #14 | rss
Un site se compose d'un certain nombre de répertoires et de pages Web qui ne doivent pas se voir indexés. Quels sont les éléments à exclure ?
- Les pages qui dépendent d'autres pages. Par exemple, les pages de confirmation après l'envoi d'un formulaire ou des listes qui ne s'obtiennent qu'après sélection de critères.
- Les pages privées (les statistiques du site, par exemple).
- Des pages que vous voulez promouvoir individuellement. Dans ce cas, vous indiquez l'adresse de ces pages uniquement aux personnes intéressées.
La technique officielle la plus récente pour exclure des pages Web consiste à placer un fichier nommé robots.txt (donc fichier texte) à la racine du serveur.
Le fichier robots.txt (Default access policy) : permet d'indiquer aux moteurs de recherche les fichiers ou répertoires (dossiers) à indexer ou à ne pas indexer.
Vous devez mettre le fichier robots.txt sur le serveur dans le répertoire principal (racine). Avant même d'indexer votre site, la grande majorité des moteurs de recherche liront ce petit fichier. Vous pouvez spécifier des directives pour un moteur de recherche en particulier ou pour tous les moteurs en utilisant l'astérisque.
Format du fichier :
Le fichier contient une ou plusieurs lignes record
séparées par une ou plusieurs fins de ligne (CR,CR/NL, ou NL).
Comme ceci :
"<VARIABLE>:<ESPACEOPTIONNEL><VALLEUR><ESPACEOPTIONNEL>". Attention, les minuscules et majuscules sont prises en compte.
Il y a trois variables principales :
- User-agent : La valeur de cette variable contient le nom du moteur à qui est destiné le fichier robots.txt Vous pouvez indiquer plusieurs moteurs. Il faut absolument que cette variable soit présente. Il est recommandé d'utiliser des minuscules et de ne pas mettre la version du moteur, seulement le nom. La valeur astérisque
*
indique que le fichier s'applique pour tous les moteurs de recherche. - Disallow : La valeur de cette variable indique aux moteurs de recherche les fichiers ou répertoires (dossier) à ne pas visiter donc à ne pas indexer. Elle peut contenir un URL partiel ou complet. Exemple : Disallow: /help empêche l'indexation de /help.html et /help/index.html, alors que Disallow: /help/ empêchera l'indexation de /help/index.html mais autorisera l'indexation de /help.html. Aucune valeur, indique aux moteurs de recherche l'accès total. Cette variable doit être absolument présente.
- Allow : Malgré son utilisation qui ne me semble pas standard, je vois quelque fois cette variable utilisée comme Disallow mais, pour permettre l'indexation de certain fichier ou répertoire (dossier). Attention quand même.
Un ficher robots.txt sans aucune valeur est considéré comme inexistant. Vous pouvez indiquer des remarques à l'aide du symbole # sous serveur UNIX.
Exemple :
# Empêche l'indexation du dossier images et cgi-bin
# pour seulement les moteurs webcrawler et infoseek
User-agent: webcrawler
Disallow: /images/
Disallow: /cgi-bin/
User-agent: infoseek
Disallow: /images/
Disallow: /cgi-bin/
# Aucune restriction pour Google
User-agent: googlebot
Disallow:
# Interdire l'indexation du site complet
# par tous les autres robots de recherche
User-agent: *
Disallow: /
Google est le premier moteur de recherche a supporter l'exclusion d'extension du fichiers.
User-agent: googlebot
Disallow: *.cgi
Votre fichier robotxt.txt est-il conforme ?
Contrôlez la syntaxe de votre robots.txt : 
ATTENTION, un mauvais usage de ce fichier peut empêcher les moteurs de recherche d'indexer à tout jamais votre site.
Voici une liste de robots :
- Exabot est le robot de Exalead
- HTTrack, est un logiciel d'aspiration de sites
- Offline Explorer, idem que HTTrack
- Teleport Pro, un autre aspirateur de sites
- Slurp, était le robot de Inktomi et appartient désormais à Yahoo!
- GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes.
Néanmoins il en existe deux sortes : le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours. Le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.
Adresse IP : 216.239.46. - 64.68.8
Plus d'informations sur Googlebot - Googlebot-Image est le robot d'indexation des images de Google
Adresse IP : 64.68.84. - VoilaBot est le robot de Voila
Adresse IP : 195.101.94.
Vous pouvez également retrouver d'autres liste d'user-agents sur robotstxt.org ainsi que de la documentation sur le fichier robotst.txt (en anglais).
Si vous n'avez pas accès à la racine du serveur, utilisez le META « Robots » pour exclure vos pages.





Aucun commentaire pour le moment.
Aucun trackback.
Pour faire un trackback sur ce billet : http://www.referencement-fr.com/blog/tb.php?id=14