Aller au contenu | Aller au menu | Aller à la recherche

Aide au référencement

Aide au référencement

 
 
Le robot VoilaBot fait n'importe quoi

Je vous avais déjà parlé des requêtes trop importantes du robots de Voila vers mon fichier robots.txt J'ai depuis, bloqué l'accès au site à ce robot en le mettant dans mon fichier robots.txt.

Mes raisons : Non seulement je trouve anormal le nombre de requêtes vers mon robots.txt, mais VoilaBot tente d'accéder à des fichiers inexistants suite à de mauvais crawls sur d'autres sites (nom de fichiers tronqués, ou carrément des phrases en requêtes...). Je constate que les accès à ce fichier continues (c'est normal), et toujours en nombre important (anormal).

Détails des accès au fichier robots.txt le 21 mars 2008 par VoilaBot BETA 1.2

  • Robot VoilaBot BETA 1.2, nom d'hôte : natcrawlbloc02.net.s1.fti.net : 67 requêtes
  • Robot VoilaBot BETA 1.2, nom d'hôte : natcrawlbloc03.net.s1.fti.net : 30 requêtes
  • Robot VoilaBot BETA 1.2, nom d'hôte : natcrawlbloc04.net.s1.fti.net : 95 requêtes

Chaque requêtes pèse pour mon serveur 1491 octets (poids de robots.txt).
(1491 x 67) + (1491 x 30) + (1491 x 95) = 286272 octets

Ce même jour, natcrawlbloc03.net.m1.fti.net n'a pas respecter les directives de mon robots.txt. Il l'a lu pourtant plusieurs fois (30 fois, lire plus haut) :

natcrawlbloc03.net.m1.fti.net - - 20/Mar/2008:06:50:44 +0200 "GET /robots.txt HTTP/1.1" 200 1491 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"

Il essaie d'accéder à un fichier qui n'a jamais existé (/sommaire_uk.htm) :

natcrawlbloc03.net.m1.fti.net - - 21/Mar/2008:03:03:06 +0200 "GET /sommaire_uk.htm HTTP/1.1" 404 2161 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
natcrawlbloc03.net.m1.fti.net - - 21/Mar/2008:03:03:06 +0200 "GET /bas_uk.htm HTTP/1.1" 404 2156 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"

J'ai donc décidé de le bloquer carrément par mon .htaccess. Je lui réouvrirais mes portes lorsqu'il ne sera plus en version Beta et aura bien sûr évolué dans le bon sens...

Apparemment, je ne suis pas le seul à avoir des problèmes avec VoilaBot :

Tous mes encouragements aux développeurs du robot de Voila ;-)

 
Commentaires
1.   mickael_kl  â€º  mardi 29 avril 2008 à 09:14

Bonjour, moi aussi j'ai d'énormes soucis avec Voilabot. Malgré une interdiction dans robot.txt et une interdiction par ip dans un htaccess, il continue à surcharger ma bande passante. Avez-vous LA SOLUTION. Quelles adresses ip bloquez vous. Merci de votre aide

 
2.   nicogoss  â€º  mercredi 30 avril 2008 à 13:13

J'ai exactement le même problème sur mon site; en permanence 4 instances de VoilaBot scruttent mon portail en recherchant des URL qui n'existent pas ! Je pense moi aussi bloquer l'accès à mon site à ce robot qui me semble désormais bien mal veillant...

 
3.   Bruno Manach  â€º  samedi 3 mai 2008 à 09:22

Nicogoss, apparemment tu ne bloque pour l'instant aucun robot par ton fichier robots.txt :

User-Agent: *
Disallow:

Si tu veux bloquer le robot VoilaBot, mets ceci dans ce fichier :

User-agent: VoilaBot
Disallow: /

Si VoilaBot malgré ce blocage continue à interroger trop souvent ton fichier robots.txt (comme c'est mon cas), bloque-le via ton .htaccess :

<Limit GET PUT POST>
SetEnvIfNoCase User-Agent "VoilaBot BETA 1.2" bad_bot
order allow,deny
deny from env=bad_bot
</Limit>

 
4.   Bruno Manach  â€º  dimanche 4 mai 2008 à 16:01

Voici quelques adresses IP du robot VoilaBot BETA 1.2 que j'ai relevé à ce jour dans mes logs Apache :

  • 81.52.143.16
  • 193.252.149.16
  • 193.252.149.15
  • 81.52.143.15
 
5.   mickael_kl  â€º  mercredi 7 mai 2008 à 22:25

Apparemment avec la solution <Limit GET PUT POST> il a l'air de s'être calmé. Je dis "à l'air " car il y a peu de temps il avait ralenti ses passages pour revenir de plus belle. Je vous tiens au courant en vous remerciant tout de même de cette solution

 
Trackbacks

Aucun trackback.

Pour faire un trackback sur ce billet : http://www.referencement-fr.com/blog/tb.php?id=46

 
Ajouter un commentaire

Ce blog permet une syntaxe wiki simplifiée dans les commentaires. Si votre navigateur est compatible, vous pouvez vous aider de la barre d´outils, les adresses internet seront converties automatiquement. Le code HTML sera affiché comme du texte.