Par Bruno, vendredi 21 mars 2008 à 23:02 | General | #46 | rss
Je vous avais déjà parlé des requêtes trop importantes du robots de Voila vers mon fichier robots.txt J'ai depuis, bloqué l'accès au site à ce robot en le mettant dans mon fichier robots.txt.
Mes raisons : Non seulement je trouve anormal le nombre de requêtes vers mon robots.txt, mais VoilaBot tente d'accéder à des fichiers inexistants suite à de mauvais crawls sur d'autres sites (nom de fichiers tronqués, ou carrément des phrases en requêtes...). Je constate que les accès à ce fichier continues (c'est normal), et toujours en nombre important (anormal).
Détails des accès au fichier robots.txt le 21 mars 2008 par VoilaBot BETA 1.2
- Robot VoilaBot BETA 1.2, nom d'hôte : natcrawlbloc02.net.s1.fti.net : 67 requêtes
- Robot VoilaBot BETA 1.2, nom d'hôte : natcrawlbloc03.net.s1.fti.net : 30 requêtes
- Robot VoilaBot BETA 1.2, nom d'hôte : natcrawlbloc04.net.s1.fti.net : 95 requêtes
Chaque requêtes pèse pour mon serveur 1491 octets (poids de robots.txt).
(1491 x 67) + (1491 x 30) + (1491 x 95) = 286272 octets
Ce même jour, natcrawlbloc03.net.m1.fti.net n'a pas respecter les directives de mon robots.txt. Il l'a lu pourtant plusieurs fois (30 fois, lire plus haut) :
natcrawlbloc03.net.m1.fti.net - - 20/Mar/2008:06:50:44 +0200 "GET /robots.txt HTTP/1.1" 200 1491 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
Il essaie d'accéder à un fichier qui n'a jamais existé (/sommaire_uk.htm) :
natcrawlbloc03.net.m1.fti.net - - 21/Mar/2008:03:03:06 +0200 "GET /sommaire_uk.htm HTTP/1.1" 404 2161 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
natcrawlbloc03.net.m1.fti.net - - 21/Mar/2008:03:03:06 +0200 "GET /bas_uk.htm HTTP/1.1" 404 2156 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
J'ai donc décidé de le bloquer carrément par mon .htaccess. Je lui réouvrirais mes portes lorsqu'il ne sera plus en version Beta et aura bien sûr évolué dans le bon sens...
Apparemment, je ne suis pas le seul à avoir des problèmes avec VoilaBot :
- VoilaBot BETA 1.2 me crée des erreurs 404 - webrankinfo
- VoilaBot, trop actif - phpbb-seo
- VoilaBot BETA 1.2 augmente très considérablement la charge de nos machines - webrankinfo
Tous mes encouragements aux développeurs du robot de Voila 





Bonjour, moi aussi j'ai d'énormes soucis avec Voilabot. Malgré une interdiction dans robot.txt et une interdiction par ip dans un htaccess, il continue à surcharger ma bande passante. Avez-vous LA SOLUTION. Quelles adresses ip bloquez vous. Merci de votre aide
J'ai exactement le même problème sur mon site; en permanence 4 instances de VoilaBot scruttent mon portail en recherchant des URL qui n'existent pas ! Je pense moi aussi bloquer l'accès à mon site à ce robot qui me semble désormais bien mal veillant...
Nicogoss, apparemment tu ne bloque pour l'instant aucun robot par ton fichier robots.txt :
User-Agent: *Disallow:Si tu veux bloquer le robot VoilaBot, mets ceci dans ce fichier :
User-agent: VoilaBotDisallow: /Si VoilaBot malgré ce blocage continue à interroger trop souvent ton fichier robots.txt (comme c'est mon cas), bloque-le via ton .htaccess :
<Limit GET PUT POST>SetEnvIfNoCase User-Agent "VoilaBot BETA 1.2" bad_botorder allow,denydeny from env=bad_bot</Limit>Voici quelques adresses IP du robot VoilaBot BETA 1.2 que j'ai relevé à ce jour dans mes logs Apache :
Apparemment avec la solution <Limit GET PUT POST> il a l'air de s'être calmé. Je dis "à l'air " car il y a peu de temps il avait ralenti ses passages pour revenir de plus belle. Je vous tiens au courant en vous remerciant tout de même de cette solution
Aucun trackback.
Pour faire un trackback sur ce billet : http://www.referencement-fr.com/blog/tb.php?id=46