Depuis quelques temps, de nombreux webmestres commencent à se plaindre de la vitesse de crawl (indexation) de Voila.
Voila, via son robot "VoilaBot", indexe fortement les sites du rayon "France". En soit, pas de problème si vous souhaitez être référencé chez eux, mais le probleme se pose quant aux vitesses
d'indexation et aux type de document collectés.
Voici un exemple à date :
Le site SITEFOO (exemple réel) a reçu la visite du crawler, sur son fichier robots.txt 7 fois en 6 secondes, en provenance de l'ip 193.252.149.15.
------------Extrait des log apache ------------
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:01 +0100] "GET /robots.txt HTTP/1.1" 200 5594 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2
(http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:01 +0100] "GET /robots.txt HTTP/1.1" 200 4967 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2
(http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:03 +0100] "GET /robots.txt HTTP/1.1" 200 4958 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2
(http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:04 +0100] "GET /robots.txt HTTP/1.1" 200 4957 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2
(http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:04 +0100] "GET /robots.txt HTTP/1.1" 200 5594 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2
(http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:05 +0100] "GET /robots.txt HTTP/1.1" 200 4957 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2
(http://www.voila.com/)"
------------Extrait des log apache ------------
L'ip 193.252.149.15 est natcrawlbloc02.net.s1.fti.net : c'est donc bien Voila.
Moralité : Ce cas d'appel multi-fichiers est (hélas) aussi présent sur des fichiers web. C'est là que l'on peut réellement considérer VoilaBot comme un aspirateur. A n'en pas douter, Les ingénieurs
ont un léger (gros) problème de sérialisation des processsus... Bon courage !
Comment ralentir VoilaBot :
Pour ceux qui dispose d'un serveur dédié sous linux, nous conseillons l'emploi de IPTABLES (firewall) pour effectuer des drops sur certaines IP de VoilaBot. Cela ne ralenti pas votre
référencement (puisque plusieurs IP de Voila restent ouvertes) mais cela empêche de vous faire aspirer brutalement par eux.
Voici certaines IP de VoilaBot :
193.252.149.16, 81.52.143.16, 81.52.143.15 ... n'hesitez pas à faire un POST si vous en connaissez d'autres ..
Conclusion :
C'est bien dommage qu'un moteur Français ne prête pas plus attention au respect des sites qu'il indexe. Sans être démagogique, c'est un point sur lequel nous portons toujours notre attention quand
nous lançons VerticrawlBot.
Ce n'est pas en indexant plus vite que l'on rattrape son retard (proverbe de La Fontaine, version web)...
- "Depuis quelques temps, de nombreux webmestres commencent à se plaindre de la vitesse de crawl (indexation) de Voila."
L'année 2007 a permis au moteur de recherche Voila d'augmenter de manière très significative le volume des documents indexés.
Il y a pu avoir des effets de bord malgrè les précautions qui ont étés prises.
Lorsque les informations nous sont remontées par un webmaster, nous en tenons immédiatement compte pour réduire la charge de nos crawlers.
- "Le site SITEFOO (exemple réel) a reçu la visite du crawler, sur son fichier robots.txt 7 fois en 6 secondes"
En effet, il se peut que par phénomène de vague, le fichier Robots.txt soit crawlé de manière un peu intensive (ca ne réprésente quand meme qu'une requette http par seconde. En général, les serveurs web savent l'absorber). Pour soulager la charge réseau, le crawl "intensif" des robots.txt sera corrigé à la mi-2008.
- "Moralité : Ce cas d'appel multi-fichiers est (hélas) aussi présent sur des fichiers web."
Seuls les fichiers robots.txt peuvent être affectés par ce problème. Normalement (à moins d'un cas extrèmement particulier), un même fichier web ne peut être appelé de manière consécutive par nos crawlers.
- "C'est là que l'on peut réellement considérer VoilaBot comme un aspirateur."
VoilaBot n'est pas un aspirateur, mais le processus de crawl du moteur de recherche Voila.
- "A n'en pas douter, Les ingénieurs ont un léger (gros) problème de sérialisation des processsus... Bon courage !"
Les problèmes dont vous parlez n'ont rien avoir avec une sérialisation des processus. Nous vous remercions de vous pré-occuper de nos problèmes.
- "Comment ralentir VoilaBot :"
Il existe une manière plus simple de ralentir le crawl de VoilaBot. Il s'agit d'utiliser la directive Crawl-Delay contenue dans le fichier Robots.txt . Nous prenons en compte cette valeur pour "réduire" la vitesse de Crawl.
- "C'est bien dommage qu'un moteur Français ne prête pas plus attention au respect des sites qu'il indexe. "
Voila prête une attention toute particulière aux webmasters. Une adresse mail support.voilaBot est d'ailleurs en cours de création pour permettre un meilleur contact avec eux. Dès qu'elle sera disponible, cette adresse mail sera incluse dans l'entête http des processus de Crawl.
- "Sans être démagogique, c'est un point sur lequel nous portons toujours notre attention quand nous lançons VerticrawlBot."
Voila ne se permettra pas de rentrer dans une critique à l'encontre d'un autre processus de crawl quel qu'il soit. Une remarque néanmoins, les problématiques que Verticrawl et Voila peuvent rencontrer ne sont pas du tout du même ordre de grandeur (volumétrie).
Bien cordialement
Nous ne nous occupons pas des problemes de Voilabot.. mais des problemes qu'il pose sur les sites de nous clients : C'est un article sur Voila pour les webmestres.
Par email, l'equipe Voila nous confirmait que la directive Crawl-Delay serait prise en compte en juin 2008 (soit 3 mois apres le message de ce blog).
L'adresse email support.voilabot@orange-ftgroup.com est presente dans nos logs depuis avril 2008 environ. Il existait auparavant une adresse sur le site Voila (support Voilabot) dont nous attendons encore les retours de message de 2007...
Quant à la volumetrie d'index de Voila ou Verticrawl... Posez donc la question à Larry Page ? et le débat sera clos.
Voyons donc nos remarques comme des éléments positifs d'intéret pour Voilabot. Car il n'y a rien de pire que l'ignorance du webmestre pour votre robot.