Mercredi 26 mars 2008
Depuis quelques temps, de nombreux webmestres commencent à se plaindre de la vitesse de crawl (indexation) de Voila.
Voila, via son robot "VoilaBot", indexe fortement les sites du rayon "France". En soit, pas de problème si vous souhaitez être référencé chez eux, mais le probleme se pose quant aux vitesses d'indexation et aux type de document collectés.
Voici un exemple à date :
Le site SITEFOO (exemple réel) a reçu la visite du crawler, sur son fichier robots.txt 7 fois en 6 secondes, en provenance de l'ip 193.252.149.15.
------------Extrait des log apache ------------
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:01 +0100] "GET /robots.txt HTTP/1.1" 200 5594 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:01 +0100] "GET /robots.txt HTTP/1.1" 200 4967 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:03 +0100] "GET /robots.txt HTTP/1.1" 200 4958 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:04 +0100] "GET /robots.txt HTTP/1.1" 200 4957 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:04 +0100] "GET /robots.txt HTTP/1.1" 200 5594 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:05 +0100] "GET /robots.txt HTTP/1.1" 200 4957 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
------------Extrait des log apache ------------
L'ip 193.252.149.15 est natcrawlbloc02.net.s1.fti.net : c'est donc bien Voila.
Moralité : Ce cas d'appel multi-fichiers est (hélas) aussi présent sur des fichiers web. C'est là que l'on peut réellement considérer VoilaBot comme un aspirateur. A n'en pas douter, Les ingénieurs ont un léger (gros) problème de sérialisation des processsus... Bon courage !
Comment ralentir VoilaBot :
Pour ceux qui dispose d'un serveur dédié sous linux, nous conseillons l'emploi de IPTABLES (firewall) pour effectuer des drops sur certaines IP de VoilaBot. Cela ne ralenti pas votre référencement (puisque plusieurs IP de Voila restent ouvertes) mais cela empêche de vous faire aspirer brutalement par eux.
Voici certaines IP de VoilaBot :
193.252.149.16, 81.52.143.16, 81.52.143.15 ... n'hesitez pas à faire un POST si vous en connaissez d'autres ..
Conclusion :
C'est bien dommage qu'un moteur Français ne prête pas plus attention au respect des sites qu'il indexe. Sans être démagogique, c'est un point sur lequel nous portons toujours notre attention quand nous lançons VerticrawlBot.
Ce n'est pas en indexant plus vite que l'on rattrape son retard (proverbe de La Fontaine, version web)...
Voila, via son robot "VoilaBot", indexe fortement les sites du rayon "France". En soit, pas de problème si vous souhaitez être référencé chez eux, mais le probleme se pose quant aux vitesses d'indexation et aux type de document collectés.
Voici un exemple à date :
Le site SITEFOO (exemple réel) a reçu la visite du crawler, sur son fichier robots.txt 7 fois en 6 secondes, en provenance de l'ip 193.252.149.15.
------------Extrait des log apache ------------
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:01 +0100] "GET /robots.txt HTTP/1.1" 200 5594 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:01 +0100] "GET /robots.txt HTTP/1.1" 200 4967 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:03 +0100] "GET /robots.txt HTTP/1.1" 200 4958 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:04 +0100] "GET /robots.txt HTTP/1.1" 200 4957 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:04 +0100] "GET /robots.txt HTTP/1.1" 200 5594 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
SITEFOO 193.252.149.15 - - [26/Mar/2008:09:39:05 +0100] "GET /robots.txt HTTP/1.1" 200 4957 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)"
------------Extrait des log apache ------------
L'ip 193.252.149.15 est natcrawlbloc02.net.s1.fti.net : c'est donc bien Voila.
Moralité : Ce cas d'appel multi-fichiers est (hélas) aussi présent sur des fichiers web. C'est là que l'on peut réellement considérer VoilaBot comme un aspirateur. A n'en pas douter, Les ingénieurs ont un léger (gros) problème de sérialisation des processsus... Bon courage !
Comment ralentir VoilaBot :
Pour ceux qui dispose d'un serveur dédié sous linux, nous conseillons l'emploi de IPTABLES (firewall) pour effectuer des drops sur certaines IP de VoilaBot. Cela ne ralenti pas votre référencement (puisque plusieurs IP de Voila restent ouvertes) mais cela empêche de vous faire aspirer brutalement par eux.
Voici certaines IP de VoilaBot :
193.252.149.16, 81.52.143.16, 81.52.143.15 ... n'hesitez pas à faire un POST si vous en connaissez d'autres ..
Conclusion :
C'est bien dommage qu'un moteur Français ne prête pas plus attention au respect des sites qu'il indexe. Sans être démagogique, c'est un point sur lequel nous portons toujours notre attention quand nous lançons VerticrawlBot.
Ce n'est pas en indexant plus vite que l'on rattrape son retard (proverbe de La Fontaine, version web)...
par verticrawl
publié dans :
Moteurs généralistes
ajouter un commentaire commentaires (0) créer un trackback recommander
ajouter un commentaire commentaires (0) créer un trackback recommander





Alors pourquoi choisir
ISO ou UTF :
personnelle (lien sponsorisé) suivant le principe des enchères de position sur mot-clef dans sa
solution Verticrawl Seek.


