Syndication & RSS

  • Flux RSS des articles

Vendredi 15 février 2008
Il y a plusieurs semaines, Google annonçait qu'il allait personnaliser les pages 404  (document non-trouvé) des sites internets.

Au delà  de la polémique qui se trame autour des thèmes "publicité de mes pages d'erreur",  on encore "je vais donner mes visiteurs à Google",  nous avons l'impression que tout le monde passe à coté de l'objectif prioritaire de Google...


Et oui : Pouquoi Google désire t'il personnaliser ces fameuses pages 404 ?

Tout d'abord, il faut remarquer qu'il existe plusieurs types de code d'erreur (301 - redirection permanente, 302 - redirection temporaire, 500 - plantage serveur, etc...).  Donc, si Google personnalise un type de page...pouquoi ne choisirait -il pas de personnaliser TOUS les types de page d'erreur ?

Evidement : Comme la société est une excellente communiquante, elle a pris la précaution de ne parler QUE du sujet qui fache les webmastres, à savoir la page 404.

Alors pourquoi "intercepter" les erreurs des serveurs web ? Au profit de l'internaute : oui probablement. Au profit de Google : Oui biensur !

Les approches stratégiques sont les suivantes :

    - d'abord offrir des outils supplémentaires au webmestres (de type "je personnalise mes pages d'erreur").
    - mais surtout : disposer d'une quantité impressionnante de crawler qui font la mise à jour de mon index à ma place !


Pour Google : Exploiter les fonctions de la Toolbar ou des javascripts pour mettre à jour son index :

On sait depuis longtemps chez Verticrawl que le principal centre de coût d'indexation est le traitement des urls en erreur. En effet, elles augmentent considérablement le temps de crawl (parce qu'elle doivent être traitées comme de vrais documents). C'est au moment du crawl que l'on découvre une url en statut 404 (on ne peut jamais le deviner autrement).

Et c'est là que la méthode Google est implacable : Donner à d'autres son propre travail de recensement des documents inconnus ! Celà etait déjà (en partie) fait avec les Webmaster tools et les sitemaps. Maintenant c'est l'internaute qui fera le travail de nettoyage de l'index de Google... Etonnant non ?


Comment un navigateur web peut verifier un statut http d'un document ?

Ceux qui connaissent les processus asynchrones d'ajax voient déjà ou nous voulons en venir...

Si votre page web (en l'occurence la page de recherche de Google) contient un javascript interconnecté en ajax avec vos serveurs centraux) alors vous pouvez collecter le status http d'un document consulté depuis votre page  sur le navigateur de l'internaute (et donc l'exploiter sur vos serveur).. Des fonctions comme HTTP.request (fonction native du xml object) offrent tous les moyens technique de traitement : CQFD !

Résultat des courses : Ce n'est plus X Googlebot qui crawlent le web mais X puissance Y navigateurs web qui nettoyent l'index de Google.  Evidement, cela est encore plus simple quand vous installer votre logiciel sur l'ordinateur de l'internaute (Google toolbar).


Soyons visionnaire et/ou paranïaque ???

N'oublions pas que Google investi largement dans le projet Mozilla et Firefox ...Rien n'ai jamais sans conséquence ;-)

Il y a fort à parier que les pluggins de Firefox / MSIE et la toolbar installée par les internautes servent aussi d'outils d'identification de contenu (recensement d'url) et l'actualisation de contenu (maintenance de l'index).

Google dispose de la 1ère structure de développement en informatique (bien loin devant Microsoft). Parions qu'ils ont déjà pensés à exploiter le principe des centres de calcul collaboratifs entre pc pour déployer une puissance de traitement énorme. Comme quoi : il n'y pas que les entreprises Français qui délocalisent ! Même Googlebot se fait "virer" de Palo Alto ;-)


Dans l'internet, rien n'ai jamais sans conséquence...En conséquence rien n'ai jamais gratuit !
(proverbe webmestre)
Par verticrawl - Publié dans : Moteurs généralistes
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Retour à l'accueil

Commentaires

Aucun commentaire pour cet article

publier sur le web sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus