Syndication & RSS

  • Feed RSS 2.0
  • Feed ATOM 1.0
  • Feed RSS 2.0
Vendredi 15 février 2008
Le 12 février 2008 (oui oui.. la date est  importante !), Live search annonçait de nouvelles fonctionnalités dans ses process de crawl.


Entre autre, et en vrac :

HTTP Compression: HTTP compression allows faster transmission time by compressing static files and application responses, reducing network load between your servers and our crawler. We support the most common compression methods: gzip and deflate as defined by RFC 2616 (see sections 14.11 and 14.39). Compression is currently supported by all major browsers and search engines. Use this online tool to check your server for HTTP compression support.


Bref : LiveS comprend maintenant les entetes http et les contenus compresse via le mode Gzip . Vous avez probablement remarqué que nous avons placé cet article dans la rubrique hum[e|o]ur ...


La compression d'entete c'est quoi ?

Basiquement, on compresse les documents pour qu'ils prennent moins de place (sur un disque dur ou en transfert entre ordinateurs).. Par exemple, si vous décider de reduire la largeur des voitures, vous pourrez faire passer plus de voitures de front sur une route (vous multipliez alors la quantité de voitures passante à l'heure... En informatique c'est pareil.

Dans un dialogue entre 2 ordinateurs, si l'un des deux transmet un doc compressé, l'autre doit pouvoir le lire.. Donc si vous ne disposez pas du logiciel pour décompresser (ou compresser), vous etes marron !

En clair, nous venons de vous dire que Microsoft ne disposait pas de logiciel de zip pour LiveSearch... drôle non ?


Indexation et compression : Quel enjeux ?

Le processus de crawl (collecte de document sur le net) est naturellement gourmant en bande passante. L'intéret n°1 est dedonc de réduire le flux de données transmis. Un crawler qui comprend le mode Gzip-deflate/inflate peut donc dialoguer avec des serveurs web qui acceptent ce mode... Ce n'était pas le cas de LiveS auparavant.

Avantage pour Lives :
    - moins de flux, moins de coût bande passante ou transfert plus rapide.
    - crawl un peu plus loin (car décompression après crawl ou lecture dans le gzip)

Avantages pour le serveur web ?

    - En fait pas grand choses.
    - Plus de temps cpu (compresser le doc avant  transfert)
    - Gérer l'anciennété du document (IIS surtout)
    - Moins de bande passante (très dépendante du cout  de hosting du serveur).

    - Contrainte forte sur IIS (document pré-compressé et en cache)


Avantage pour l'internaute ?
    - Avec un modem 56Ko... y pas photo !
    - Le navigateur doit décompresser le doc avant affichage..cela peut réduire la vitesse machine.


Histoire drôle !
Le communiqué de presse date du 12 février 2008, Verticrawl exploite les fonction Gzip dans ces processus d'indexation depuis ... 1999.

Hypothèse : Microsoft veut s'acheter Yahoo pour stocker ses documents non compressés? ..Ca fait cher le winzip ;-)

Sacré Microsoft !














par verticrawl publié dans : billet d'hum[e|o]ur
ajouter un commentaire commentaires (0)    créer un trackback recommander
depot nom de domaine sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur avec TF1 Network - Signaler un abus