Suggestion : Undefined variable: _record_day dans le fichier /home/users/00/19/d7/home/www/kernel/begin.php à la ligne 140
Point Cours : Cours - La recherche sur l'Internet
 
Rss La recherche sur l'Internet
Poster commentaire   Version imprimable

Sommaire:

 

Fonctionnement des moteurs de recherche: synthèse


Les web crawlers ou spiders


Comme leur nom l'indique, les web crawlers passent leur temps à explorer l'internet (textuellement "faire du crawl sur le web"). Ils parcourent tous les documents qu'ils trouvent en suivant les liens hypertexte.

On pourrait aussi parler de "spiders" (araignées, en anglais) qui parcourent continuellement la toile (le World Wide Web).

En "lisant" les pages web, les spiders repèrent les liens hypertextes et sautent ensuite vers les pages liées. Qu'ils lisent en repérant les liens hypertextes, et ainsi de suite...

Remarques:
  • Les pages qui sont fréquemment modifiées -les pages des journaux quotidiens, par exemple- sont parcourues plus régulièrement que d'autres.
  • Les pages qui ne sont liées à aucune autre page ne sont jamais visitées (pourquoi?)


Ouaaah, trop fort! Vous voulez dire que les robots sont parmi nous? Et que ceux-là passent toutes leurs journées à surfer sur le web?

Toutes leurs journées et toutes leurs nuits aussi. Mais ce ne sont que de simples ordinateurs munis de programmes qui leur permettent de récupérer tout ce qu'ils trouvent sur le web.

Les serveurs d'indexation


Les pages "lues" par les spiders sont envoyées vers une autre série d'ordinateurs: les serveurs d'indexation. Leur rôle est de tenir à jour un index des informations lues par les spiders.

Cet index se présente comme l'index d'un livre: à chaque mot, on fait correspondre la page où ce mot se trouve. Mais en beaucoup plus gros. Il constitue une gigantesque banque de données dans laquelle il sera possible de chercher très rapidement des informations.
 
 « Page précédente
Se faire aider pour trouver les informations sur l'Internet
 1  2  3  4 
Page suivante »
Affiner le travail sur un moteur de recherche 
 
Note: Aucune note
(0 note)
Ecrit par: Aircrack, Le: 28/07/12