Comme leur nom l'indique, les web crawlers passent leur temps à explorer l'internet (textuellement "faire du crawl sur le web"). Ils parcourent tous les documents qu'ils trouvent en suivant les liens hypertexte.
On pourrait aussi parler de "spiders" (araignées, en anglais) qui parcourent continuellement la toile (le World Wide Web).
En "lisant" les pages web, les spiders repèrent les liens hypertextes et sautent ensuite vers les pages liées. Qu'ils lisent en repérant les liens hypertextes, et ainsi de suite...
Remarques:
Les pages qui sont fréquemment modifiées -les pages des journaux quotidiens, par exemple- sont parcourues plus régulièrement que d'autres.
Les pages qui ne sont liées à aucune autre page ne sont jamais visitées (pourquoi?)
Ouaaah, trop fort! Vous voulez dire que les robots sont parmi nous? Et que ceux-là passent toutes leurs journées à surfer sur le web?
Toutes leurs journées et toutes leurs nuits aussi. Mais ce ne sont que de simples ordinateurs munis de programmes qui leur permettent de récupérer tout ce qu'ils trouvent sur le web.
Les serveurs d'indexation
Les pages "lues" par les spiders sont envoyées vers une autre série d'ordinateurs: les serveurs d'indexation. Leur rôle est de tenir à jour un index des informations lues par les spiders.
Cet index se présente comme l'index d'un livre: à chaque mot, on fait correspondre la page où ce mot se trouve. Mais en beaucoup plus gros. Il constitue une gigantesque banque de données dans laquelle il sera possible de chercher très rapidement des informations.
Affiner le travail sur un moteur de recherche
Dans certains cas, les moteurs de recherche renvoient des résultats sans rapport avec le sujet qui nous intéresse. Comment éviter cela et mieux cibler la recherche?
Bien choisir les mots-clés utilisés
Avant de commencer toute recherche, trouver les mots-clés correspondant au sujet à étudier.
Ne pas hésiter à utiliser des synonymes ("masse éléphant Afrique" au lieu de "poids...", par exemple).
Élargir le champ de recherches avec des termes plus généraux (pour obtenir plus de résultats).
Affiner les résultats en ajoutant des termes plus précis.
Ne pas faire des recherches contenant moins de deux ou trois mots-clés bien choisis simultanément.
Certains mots trop commun qui pourraient figurer dans une requête sont écartés par les moteurs de recherche (le, la, de, un, des, ...). Ils ne servent donc à rien.
Les moteurs de recherche ne sont, à l'heure actuelle, pas vraiment conçus pour reconnaître les langues naturelles. Ni le français, ni l'anglais, ni même le chinois.
Il ne sert donc à rien de poser une question en langue naturelle.