La recherche sur l'Internet

Comment on utilise une bibliothèque ordinaire

Lorsque l'on cherche des informations sur un sujet, dans une bibliothèque ordinaire, on dispose de deux alliés:

Le fichier catalogue de tous les livres, journaux et revues disponibles dans la bibliothèque.
Le bibliothécaire: il oriente le lecteur vers les sources d'informations qu'il connaît bien.

Le travail du bibliothécaire est:

d'indiquer tous les ouvrages disponibles dans le catalogue et de les ranger avec ordre sur les étagères;
de sélectionner et d'acheter les meilleurs ouvrages;
de conseiller les lecteurs à la recherche d'informations.

L'Internet n'est pas une bibliothèque ordinaire

L'Internet est un peu comme une gigantesque bibliothèque publique où l'on peut consulter tous les documents.

Mais il existe quelques différences entre une bibliothèque et l'Internet

La quantité d'informations disponibles est bien plus grande sur l'Internet que dans n'importe quelle bibliothèque.
Il n'y a pas de bibliothécaire et il n'existe pas de catalogue.
Les documents ne sont pas rangés: lorsqu'un document arrive, il est simplement ajouté à l'ensemble des documents existants
Tout le monde peut venir déposer un document ou enlever un document qu'il avait déposé.

Se faire aider pour trouver les informations sur l'Internet

Où est le bibliothécaire?

La recherche d'informations sur l'Internet pose au moins trois problèmes:

La quantité d'informations disponibles est colossale
On ne sait pas sur quel site aller pour trouver une information intéressante
N'importe qui peut venir déposer des informationss sur l'Internet; même des informations fausses

Dans une bibliothèque classique, on peut faire appel au bibliothécaire.
Mais personne n'est chargé du rôle de bibliothécaire sur l'Internet.

Un moteur de recherche est un programme d'ordinateur capable de trouver des informations parmi un grand nombre de documents de différents types

Un certain nombre de sites web proposent un moteur de recherche. Parmi les moteurs de recherche les plus connus :

Comment les moteurs de recherche... cherchent

Fonctionnement des moteurs de recherche: synthèse

Les web crawlers ou spiders

Comme leur nom l'indique, les web crawlers passent leur temps à explorer l'internet (textuellement "faire du crawl sur le web"). Ils parcourent tous les documents qu'ils trouvent en suivant les liens hypertexte.

On pourrait aussi parler de "spiders" (araignées, en anglais) qui parcourent continuellement la toile (le World Wide Web).

En "lisant" les pages web, les spiders repèrent les liens hypertextes et sautent ensuite vers les pages liées. Qu'ils lisent en repérant les liens hypertextes, et ainsi de suite...

Remarques:

Les pages qui sont fréquemment modifiées -les pages des journaux quotidiens, par exemple- sont parcourues plus régulièrement que d'autres.
Les pages qui ne sont liées à aucune autre page ne sont jamais visitées (pourquoi?)

Ouaaah, trop fort! Vous voulez dire que les robots sont parmi nous? Et que ceux-là passent toutes leurs journées à surfer sur le web?

Toutes leurs journées et toutes leurs nuits aussi. Mais ce ne sont que de simples ordinateurs munis de programmes qui leur permettent de récupérer tout ce qu'ils trouvent sur le web.

Les serveurs d'indexation

Les pages "lues" par les spiders sont envoyées vers une autre série d'ordinateurs: les serveurs d'indexation. Leur rôle est de tenir à jour un index des informations lues par les spiders.

Cet index se présente comme l'index d'un livre: à chaque mot, on fait correspondre la page où ce mot se trouve. Mais en beaucoup plus gros. Il constitue une gigantesque banque de données dans laquelle il sera possible de chercher très rapidement des informations.

Affiner le travail sur un moteur de recherche

Dans certains cas, les moteurs de recherche renvoient des résultats sans rapport avec le sujet qui nous intéresse. Comment éviter cela et mieux cibler la recherche?

Bien choisir les mots-clés utilisés

Avant de commencer toute recherche, trouver les mots-clés correspondant au sujet à étudier.
Ne pas hésiter à utiliser des synonymes ("masse éléphant Afrique" au lieu de "poids...", par exemple).
Élargir le champ de recherches avec des termes plus généraux (pour obtenir plus de résultats).
Affiner les résultats en ajoutant des termes plus précis.
Ne pas faire des recherches contenant moins de deux ou trois mots-clés bien choisis simultanément.
Certains mots trop commun qui pourraient figurer dans une requête sont écartés par les moteurs de recherche (le, la, de, un, des, ...). Ils ne servent donc à rien.

Les moteurs de recherche ne sont, à l'heure actuelle, pas vraiment conçus pour reconnaître les langues naturelles. Ni le français, ni l'anglais, ni même le chinois.
Il ne sert donc à rien de poser une question en langue naturelle.