Moteurs de recherche: éléments de compréhension

Marc Mentré

il y a 16 ans

Et si les moteurs de recherche n’existait pas? Poser la question c’est y répondre. Sans moteurs de recherche, impossible de s’y retrouver dans le foisonnement de sites, blogs, vidéos, pages… Pour cette raison dès les débuts d’Internet, le moteur de recherche devint un outil indispensable. Il l’est encore plus aujourd’hui, dès lors qu’il s’agit de (re)trouver l’information utile dans les milliards de pages archivées et modifiées constamment qui constituent ce que l’on appelle le web. Ils le sont aujourd’hui encore plus en ce début d’ère de « l’information immédiate » qu’ouvre la généralisation de réseaux comme Twitter.

Cette première partie est consacrée à fournir quelques éléments de compréhension sur la recherche, à travers, un état des lieux, une histoire de la recherche et des moteurs, l’opposition traditionnelle entre les « annuaires » et les « moteurs », et l’émergence de la recherche « immédiate », qui constitue peut-être la principale menace pour Google.

Dans une seconde partie, je rends compte de L’Entonnoir, un ouvrage collectif rédigé par une dizaine d’universitaires spécialistes de la documentation ainsi que des sciences de l’information et de la communication. Il se veut une réflexion sur l’impact de la « googlisation« .

1- État des lieux

En avril 2009, Google était en position de quasi monopole en France, puisqu’il représentait environ 90% des requêtes effectuées à partir de la France, selon les chiffres fournis par AT Internet Institute (ex Xiti Monitor) distançant —de loin— ses concurrents, puisque le second Bing (ex LiveSearch) de Microsoft ne représentait que 2,90% des recherches.

La situation française n’est pas une exception. Dans de nombreux autres pays, Google a des taux de pénétration semblables, selon un recensement sur 48 pays effectué par les auteurs du blog Google Operating System. Selon cette compilation, nous serions dans le même peloton de « googlephiles » que l’Allemagne (93%) ou le Royaume Uni (90%).

Mais, il en va autrement dans d’autres pays du monde. Aux États-Unis, Google n’atteint « que » 72% de parts de marché, elon Hitwise (un peu moins selon un autre institut comScore). Il laisse loin derrière lui son suivant immédiat Yahoo! (17,8%). Surtout, il continue à progresser significativement, gagnant [toujours selon Hitwise] 6 points sur le marché américain en un an (66,74% en février 2008 et 72,11% en avril 2009).

Microsoft, a bien senti le danger, rénovant en profondeur son propre moteur de recherche, LiveSearch, dans une nouvelle mouture, baptisée Bing, semble-t-il assez séduisante, puisqu’il se rapprocherait sensiblement du « second », sur le marché américain Yahoo!. Ce n’est encore qu’une tendance. Elle devra être confirmée sur la durée.

Pour autant, la suprématie de Google n’est pas universelle et l’Asie est clairement une terre de résistance: au Japon, il ne représente que 38% des recherches et seulement 32% en Chine, où il a affaire à forte partie avec le moteur « local » Baidu, qui se taille près de 60% du marché chinois. [le slideshow ci-dessous donne une indication des parts de marché dans plusieurs grands pays].

L’Asie un foyer de résistance à Google

En matière de « recherche » (search, en anglais), il n’existe pas, à proprement parler de monopole. Les moteurs sont de facto très nombreux [on trouvera ici une liste non exhaustive de ces moteurs « dont vous n’avez jamais entendu parler », mais il existe de nombreux autres sites/blogs qui les recensent]. Par exemple, en France qui utilise Ask.com? Pourtant, ce moteur a récemment évolué vers le web sémantique [lire ici] est permet de faire ses requêtes en langage naturel, pour autant qu’elles soient faites… en anglais.

Certains d’entre eux, très discrets, équipent des marques connues. C’est le cas par exemple de Pertimm [lire l’interview de son fondateur et président Patrick Constant, sur sa stratégie, à eWeekeurope ici] qui est le moteur de recherche des Pages Jaunes ou de Meetic .

D’autre s’affichent publiquement, mais en fait suivent une stratégie similaire. Exalead, par exemple « motorise » des médias comme Ouest France ou Lagardère.

Mais ces moteurs ne jouent pas dans la même cour que les grands, même s’ils sont très innovants. Exalead, créé en 2000, affiche un chiffre d’affaires de 15,4 millions d’euros pour l’année 2008. Celui de Google tourne autour de 4 milliards d’euros (5,5 milliards de dollars) tandis que celui de Yahoo! dépasse le milliard d’euros (1,2 milliard soit 1,6 milliard de dollars) pour le seul premier trimestre de 2009!

2 – La recherche [Search], c’est toute une histoire

Vannevar Bush a son bureau de l'Office Emergency Management Defense, entre 1940-1944 (photo: Librairie du Congrès)

En 1945, Internet est encore du domaine de la science fiction. Pourtant, en juillet , Vannevar Bush, qui a coordonné à la tête de l’Office of Scientific Research and Development l’activité de quelques 6000 scientifiques participants à l’effort de guerre américain, publie dans le magazine The Atlantic un article retentissant, As we May Think [littéralement: Comment nous pourrions penser], dans lequel il presse ces derniers de rendre plus accessible les connaissances.

Il constate que: « nos méthodes pour transmettre et évaluer les résultats des recherches sont vétustes et ne sont plus appropriées. (…) La somme de l’expérience humaine s’accroît à une vitesse prodigieuse, et les moyens que nous utilisons pour nous faufiler dans ce labyrinthe géant sont les mêmes que ceux en usage à l’époque des bateaux à voile carrée (…) Notre inaptitude à obtenir un résultat [lors d’une recherche] est provoqué en grande partie par le côté artificiel du système d’indexage. Quand des données de quelque sorte que ce soit sont conservées, elles sont rangées selon un ordre alphabétique ou numérique, et l’information est trouvée (si elle l’est) en la parcourant de sous-catégorie en sous-catégorie. (…) Le cerveau humain ne fonctionne pas de cette façon, mais par association. »

Il proposera donc un système, qu’il baptisera memex, dans lequel chaque personne pourrait stocker l’ensemble de ses données et les retrouver. Il s’agit en fait d’une sorte de base de données individuelle

Avec le memex, les principes de la recherche sont posés, mais le système est individuel

Vannevar Bush, avec d’autres chercheurs comme Gerard Stalton [auteur de A Theory of Indexing], ou Ted Nelson (le créateur du mot « hypertexte« , en 1963), posa les premiers jalons de la recherche sur le web. Curieusement, le premier moteur devait naître avant que n’existe réellement un réseau. Archie [contraction d’archives] sera créé par un étudiant de l’université McGill de Montréal, en 1990. Bill Slawski, qui a tenté d’en reconstituer le fonctionnement, décrit un système rustique qui permettait certes de retrouver des fichiers par leurs noms [filenames], mais ne faisait pas de recherche sur les textes entiers. Cela ne sera que l’affaire de quelques années.

Les moteurs de recherche n’auront réellement d’intérêt qu’à partir du moment où les fichiers seront réellement connectés entre eux. Pour cela il faudra la révolution apportée par le World Wide Web, dont le concept sera porté par un britannique Tim Berners-Lee, rejoint plus tard par un scientifique belge, Robert Cailliau. La notion d’hypertexte devient alors une réalité. Cela signifie que les liens hypertextes sont publics, et que les pages, reliées entre elles par les liens, peuvent être consultées grâce à un navigateur: Mosaïc à l’origine, aujourd’hui Internet Explorer, Firefox, Safari, Chrome, Opera, etc.

• Pour aller plus loin : il existe plusieurs sites dédiés à l’histoire des moteurs de recherche comme Search Engine History,qui contient de nombreux liens avec des sites et des blogs de chercheurs, ou encore cet historique sur le site de l’éditeur scientifique Wiley .

3 – La recherche, c’est l’opposition-coopération entre les moteurs et les annuaires

La recherche sur le web s’est construit selon deux méthodes distinctes qui ont chacune leurs avantages et leurs inconvénients:

• les annuaires [Directories], dont l’un des premiers et en tout cas le plus célèbre sera Yahoo! Directory, créé en 1994 par 2 étudiants, David Filo et Jerry Yang de Stanford. L’idée de départ est simple: ces deux étudiants collectionnaient les liens qu’ils trouvaient intéressants. Lorsque la liste devint trop grande, ils la divisèrent en « catagories ». Puis ces catégories elle-mêmes furent subdivisées en sous-catégories, et ainsi de suite.

Cette structure très particulière implique une intervention humaine, pour compiler et mettre à jour les liens, ce qui rend les annuaires plus coûteux à maintenir que les « moteurs » du type de Google.

Pour cette raison, les annuaires « généraux » ont cédé la place à des annuaires spécialisés « experts ». C’est le cas pour les annuaires [dans le sens de directories] universitaires ou d’entreprises. Plusieurs d’entre eux sont utilisés comme ressources par les moteurs de recherche pour améliorer la pertinence des résultats.

Pour pailler au coût de la construction des annuaires, le crowdsourcing a aussi été utilisé, soit par le biais de réseaux sociaux, comme c’est le cas avec Delicious (propriété de Yahoo! depuis 2005), ou en créant des projets « collaboratifs », comme Dmoz, auquel chacun est appelé à participer pour l’enrichir.

• Les « moteurs« . Google en est l’archétype. Schématiquement, un moteur de recherche fonctionne de la manière suivante: des robots (spiders) parcourent le web en suivant les liens vers les pages non encore indexées ou qui ont été mises à jour. Leurs informations sont indexées dans des serveurs, et enfin un logiciel (l’algorithme) extrait les résultats et les affiche.

Le succès de Google tient à une innovation par rapport à ses prédécesseur : « l’indice pagerank » [ainsi nommé en référence au nom de l’un des fondateurs de Google, Lawrence Page]. Hubert Wassner, professeur d’informatique à l’ESIEA, en explique sur son blog le principe: « L’indice pagerank est ce qui définit la position dans les pages de résultat des moteurs de recherche ». Pour calculer cet indice, Larry Page et Serguei Brin, alors étudiants à Stanford, « ont trouvé une solution aussi originale que simple : utiliser l’information des liens entre les pages pour mesurer l’importance des sites ». Une mesure qui s’effectue à travers un algorithme, devenu au fil du temps un véritable secret d’État.

Dit autrement, l’invention de Brin et de Page est d’offrir aux utilisateurs de Google un système de classement, qui donne l’impression à son utilisateur de trouver ce qu’il cherche. Keila Colbin explique, dans la lettre spécialisée SearchInsider, que le succès initial de Google a été construit sur une forme de « connaissance anthropologique qui veut que les réseaux puissent afficher les comportements de l’homme (les liens), que ces réseaux puissent être cartographiés de manière mathématique (PageRank) afin d’en identifier l’importance relative (pour les personnes) »

Le système Google nécessite une base informatique considérable, puisqu’il s’agit non seulement d’indexer [c’est l’idéal recherché] les milliards de pages qui composent le web, mais de faire en sorte que cette indexation soit sans cesse remise à jour.

Ce « modèle » de moteur exige pour être efficace d’utiliser une base de données considérable et de posséder une grande puissance de calcul, ce qui se traduit par la construction de dizaines de « fermes » d’ordinateurs. « À 600 millions de dollars pièce, explique Philippe Escande, éditorialiste aux Échos, il [Google] a ainsi érigé en très peu de temps une barrière colossale à l’entrée de son métier » (1). Tellement colossale que Microsoft s »essouffle à suivre ce train d’enfer, tandis que la présidente de Yahoo! Carol Bartz, n’hésite pas à déclarer (à la chaîne américaine CNBC) : « Nous ne sommes pas dans la recherche, nous sommes un lieu où les gens viennent s’informer ». Nuance, mais cela ressemble fort au jet de l’éponge.

4 – La recherche immédiate, une menace pour Google ?

Pour Google tout irait pour le mieux s’il n’y avait pas Twitter. Pour la première fois depuis dix ans, les outils que l’on utilise pour effectuer des « recherches immédiates » ne sont pas ceux développés par Google, qui pour l’instant est absent de ce domaine.

Collecta, par exemple effectue des recherches sur les blogs, les commentaires, les updates de Twitter, mais aussi de Jaicku, ou d’Identi.ca. Il explique très simplement qu’il ne cherche pas les « vieux trucs » [comprendre ce qu’indexent les moteurs de recherche traditionnels], mais ce qui concerne le terme recherché « à l’instant ». En guise de clin d’œil la page de présentation renvoie à la page de recherche Google. « Vous pouvez toujours regardez ce que Google a trouvé pour votre requête ». Il y a un soupçon d’insolence…

Notes

(1) Philippe Escande, Google au pays des grands nombres, Les Échos, 18 mars 2009.