Les moteurs de recherche sémantique : un pas dans le web 3.0

Marc Mentré

il y a 18 ans

Le web 3.0 n’est pas seulement l’Internet de demain. De nombreux outils en utilisent déjà les potentialités et permettent de se projeter dans l’avenir. C’est le cas, par exemple, des moteurs de recherche sémantiques qui se révèlent des outils de travail extrêmement puissant. Hakia, Powerset, Surf canyon et autres Zemanta, autant de sites à découvrir.

À première vue, rien ne distingue un moteur de recherche « classique », comme Google, d’un moteur de recherche « sémantique ». Même interface sobre, avec au centre de la page une fenêtre dans laquelle l’utilisateur entre sa requête.

En fait, la différence se fait sur le mode de recherche. Un moteur « classique », type Google, fonctionne de la manière suivante : ses robots indexent dans les pages qu’ils parcourent des « mots ». Ceux-ci sont ensuite rangés dans une gigantesque base de données. Les requêtes que font les utilisateurs sont une recherche dans ce « dictionnaire géant », un algorithme permettant de classer et présenter les résultats selon un certain ordre de pertinence. [Je simplifie à l’extrême]

Lier des informations contenues dans des bases de données différentes et des applications différentes

Les moteurs de recherche sémantique repose sur une autre approche, liée à ce que l’on appelle le web 3.0, ou web sémantique, comme l’a baptisé Tim Berners-Lee, l’un des pères du world wide web (les fameux « www » que l’on trouve devant la plupart des adresses de site).

Le web sémantique vise, explique Colin Meek sur journalism.co.uk, à « lier (link up) différents types d’information, horaires d’avion, prévisions météo, bookmarks de réseaux sociaux, informations, qui sont toutes publiées dans différents formats et accessibles par des applications différentes ».

Il s’agit de faire en sorte que l’on puisse consulter son relevé de banque sur son calendrier, par exemple, alors que ces données dépendent de deux applications distinctes. Atteindre cet objectif, implique une formalisation, qui passe par des « outils sémantiques » et des langages définis par le W3C (World Wide Web Consortium).

Tous les acteurs du web doivent participer à l’effort de normalisation

Il implique aussi que tout les acteurs agissant dans le web, développeurs comme utilisateurs, participent à cet effort de normalisation, comme le précise Yihong Ding, dans Semantic Focus. La plateforme SearchMonkey, de Yahoo! est basée justement sur l’emploi d’outils sémantiques comme SIOC (Semantically-Interlinked Online Communities), un langage qui permet une utilisation commune des bases de données —actuellement distinctes— que constituent les différents réseaux sociaux (Facebook et tutti quanti), les groupes de discussion, les blogs, etc. Bref, le web 3.0 se veut le prolongement naturel et logique du web 2.0.

Le plus frappant d’ailleurs est qu’actuellement, tout le monde fait du web 3.0 sans le savoir. Par exemple, l’OpenID, qui est moyen d’utiliser son identité sur différents sites, est actuellement supportée par quelque 10 000 sites… (Cela pose des problèmes de confidentialité. Je me propose de revenir sur ce point dans un prochain post)

« 10 milliards de pièces réutilisables »

Sindice, un site qui propose un puissant index sémantique (destiné aux développeurs et non au grand public), vient de publier un tableau recensant les sites « sémantiques ». On y trouve pêle-mêle last.fm, twitter, LinkedIn, Flickr… Sindice estime que quelque « 10 milliards de pièces réutilisables [en clair, d’éléments sémantiques] peuvent être trouvé sur environ 100 millions de pages web ». Rappelons que les pages web se comptent en milliards…

Tout ce qui précède montre que les outils de recherche sémantique sont encore largement perfectibles. Mais déjà leurs performances sont intéressantes.

La possibilité de faire ses recherches en langage naturel

Hakia et dans une moindre mesure Ask.com, se revendiquent comme moteurs de recherche sémantique, c’est-à-dire, offrent à leur usager la possibilité de faire des requêtes en langage naturel (la qualité des réponses est meilleure en anglais), et d’offrir des résultats « basés sur la qualité et non sur la popularité », dixit Hakia. Pour cela, le site qui utilise un système de recherche sémantique (détaillé ici) propose sur une même page ses résultats ventilés selon les « sites crédibles », c’est-à-dire recommandés par des bibliothécaires, les plus récents et les images. Le site se veut aussi participatif, car on peut facilement créer, ou rejoindre, un forum sur la requête que l’on vient de faire.

L’un des outils de recherche sémantique, les plus curieux est sans doute Powerset, propriété de Microsoft, dont les recherches s’appuient sur Wikipedia ! À l’usage, cela s’avère très efficace.

Cuil cherche dans 124 426 951 803 pages

IBM, avec Cuil, travaille aussi sur la recherche sémantique. Le moteur lorsqu’il trouve les mots recherché dans une page, en analyse le contenu, sa cohérence, les concepts qu’elle contient, etc. Et cela sur un nombre de pages triple [selon Cuil] de celui recensé par Google. Le chiffre brut laisse en tout cas rêveur. Cuil cherche dans 124 426 951 803 pages (au 20 novembre 2008).

Les moteurs de recherche sémantique savent aussi se faire discret et s’intégrer dans la barre de recherche du navigateur (Firefox) comme c’est le cas de Zemanta, soit travailler en tâche de fond derrière un moteur de recherche classique. C’est le cas de Surf Canyon (application à télécharger qui s’intègre à Firefox et à Internet Explorer). Le système s’avère également très efficace à l’usage. Un petit signe s’affiche à droite des résultats, et lorsque l’on clique dessus 3 résultats complémentaires s’affichent, sur lesquels s’affichent également à droite le même petit signe. Et si l’on clique on obtient de nouveaux trois résultats, etc.

• Pour aller plus loin, le rapport de David Provost, On the Cusp : A Global Review of the Semantic Industry (30 septembre 2008 – pdf – licence creative common).