La bibliothèque abandonnée de Google

Marc Mentré

il y a 17 ans

Trois lectures m’ont frappé récemment. Toutes trois tournent autour d’un même questionnement: comment anticiper des problèmes majeurs que va connaître le web ou que pose le web? Deux tournent autour de la question de l’archivage des données, et dans le troisième, Clay Shirky s’interroge sur le système d’information qui s’invente sous nos yeux.

1- La bibliothèque abandonnée de Google

Aujourd’hui, Google travaille à un gigantesque programme de numérisation des livres. Tout cela est-il fiable? C’est la question que se pose Kevin Poulsen sur Epicenter, un blog sur la high tech de Wired, en s’appuyant sur l’exemple d’une autre base de données reprise (en partie) en 2001 par Google : Usenet. Le titre de son post est sans équivoque : La bibliothèque abandonnée de Google au 700 millions de titres.

Le système fonctionne encore [voir par exemple usenet.fr], mais il n’a plus la puissance des années 1990 quand des millions de newsgroups s’échangeaient des informations. En 2001, raconte K. Poulsen, Google rachète une entreprise new yorkaise Deja.com, et de ce fait des archives Usenet qui remontent à 1995. Google va verser tout cela dans Google Groupes.

À cette première ressource, Google va ajouter les millions de posts sauvegardés par un « gourou d’Unix », Henry Spencer. Au total, di K. Poulsen, Google possède en archive quelques 700 millions d’articles provenant de 35.000 newsgroups produits sur deux décennies.

Mais ce trésor est en ruines, faute d’un outil de recherche adéquat et efficace dans les Google Groups. Le manque d’empressement de Google tient-il au fait que les recherches dans ces vieux et poussiéreux newsgroups génèrent peu de revenus publicitaire? La question mérite en tout cas d’être posée au moment où Google ambitionne de devenir le bibliothécaire-libraire du monde.

2- L’archivage des données numériques

Il s’agit non pas ici de la recherche et de l’exploitation de données anciennes [encore que…], mais de leur conservation. Sur son blog Les Petites Cases, Gautier Poupeau s’interroge sur la qualité des systèmes d’archivage [La pérennisation de l’information numérique, mature! Vraiment?], de retour de la 6e conférence sur la conservation des « objets numériques » [IPRES], qui a réuni quelque 300 spécialistes de ces questions.

Il s’agit de résoudre cette question très triviale à laquelle tout le monde a été confronté un jour: se retrouver devant une disquette et ne pas pouvoir en lire les données, faute du lecteur ou du (c’est plus fréquent) du logiciel adéquat.

Très clairement, écrit-il, la question de la pérennisation, certes, avance, mais elle est très loin d’être réglée. Par exemple, « aucune communication [pendant la conférence] n’a abordé les problématiques liées à la faisabilité d’une migration à très grande échelle (plusieurs millions de fichiers) dans des corpus hétérogènes, ni à l’indexation et au stockage intelligent de toutes ces métadonnées en vue de leur usage ».

Résultat, poursuit-il, actuellement, « on produit de la métadonnée pour produire de la métadonnée, parce que c’est rassurant, parce que, peut-être un jour, on en aura besoin, sans même se demander le sens même des données produites, ni même si cette attitude ne crée finalement pas plus de risques qu’elle n’en règle. »

3- Penser l’impensable

Ce post de Clay Shirky [Journaux, penser l’impensable] sur son blog date de mars 2009, mais la réflexion qu’il engage est particulièrement riche et mérite toujours attention. Il estime dans ce texte que nous nous trouvons dans une période similaire à celle qui a suivie l’invention de l’imprimerie par Gutenberg, à savoir dans une de ces périodes révolutionnaires où « les vieux trucs [old stuff] sont cassés avant que les nouveaux se mettent en place ».

Par exemple, à propos de la couverture exhaustive [du conflit en Irak au moindre Conseil municipal] qu’assurait la presse écrite, il écrit: « Cette couverture bénéficiait à tout le monde, y compris à ceux qui n’étaient pas lecteurs de journaux, parce que le travail des journalistes était utilisé par tous, les politiciens, les procureurs, les gens qui participaient aux émissions de radio, les blogueurs. » C’est cela qui est en train de disparaître, et à la question « Mais qui va fera ce travail si les journalistes ne le font plus? », il répond « Je l’ignore. Personne ne sait ».

Et de conclure: « aucune des expérimentations en cours ne remplacera ce que nous sommes en train de perdre avec la disparition de l’information « papier », mais avec le temps, les nouvelles expérimentations en cours devraient nous donner le journalisme dont nous avons besoin ».