Entre septembre 2012 et avril 2013, l’ABES a mené une étude visant à préciser les priorités et les modalités d’un hub de métadonnées, annoncé dans le projet d’établissement 2012-2015. Cette étude a pris la forme d’un prototype et d’un rapport, en ligne sur le site de l’Abes (ainsi que son annexe sur les ebooks Springer). L’étude s’étant avérée concluante, le développement du hub de métadonnées commencera en septembre 2013.
Ce hub ne sera pas une nouvelle application, à côté du Sudoc, du SGBm ou de la future base de connaissance nationale pour la documentation électronique. Pour l’Abes, il s’agit avant tout de se doter de nouveaux outils et de nouvelles méthodes pour drainer davantage de données de qualité vers ces différentes applications, et vers le web de données.
Le projet d’établissement (2012-2015) introduit la notion et l’ambition d’un hub de métadonnées :
Dans le cadre du hub de métadonnées, l’ABES offrira le service suivant à tous les établissements: redistribution dans n’importe quel format des métadonnées enrichies récupérées dans n’importe quel format auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases.
Les enjeux
Le hub est une partie de la réponse aux enjeux suivants :
- Le signalement de la documentation électronique ne peut suivre le même modèle que le catalogage partagé traditionnel : les masses et les flux de documents sont trop importants ; les éditeurs sont aujourd’hui capables de fournir des métadonnées, qu’il s’agit de réutiliser.
- Les métadonnées fournies par les éditeurs sont souvent inexactes, pauvres et mal structurées. Loin de relever de l’art pour l’art, la qualité des métadonnées est un facteur décisif pour la recherche et l’identification des documents mais également pour garantir l’accès à ces documents, notamment via les résolveurs de lien.
- Les catalogues de bibliothèque ne sont plus les outils privilégiés des lecteurs. Les métadonnées qui passent par l’Abes et ses réseaux doivent être redistribuées le plus largement possible, y compris en direction des outils de découverte ou des résolveurs de lien commerciaux. Sur ce marché, où les clients sont les bibliothèques, la concurrence doit se faire sur les services et les fonctionnalités, et pas sur les données. Ces données doivent être libres et réutilisables, intégrées au web de données. Avec le hub, l’Abes réaffirme sa volonté de contribuer à cet effort international de libération des métadonnées bibliographiques et associées (bases de connaissance pour la gestion de la documentation électronique).
L’étude
L’Abes a jugé raisonnable de ne pas se lancer dans un projet aussi ambitieux que le hub sans évaluer concrètement sa faisabilité et son positionnement précis à travers une étude. Celle-ci avait pour objectif de construire un prototype de traitement d’un certain nombre de corpus de métadonnées, qui permette de :
- Agréger ces données
- Evaluer leur qualité et leur complétude
- Les corriger – automatiquement, autant que possible
- Les enrichir (normaliser, compléter, lier, etc.)
- Les rendre accessibles, interrogeables et réutilisables par des tiers
Au terme de cette étude, il s’agissait d’y voir plus clair sur les traitements précis qui peuvent apporter une réelle plus-value aux données de départ et sur les solutions techniques qui rendent viables ces traitements automatiques de masse. Les corpus étudiés étaient les suivants :
- Springer revues et articles (licence nationale)
- Springer ebooks (licence nationale)
- Thèses avant 1985 (Sudoc) (ce qui montre que le hub peut aussi s’intéresser à la documentation imprimée)
- Ebooks Dalloz (documentation électronique sous abonnement)
- Revues.org (open access)
L’étude s’est déroulée entre septembre 2012 et avril 2013.
Le rapport final est structuré ainsi :
- une brève introduction qui reprend les éléments évoqués ci-dessus ;
- un chapitre qui présente les principes méthodologiques et techniques qui ont guidé la conception et le développement du prototype, selon l’esprit et la lettre du web sémantique ;
- un chapitre central qui, pour chaque corpus de métadonnées étudié, présente les données de départ, les problèmes spécifiques qu’il pose et les traitements effectués ou envisagés ;
- un chapitre qui met l’accent sur treize enseignements généraux qu’on peut tirer de l’analyse des cinq corpus ;
- un chapitre final qui liste et motive douze recommandations opérationnelles.
Après l’étude, l’action
Toutes les recommandations de l’étude ont été approuvées par le comité de direction de l’Abes et présentées au Conseil d’administration de printemps. Dès septembre 2013, une équipe projet sera prête. Elle devra à la fois transformer progressivement le prototype en outil de production et commencer à traiter certaines données.
En effet, il a été décidé de traiter en priorité les métadonnées des documents acquis dans le cadre du programme ISTEX. Or, les négociations sont en cours et de premiers échantillons ont été livrés. Dans un premier temps, il s’agira surtout de vérifier, préciser et corriger les listes de documents négociés puis livrés. Il s’agira ensuite de communiquer ces listes aux outils qui s’appuient sur elles : bases de connaissance, exemplarisation automatique dans le Sudoc, etc. Plus tard, il s’agira d’enrichir ces métadonnées, notamment en essayant de les lier à divers référentiels (IdRef, VIAF, RAMEAU, Dewey, etc.). Enfin, il faudra multiplier encore les canaux de sortie pour faciliter la récupération des métadonnées par les professionnels et leur exposition sur le web – et notamment le web de données.
Le travail du hub sur les données du projet ISTEX (2012-2014) aura certainement des retombées concrètes sur le traitement des métadonnées de la documentation électronique courante. En effet, pourquoi ce qui vaut pour les ebooks qu’un éditeur vend sous forme d’archives ne vaudrait-il pas pour les ebooks plus récents qu’il propose sous la forme d’un abonnement ?
Le hub, la base de connaissance nationale et le SGBm
Le hub fait partie de la stratégie relative au signalement de la documentation électronique recommandée par un récent rapport commandé par l’Abes au cabinet Pleiade. Il sera une des sources de métadonnées de la future base de connaissance nationale. Il faut garder à l’esprit que ni le hub ni la base de connaissance nationale ne sauront couvrir tout le périmètre documentaire. Il s’agit donc de faire des choix, de fixer collectivement les niveaux et les objectifs de qualité prioritaires. Dans un cas comme dans l’autre, la stratégie de l’Abes et de ses réseaux est d’ajouter une pierre à un édifice qui sera international et coopératif.
Le hub et le SGBm sont les deux faces d’une même politique : le SGBm vise à fluidifier les circuits et moderniser les interfaces de travail, au sein d’un système hébergé ; le hub vise à améliorer les données, en qualité et en quantité, dans l’environnement ouvert du web. Tout en migrant vers un système dans les nuages, il faut veiller à conserver et même renforcer notre maîtrise collective sur les données – et pas seulement celles du Sudoc, de theses.fr et de Calames. C’est en cela que le hub et le SGBm sont complémentaires.