Archive for the ‘Web de données’ Category

h1

Encore des données libérées !!!

19 décembre 2013

etalabLe communiqué de presse de la BnF annonçant la mise à disposition de l’ensemble de ses (meta)données sous licence Etalab à partir du 1er janvier 2014 est une très bonne nouvelle, également pour l’ABES et ses réseaux. En effet, comme le souligne le communiqué de la BnF, « en simplifiant, facilitant et favorisant la diffusion et la valorisation des métadonnées de la BnF vers et par différents opérateurs et partenaires, cette mesure permet à la BnF de participer pleinement au mouvement de coopération et de mutualisation bibliographique, dans le cadre de projets nationaux et internationaux. Au niveau national, l‘interopérabilité juridique permettra notamment de favoriser les échanges avec les catalogues de bibliothèques de l’Enseignement supérieur et de la recherche, qui a adopté la même licence pour ses propres données.« 
Or, pour rappel, depuis le Conseil d’administration du 23 novembre 2012, l’ABES met à disposition sous licence ouverte Etalab l’ensemble des données de ses catalogues (Sudoc, Calames, IdRef, theses.fr). Une mise à disposition qui ne peut bien entendu  s’appliquer complètement et systématiquement du fait de la présence de nombreuses métadonnées en provenance de bases externes : sauf accord express de la part de leurs différents producteurs – un travail au long cours que l’Abes est en train de mener à bien pour une plus grande transparence – les données concernées ne peuvent être considérées comme « libres et ouvertes ».
Avec l’annonce de la mise à disposition des données de la BnF sous la même licence ouverte Etalab, ce sont  donc près de 2 millions de notices bibliographiques et environ 300 000 notices d’autorités – présentes dans le Sudoc et identifiées « en provenance de la BnF » –  qui sont libérées et pourront être réutilisées dans ce cadre légal simplifié.
Une bonne nouvelle, vraiment !

h1

Le hub de métadonnées : rapport final et plan d’action

15 juillet 2013

Entre septembre 2012 et avril 2013, l’ABES a mené une étude visant à préciser les priorités et les modalités d’un hub de métadonnées, annoncé dans le projet d’établissement 2012-2015. Cette étude a pris la forme d’un prototype et d’un rapport, qui est désormais en ligne sur le site de l’ABES (ainsi que son annexe sur les ebooks Springer). L’étude s’étant avérée concluante, le développement du hub de métadonnées commencera en septembre 2013.

Ce hub ne sera pas une nouvelle application, à côté du Sudoc, du SGBm ou de la future base de connaissance nationale pour la documentation électronique. Pour l’ABES, il s’agit avant tout de se doter de nouveaux outils et de nouvelles méthodes pour drainer davantage de données de qualité vers ces différentes applications – et vers le web de données.

Le nouveau projet d’établissement (2012-2015) introduit la notion et l’ambition d’un hub de métadonnées :

Dans le cadre du hub de métadonnées, l’ABES offrira le service suivant à tous les établissements: redistribution dans n’importe quel format des métadonnées enrichies récupérées dans n’importe quel format auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases.

Les enjeux

Le hub est une partie de la réponse aux enjeux suivants :

  • Le signalement de la documentation électronique ne peut suivre le même modèle que le catalogage partagé traditionnel : les masses et les flux de documents sont trop importants ; les éditeurs sont aujourd’hui capables de fournir des métadonnées, qu’il s’agit de réutiliser.
  • Les métadonnées fournies par les éditeurs sont souvent inexactes, pauvres et mal structurées. Loin de relever de l’art pour l’art, la qualité des métadonnées est un facteur décisif pour la recherche et l’identification des documents mais également pour garantir l’accès à ces documents, notamment via les résolveurs de lien.
  • Les catalogues de bibliothèque ne sont plus les outils privilégiés des lecteurs. Les métadonnées qui passent par l’ABES et ses réseaux doivent être redistribuées le plus largement possible, y compris en direction des outils de découverte ou des résolveurs de lien commerciaux. Sur ce marché, où les clients sont les bibliothèques, la concurrence doit se faire sur les services et les fonctionnalités, et pas sur les données. Ces données doivent être libres et réutilisables, intégrées au web de données. Avec le hub, l’ABES réaffirme sa volonté de contribuer à cet effort international de libération des métadonnées bibliographiques et associées (bases de connaissance pour la gestion de la documentation électronique).

L’étude

L’ABES a jugé raisonnable de ne pas se lancer dans un projet aussi ambitieux que le hub sans évaluer concrètement sa faisabilité et son positionnement précis à travers une étude.

Cette étude avait pour objectif de construire un prototype de traitement d’un certain nombre de corpus de métadonnées, qui permette de :

  • Agréger ces données
  • Evaluer leur qualité et leur complétude
  • Les corriger – automatiquement, autant que possible
  • Les enrichir (normaliser, compléter, lier, etc.)
  • Les rendre accessibles, interrogeables et réutilisables par des tiers

Au terme de cette étude, il s’agissait d’y voir plus clair sur les traitements précis qui peuvent apporter une réelle plus-value aux données de départ et sur les solutions techniques qui rendent viables ces traitements automatiques de masse. Les corpus étudiés étaient les suivants :

Hub2

  • Springer revues et articles (licence nationale)
  • Springer ebooks (licence nationale)
  • Thèses avant 1985 (Sudoc) (ce qui montre que le hub peut aussi s’intéresser à la documentation imprimée)
  • Ebooks Dalloz (documentation électronique sous abonnement)
  • Revues.org (open access)

L’étude s’est déroulée entre septembre 2012 et avril 2013.

Le rapport final est structuré ainsi :

  • une brève introduction qui reprend les éléments évoqués ci-dessus ;
  • un chapitre qui présente les principes méthodologiques et techniques qui ont guidé la conception et le développement du prototype, selon l’esprit et la lettre du web sémantique ;
  • un chapitre central qui, pour chaque corpus de métadonnées étudié, présente les données de départ, les problèmes spécifiques qu’il pose et les traitements effectués ou envisagés ;
  • un chapitre qui met l’accent sur treize enseignements généraux qu’on peut tirer de l’analyse des cinq corpus ;
  • un chapitre final qui liste et motive douze recommandations opérationnelles.

Après l’étude, l’action

Toutes les recommandations de l’étude ont été approuvées par le comité de direction de l’ABES et présentées au conseil d’administration de printemps. Dès septembre 2013, une équipe projet sera prête. Elle devra à la fois transformer progressivement le prototype en outil de production et commencer à traiter certaines données.

En effet, il a été décidé de traiter en priorité les métadonnées des documents acquis dans le cadre du programme ISTEX. Or, les négociations sont en cours et de premiers échantillons ont été livrés. Dans un premier temps, il s’agira surtout de vérifier, préciser et corriger les listes de documents négociés puis livrés. Il s’agira ensuite de communiquer ces listes aux outils qui s’appuient sur elles : bases de connaissance, exemplarisation automatique dans le Sudoc, etc. Plus tard, il s’agira d’enrichir ces métadonnées, notamment en essayant de les lier à divers référentiels (IdRef, VIAF, RAMEAU, Dewey, etc.). Enfin, il faudra multiplier encore les canaux de sortie pour faciliter la récupération des métadonnées par les professionnels et leur exposition sur le web – et notamment le web de données.

Le travail du hub sur les données du projet ISTEX (2012-2014) aura certainement des retombées concrètes sur le traitement des métadonnées de la documentation électronique courante. En effet, pourquoi ce qui vaut pour les ebooks qu’un éditeur vend sous forme d’archives ne vaudrait-il pas pour les ebooks plus récents qu’il propose sous la forme d’un abonnement ?

Le hub, la base de connaissance nationale et le SGBm

Le hub fait partie de la stratégie relative au signalement de la documentation électronique recommandée par un récent rapport commandé par l’ABES au cabinet Pleiade. Il sera une des sources de métadonnées de la future base de connaissance nationale. Il faut garder à l’esprit que ni le hub ni la base de connaissance nationale ne sauront couvrir tout le périmètre documentaire. Il s’agit donc de faire des choix, de fixer collectivement les niveaux et les objectifs de qualité prioritaires. Dans un cas comme dans l’autre, la stratégie de l’ABES et de ses réseaux est d’ajouter une pierre à un édifice qui sera international et coopératif.

Le hub et le SGBm sont les deux faces d’une même politique : le SGBm vise à fluidifier les circuits et moderniser les interfaces de travail, au sein d’un système hébergé ; le hub vise à améliorer les données, en qualité et en quantité, dans l’environnement ouvert du web. Tout en migrant vers un système dans les nuages, il faut veiller à conserver et même renforcer notre maîtrise collective sur les données – et pas seulement celles du Sudoc, de theses.fr et de Calames. C’est en cela que le hub et le SGBm sont complémentaires.

h1

Le projet Qualinca

10 octobre 2012

Qualinca > LogoAvec Qualinca, l’ABES est engagée dans un projet de recherche d’envergure, par la durée, l’enjeu et les partenaires. Qualinca est un projet de recherche financé par l’Agence Nationale de la Recherche, sur la période 2012-2015 (36 mois).

La qualité des catalogues avant tout

Qualinca s’intéresse à la « qualité et [l']interopérabilité de grands catalogues documentaires », comme le Sudoc ou le catalogue de l’Institut national de l’audiovisuel (INA), autre partenaire du projet. Selon le parti pris de Qualinca, la qualité des catalogues tient essentiellement à la qualité des liens : liens externes tels que les préconisent les principes du linked data,  mais d’abord liens internes, notamment entre notices bibliographiques et notices d’autorité. En ce sens, Qualinca est bien en cohérence avec les grandes orientations de l’ABES : ouverture des données, investissement dans les technologies du web sémantique, valorisation des référentiels autour d’IdRef. Par ailleurs, Qualinca prend la suite de SudocAD, projet de 12 mois en partie financé par le TGE ADONIS et mené de concert avec l’équipe GraphIK du LIRMM, leader de Qualinca.

Selon les termes mêmes du site web du projet, « les objectifs scientifiques du projet sont de :

1/développer un cadre logique pour qualifier la qualité d’une base de connaissances documentaires vis-à-vis de l’identification des entités individuelles et des liens entre entités individuelles.

2/proposer des principes/méthodes/outils pour passer d’un certain niveau de qualité à un meilleur niveau ».

 Les partenaires

Les partenaires scientifiques du projet sont le Laboratoire d’informatique, de robotique et de microélectronique de Montpellier (LIRMM), le Laboratoire d’informatique de Grenoble (LIG) et le Laboratoire de recherche en informatique d’Orsay (LRI) . Ce sont tous des experts en bases de données, représentation des connaissances et web sémantique.

Le rôle de l’ABES

Qualinca est bien un projet de recherche, mais la contribution de l’ABES ne se limitera pas à l’apport de données et d’une expertise métier : l’approche théorique sera testée à travers le développement de démonstrateurs (détection de liens erronés ; automatisation du liage aux autorités, voire de la création d’autorités). Ces démonstrateurs seront eux-mêmes évalués en comparant décisions automatiques et décisions humaines. Le moment venu, nous solliciterons la participation des catalogueurs du réseau Sudoc à ce protocole d’évaluation.

Plus d’information sur le site web de Qualinca.

h1

SudocAD : automatiser le lien à IdRef

2 février 2012

SudocAD, un projet de recherche

En 2010 et 2011, l’ABES a mené un projet de recherche en collaboration avec des spécialistes en représentation de la connaissance (une branche de l’intelligence artificielle), l’équipe GraphIK du LIRMM, laboratoire situé à Montpellier. Le TGE ADONIS a financé une partie de ce projet, dans le cadre de son appel à projets 2009-2010

Mise en place d’un prototype

L’ambition de ce projet, baptisé SudocAD, était d’automatiser la génération des liens entre un corpus de métadonnées bibliographiques et le référentiel IdRef (autrement dit, les autorités Sudoc). L’objectif était de réaliser et évaluer un prototype de liage appliqué aux notices du portail Persée, une des sources agrégées par Isidore, le moteur de recherche porté par ADONIS.

Concrètement, le prototype consiste en une chaîne de traitement qui, en entrée, prend les notices d’articles Persée et, en sortie, cherche à proposer la bonne autorité correspondant à chaque auteur de l’article – quand elle existe. Pour ce faire, SudocAD adopte une approche sémantique, dans laquelle la « connaissance » possédée sur un auteur ne se réduit pas à sa notice d’autorité (noms, dates et langue d’expression … de la personne.), mais va puiser dans la série des notices bibliographiques liées à cet auteur dans le Sudoc (dates et langue de publication des documents, sujets des documents). Les conclusions de l’évaluation du prototype montrent que cette approche est prometteuse.

SudocAD, une approche  prometteuse

Loin d’être une expérimentation purement théorique, ce projet préfigure quelques uns des enjeux cruciaux pour l’ABES dans les prochaines années :

  • Valorisation d’IdRef comme un référentiel commun aux bases documentaires de l’enseignement supérieur et de la recherche
  • Automatisation croissante de certaines tâches liées au signalement
  • Appropriation et utilisation des technologies du web sémantique
  • Ouverture et interconnexion des données des réseaux ABES sur le web de données
  • Coopération active avec le CNRS, dans le cadre d’une politique nationale de l’IST
  • Partenariat scientifique avec le LIRMM, notamment sous la forme d’un nouveau projet, plus ambitieux, financé par l’ANR (plus d’informations dans un prochain billet).

Le rapport final du projet SudocAD est désormais en ligne (+ annexes).

Un résumé du rapport peut-être lu sur Punktokomo, le blog technique de l’ABES.

h1

De nouveaux services pour IdRef

5 juillet 2011

IdRef, l’application ABES dédiée aux référentiels et ouverte à toutes les applications documentaires de l’enseignement supérieur et de la recherche, s’enrichit.

Afin de faciliter son intégration dans d’autres applications, IdRef propose les fonctionnalités suivantes :

* un Web service de recherche (en savoir plus)
* une méthode de communication entre l’interface Web d’IdRef et n’importe quel formulaire Web de recherche ou de saisie (en savoir plus)
* le micro Web Service Biblio pour obtenir la liste des références bibliographiques liées à une autorité Personne dans le Sudoc (en savoir plus)

Depuis octobre 2010, les données d’IdRef étaient exposées sur le Web de données, en RDF. Aujourd’hui, ces données sémantiques s’enrichissent elles aussi puisque, derrière cette URL correspondant à Dan Sperber, on trouve non seulement le contenu de sa notice d’autorité IdRef, mais également la liste de ses publications signalées dans le Sudoc. De quoi réutiliser plus facilement le travail collectif de signalement dans le Sudoc. En savoir plus

Ces annonces soulignent et concrétisent la volonté de l’ABES de faciliter la réutilisation des données qu’elle gère, dans une logique de données ouvertes et liées. La question de savoir sous quelle licence sont publiés ces données et ces services est en cours d’instruction.

L’exploitation de ces nouveaux services n’est soumis à aucun contrôle d’accès. En revanche, si votre institution souhaite enrichir IdRef en devenant un contributeur, producteur de nouvelles notices d’autorité, contactez-nous (Assistance ABES > Administration des logins).

Documentation technique : http://documentation.abes.fr/aideidref/developpeur/index.html

Contact : Assistance d’IdRef > Domaine Web Services

h1

Le Sudoc sur le Web de données

5 juillet 2011

Après Calames en 2008, les notices de thèses issues de STAR en 2010 et les données d’autorité d’IdRef en 2010 également, c’est au tour des 10 millions de notices bibliographiques du Sudoc de rejoindre le Web de données (ou Web sémantique).

Enrichir le Web de données et plaire aux moteurs de recherche

Dès aujourd’hui, chaque notice est exposée à la fois en RDF/XML et en HTML enrichi de métadonnées Microdata conformes à schema.org, le vocabulaire sémantique prôné récemment par les grands moteurs de recherche.

Ce faisant, l’ABES fait le choix de promouvoir les standards et les principes du Web sémantique (RDF, pluralisme des vocabulaires, URL comme identifiant global) tout en étant attentif aux nouvelles conditions et attentes créées par l’initiative concertée de Google, Bing et Yahoo.

Les choix de l’ABES sont guidés par les deux priorités suivantes : faciliter la réutilisation des données produites par les réseaux ABES et accroître la visibilité des documents possédés par les bibliothèques, à l’échelle du Web.

En savoir plus

Where, un micro Web Service Sudoc

Dans ce même esprit d’ouverture des données, l’ABES inaugure aujourd’hui deux micro Web Services, dont le service Where. Ce dernier est une solution technique très simple pour récupérer la liste des bibliothèques du réseau Sudoc qui possèdent un document donné.

h1

La journée annuelle Afnor – BnF

15 février 2011

« Référentiels et données d’autorité à l’heure du web sémantique » tel est le thème de la journée annuelle Afnor – BnF qui aura lieu, cette année, le vendredi 27 mai 2011.

Le rôle des référentiels et vocabulaires contrôlés est de plus en plus déterminant dans la gestion comme dans la découverte des ressources ou dans la création des réseaux sémantiques. Piliers de l’intelligence du Web Sémantique, ils sont exposés en Linked Data et utilisés comme pivots dans des projets et applications visant à faciliter la recherche et la mise en relation des ressources.

Il y a trois ans, la journée d’étude AFNOR CG46/BnF « Référentiels, données d’autorité, thésaurus, ontologies, taxonomies… Pour en savoir plus ! »  incitait déjà à réfléchir au rôle des référentiels dans l’interopérabilité des systèmes d’information et dans le web sémantique. Depuis, de nombreuses initiatives ont vu le jour, qui témoignent d’un environnement en perpétuelle évolution et qui offrent des perspectives enthousiasmantes.

Cette journée s’efforcera de porter un regard sur les travaux de normalisation, les réalisations et les usages se rapportant à ces systèmes d’organisation de connaissances et à l’ouverture des données.

Le programme détaillé sera annoncé au moment de l’ouverture des inscriptions.

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 73 autres abonnés