Quand ScanR et IdRef s’associent pour identifier les acteurs de la recherche et de l’innovation

ScanR,  moteur de la Recherche et de l’Innovation, outil désormais bien connu dans la sphère de l’ESR, propose à la réutilisation de nombreux jeux de données sous licence ouverte. Ces données, également accessibles via la plateforme OpenData du MESRI, sont synchronisées avec data.gouv.fr, plateforme des données publiques françaises mis à disposition par la mission Etalab.

Continuer la lecture

Projet FNE : appel d’offres

À l’heure du web de données, les référentiels constituent un enjeu stratégique de visibilité et d’appropriation des données d’autorités.

Le projet porté par l’Abes et le département Métadonnées de la BnF pour la construction commune d’un Fichier national d’entités (FNE)  s’inscrit dans cette dynamique et marque une étape d’envergure dans la synchronisation des données gérées par les agences et leurs réseaux.

Continuer la lecture

Chantier Autorités : fin d’une première chasse aux doublons

indexInitié début juillet pour une période de 3 mois, le chantier Autorités  « Détection des doublons lourds » a permis de traiter collectivement près de 1 400 paires de notices. Il s’agissait de statuer sur des notices « Autorité Personne Physique », qualifiées de candidats doublons « lourds » du fait qu’elles comportaient des mentions de noms, prénoms et dates biographiques identiques.

Continuer la lecture

Rencontre ORCID-ABES autour d’IdRef !

L’ABES a eu le plaisir d’accueillir une délégation de l’équipe d’ORCID, à Montpellier mercredi 26 août 2015 : Laure Haak directrice exécutive et Josh Brown directeur régional pour l’Europe. ORCID est une entreprise à but non lucratif de soutien à la recherche, engagée dans la création d’un registre international d’identifiants de chercheurs.

logo_orcidAu programme de cette rencontre : apprendre à mieux se connaître en établissant les positionnements respectifs de chacun ; puis explorer les axes de convergence ; enfin s’accorder sur des actions communes pour marquer le début d’une coopération.

logoABES-150-249Le matin, les présentations d’IdRef  d’un côté et d’ORCID  de l’autre, ont rempli leur objectif de compréhension mutuelle et ont permis de dresser le constat d’une complémentarité, plutôt que d’une redondance, des deux projets.

 

L’après-midi, une session à vocation technique a permis d’imaginer un scénario d’interopérabilité entre les deux bases IdRef / ORCID, et au-delà avec les bases bibliographiques de l’ABES (Sudoc, theses.fr & Calames) et avec les bases des utilisateurs d’IdRef (Persée, HAL, etc.).

Il s’en est dégagée la perspective d’une synergie capable à terme :

– d’offrir aux usagers d’ORCID la possibilité d’alimenter automatiquement leur compte avec des données riches et soignées émanant de nos bases ;

– de faire bénéficier nos bases de la notoriété grandissante d’ORCID dans la communauté des chercheurs français.

Enfin, il a été convenu de traduire prochainement cette émulation dans un Mémorandum Of Understanding destiné à informer largement de la coopération amorcée ce jour entre l’ABES et ORCID : coopération non limitée mais d’emblée ouverte aux acteurs nationaux qui manifestent de l’intérêt pour l’enjeu de l’identification des personnes dans le domaine de l’IST.

Continuer la lecture

Journée Correspondants Autorités : les présentations sont en ligne

Les présentations de  la  Journée des correspondants Autorités qui s’est tenue le 2 octobre dernier  sont en ligne sur la page dédiée sur le site web de l’ABES.

Cet événement inédit à l’échelle du réseau a rassemblé près de 150 personnes. La qualité des interventions et des orateurs a parachevé la réussite de la journée. L’ABES remercie chaleureusement les intervenants ainsi que tous les participants à cette journée.

Continuer la lecture

IdRef : un moteur de recherche plus performant

Unicode-BrailleDepuis quelques jours, le moteur de recherche et l’interface d’affichage des résultats d’IdRef ont développé leurs capacités en matière de multi-écriture (Unicode UTF8), ce qui permet à IdRef d’être en parfaite conformité avec le Sudoc.

En effet, le moteur de recherche accepte désormais les arguments de recherche en caractères non-latins, qu’il s’agisse de caractères arabes, cyrilliques ou d’idéogrammes (…), il est possible de saisir des arguments de recherche en écriture originale : شيال ; Толстой ;  ; … et d’obtenir des résultats pertinents en forme retenue ou en forme(s) rejetée(s).

A titre d’exemples : http://www.idref.fr/131594052 ou http://www.idref.fr/076303446

Les caractères du latin dit « étendu » sont eux aussi pris en charge par le moteur de recherche. Ainsi en va-t-il de « Szymańska » qui retourne maintenant des résultats. Ce jeu de caractères donne lieu à une petite astuce : afin d’obtenir tous les résultats susceptibles de correspondre à la recherche, il est recommandé de remplacer le caractère diacritique, ici « ń », par un « ? » (caractère de troncature pour remplacer un seul caractère). En effet, pour le latin étendu, il arrive souvent (lorsque les systèmes ne les géraient pas) que le diacritique n’ait pas été reporté.

Enfin, cela semble aller de soi mais ce ne fut pas si simple : l’interface d’affichage des résultats a été améliorée afin de permettre l’affichage de ces caractères et ainsi d’afficher les notices les plus pertinentes lors d’une telle recherche.

Continuer la lecture

Le projet Qualinca

Qualinca > LogoAvec Qualinca, l’ABES est engagée dans un projet de recherche d’envergure, par la durée, l’enjeu et les partenaires. Qualinca est un projet de recherche financé par l’Agence Nationale de la Recherche, sur la période 2012-2015 (36 mois).
La qualité des catalogues avant tout
Qualinca s’intéresse à la « qualité et [l’]interopérabilité de grands catalogues documentaires », comme le Sudoc ou le catalogue de l’Institut national de l’audiovisuel (INA), autre partenaire du projet. Selon le parti pris de Qualinca, la qualité des catalogues tient essentiellement à la qualité des liens : liens externes tels que les préconisent les principes du linked data,  mais d’abord liens internes, notamment entre notices bibliographiques et notices d’autorité. En ce sens, Qualinca est bien en cohérence avec les grandes orientations de l’ABES : ouverture des données, investissement dans les technologies du web sémantique, valorisation des référentiels autour d’IdRef. Par ailleurs, Qualinca prend la suite de SudocAD, projet de 12 mois en partie financé par le TGE ADONIS et mené de concert avec l’équipe GraphIK du LIRMM, leader de Qualinca.
Selon les termes mêmes du site web du projet, « les objectifs scientifiques du projet sont de :
1/développer un cadre logique pour qualifier la qualité d’une base de connaissances documentaires vis-à-vis de l’identification des entités individuelles et des liens entre entités individuelles.
2/proposer des principes/méthodes/outils pour passer d’un certain niveau de qualité à un meilleur niveau ».
 Les partenaires
Les partenaires scientifiques du projet sont le Laboratoire d’informatique, de robotique et de microélectronique de Montpellier (LIRMM), le Laboratoire d’informatique de Grenoble (LIG) et le Laboratoire de recherche en informatique d’Orsay (LRI) . Ce sont tous des experts en bases de données, représentation des connaissances et web sémantique.
Le rôle de l’ABES
Qualinca est bien un projet de recherche, mais la contribution de l’ABES ne se limitera pas à l’apport de données et d’une expertise métier : l’approche théorique sera testée à travers le développement de démonstrateurs (détection de liens erronés ; automatisation du liage aux autorités, voire de la création d’autorités). Ces démonstrateurs seront eux-mêmes évalués en comparant décisions automatiques et décisions humaines. Le moment venu, nous solliciterons la participation des catalogueurs du réseau Sudoc à ce protocole d’évaluation.
Plus d’information sur le site web de Qualinca.

Continuer la lecture

IdRef intégré à VIAF, réseau mondial des données d'autorité

Les 2 000 000 de notices du référentiel IdRef sont désormais intégrées à VIAF, pièce maîtresse dans le mouvement d’ouverture et d’interconnexion des données bibliographiques à l’échelle globale.
VIAF se définit comme un fichier d’autorités virtuel international. VIAF est virtuel au sens où il agrège des fichiers d’autorités préexistants, d’abord ceux des bibliothèques nationales, mais aussi ceux de grands catalogues collectifs, comme IdRef, base des autorités du catalogue Sudoc (mais aussi d’autres bases académiques françaises). Cela signifie que VIAF n’entend pas se substituer aux autres fichiers : ce sont ces derniers qui l’alimentent. Il faut ajouter que VIAF ne se contente pas de juxtaposer ces millions de notices d’autorité, il cherche à les interconnecter de manière entièrement automatique. Ainsi VIAF parvient-il à regrouper les différentes notices qui décrivent une même personne, par exemple l’historien Alain Boureau :
Alain Boureau dans VIAF
Jusqu’en 2011, VIAF n’était qu’un projet de recherche mené conjointement par OCLC et les bibliothèques nationales américaine, allemande et française. Depuis cette année, c’est un produit OCLC. Malgré ce changement de statut, VIAF reste un service ouvert et gratuit, qui doit jouer un rôle important dans la construction d’un espace global des données bibliographique qui soit à la disposition de tous.
En effet, non seulement l’interface Web et les web services techniques de VIAF demeurent-ils librement accessibles, mais les données brutes elles-mêmes peuvent être récupérées et réutilisées par tout le monde (plus de détails sur Punktokomo). C’est un acquis important car, sur le marché des services aux bibliothèques, la concurrence doit porter sur la qualité et le prix des prestations ou des logiciels, et non sur la propriété des données.
En termes techniques, cette mise en commun des données passe par la participation au web de données, ce qui est le cas de VIAF et d’IdRef. Les données RDF de VIAF pointent déjà vers les données RDF d’IdRef. D’ici quelque temps, l’inverse sera également vrai (plus de détails sur Punktokomo).
D’un point de vue pratique, l’intégration d’IdRef à VIAF contribuera à valoriser et faciliter le travail effectué par les catalogueurs des réseaux ABES :

  • Valoriser. Désormais, quand un catalogueur du Sudoc, de Calames ou de STAR créera ou enrichira une autorité IdRef/Sudoc, c’est aussi à l’échelle globale de VIAF que ces données seront visibles, interconnectées et réutilisables. Les catalogueurs étrangers pourront plus facilement trouver les notices produites par les réseaux ABES, soit pour s’y lier, soit pour les copier et créer de nouvelles notices dans leur propre environnement de travail.
  • Faciliter. VIAF constitue une source d’information et de vérification incontournable pour tout catalogueur des réseaux ABES qui veut créer une autorité ou qui se demande s’il a affaire à un doublon. Mais VIAF pourrait contribuer davantage encore à augmenter la qualité et diminuer le coût du catalogage (plus de détails sur Punktokomo).
Continuer la lecture

SudocAD : automatiser le lien à IdRef

SudocAD, un projet de recherche

En 2010 et 2011, l’ABES a mené un projet de recherche en collaboration avec des spécialistes en représentation de la connaissance (une branche de l’intelligence artificielle), l’équipe GraphIK du LIRMM, laboratoire situé à Montpellier. Le TGE ADONIS a financé une partie de ce projet, dans le cadre de son appel à projets 2009-2010

Mise en place d’un prototype

L’ambition de ce projet, baptisé SudocAD, était d’automatiser la génération des liens entre un corpus de métadonnées bibliographiques et le référentiel IdRef (autrement dit, les autorités Sudoc). L’objectif était de réaliser et évaluer un prototype de liage appliqué aux notices du portail Persée, une des sources agrégées par Isidore, le moteur de recherche porté par ADONIS.

Concrètement, le prototype consiste en une chaîne de traitement qui, en entrée, prend les notices d’articles Persée et, en sortie, cherche à proposer la bonne autorité correspondant à chaque auteur de l’article – quand elle existe. Pour ce faire, SudocAD adopte une approche sémantique, dans laquelle la « connaissance » possédée sur un auteur ne se réduit pas à sa notice d’autorité (noms, dates et langue d’expression … de la personne.), mais va puiser dans la série des notices bibliographiques liées à cet auteur dans le Sudoc (dates et langue de publication des documents, sujets des documents). Les conclusions de l’évaluation du prototype montrent que cette approche est prometteuse.
SudocAD, une approche  prometteuse
Loin d’être une expérimentation purement théorique, ce projet préfigure quelques uns des enjeux cruciaux pour l’ABES dans les prochaines années :

  • Valorisation d’IdRef comme un référentiel commun aux bases documentaires de l’enseignement supérieur et de la recherche
  • Automatisation croissante de certaines tâches liées au signalement
  • Appropriation et utilisation des technologies du web sémantique
  • Ouverture et interconnexion des données des réseaux ABES sur le web de données
  • Coopération active avec le CNRS, dans le cadre d’une politique nationale de l’IST
  • Partenariat scientifique avec le LIRMM, notamment sous la forme d’un nouveau projet, plus ambitieux, financé par l’ANR (plus d’informations dans un prochain billet).

Le rapport final du projet SudocAD est désormais en ligne (+ annexes).
Un résumé du rapport peut-être lu sur Punktokomo, le blog technique de l’ABES.

Continuer la lecture