Avec près de 150 millions de documents issus de plus de 7 000 sources, BASE–Bielefeld Academic Search Engine est l’un des plus gros moteurs de recherche mondiaux spécialisés dans le signalement des ressources académiques.
Fin 2018, l’Abes a pris contact avec l’équipe de l’Université de Bielefeld afin que son moteur de recherche moissonne l’entrepôt OAI-PMH de STAR. Après plusieurs échanges et séances de nettoyage de l’entrepôt, le dispositif est aujourd’hui opérationnel : les données de thèses de doctorat françaises sont désormais accessibles via BASE et bénéficient ainsi d’une visibilité renforcée au niveau international.
La collection STAR référencée à partir de BASE est composée pour l’instant de quelque 52 000 thèses, ce qui représente un peu plus de la moitié des thèses archivées via STAR. Les collaborations se poursuivent – ainsi que le « nettoyage » de l’entrepôt des données de thèses – afin que soit référencée l’ensemble des thèses archivées dans STAR – soit 95 000 thèses.
Toujours dans l’objectif d’accroître la visibilité des thèses françaises à l’international, des échanges ont également été initiés avec OpenAire, portail des ressources académiques européennes disponibles en libre accès.
Rappelons que les références des thèses françaises sont accessibles depuis 2012 à partir de DART-Europe, le portail européen des thèses électroniques en libre accès (566 universités, 28 pays). Celui-ci permet de rechercher parmi les différents portails de thèses électroniques mis en place dans plusieurs pays d’Europe, y compris, bien entendu, les portails français TEL et theses.fr.
Les thèses françaises font également partie des quelques 6 millions de références de la bibliothèque numérique de NDLTD, organisation d’envergure internationale dédiée à la promotion et à la diffusion des thèses et mémoires électroniques.
Enfin, elles sont visibles à partir d’OATD, qui indexe les métadonnées de plus de 5 millions de thèses soutenues au sein de plus de 1 100 établissements dans le monde.
- consulter la collection STAR à partir de BASE :
https://www.base-search.net/Search/Results?q=dccoll%3Aftstarfr&refid=dclink
le sujet de la visibilité de theses.fr est un vrai sujet comme l’ont dit, mais le moissonnage de STAR par BASE ne fait-il pas doublon en grande partie avec le moissonnage de HAL et autre entrepôts d’établissements par BASE ? dans quelle proportion ? La première thèse listée par la collection fournit d’ailleurs un exemple d’une thèse pour laquelle ce versement ne fait qu’ajouter une 4e notice dans BASE pour a priori le même document… https://www.base-search.net/Search/Results?lookfor=aut:%27Blanchon+Le+Bouhelec-Tribouillois%2C+%C3%89milie%27&refid=dcrecfr (pour une these pour laquelle these.fr ne propose d’ailleurs pas le lien au texte intégral)
Bonjour,
Le but de nos échanges avec BASE n’était pas que theses.fr soit visible, mais que les thèses de doctorat françaises le soient.
Le moissonnage de TEL et des entrepôts des établissements ne suffit pas à ce que toutes les thèses de doctorat françaises disponibles au format électronique soient référencées dans BASE :
-> les entrepôts des établissements sont bien sûr incomplets car ils ne présentent la collection que d’un seul établissement. Tous les établissements ne voient pas leur entrepôt OAI-PMH moissonné par BASE (en fait, très peu le sont) et tous les établissements ne disposent pas d’une plateforme de diffusion (certains ne diffusent que sur theses.fr).
-> TEL est incomplet car la diffusion des thèses sur TEL n’est pas obligatoire : actuellement, seules 50% des thèses de doctorat qui transitent par STAR sont diffusées sur TEL (les établissements choisissent de diffuser sur leur propre plate-forme, ou directement sur theses.fr). A noter également que TEL n’est pas toujours fiable car les dépôts sont effectués par les auteurs. Certaines thèses présentent dans TEL ne sont pas des thèses de doctorat, et certains documents ne sont pas des thèses du tout. La modération dans TEL n’a pas été mise en place dès le départ, d’où des dépôts contestables.
MAIS le seul moissonnage de STAR non plus ne suffit pas à référencer l’ensemble des thèses de doctorat françaises disponibles au format électronique :
-> l’entrepôt OAI-PMH de STAR contient les références des seules thèses nativement électroniques (dépôt légal électronique obligatoire pour toutes les thèses de doctorat depuis 2016, au choix des établissements entre 2006 et 2016) : presque 100 000 références.
-> l’entrepôt OAI-PMH de STAR ne contient pas les références des thèses nativement imprimées, signalées via le Sudoc et WinIBW, qui ont fait l’objet, en parallèle du dépôt légal papier, d’une reproduction électronique déposée sur TEL ou ailleurs. Les reproductions électroniques ne sont pas signalées via STAR et sont donc absentes de l’entrepôt.
Il n’existe donc pas, à l’heure actuelle, en France, de réservoir OAI-PMH exhaustif permettant de récupérer l’ensemble des références de thèses de doctorat électroniques. La problème a été évoqué avec OpenAire, qui avait initialement choisi de ne pas moissonner STAR pour éviter les doublons avec TEL, mais qui a compris que TEL n’était pas du tout exhaustif. La solution sera apportée le jour où le Sudoc disposera d’un entrepôt OAI-PMH. Celui-ci contiendra alors les références : des thèses de STAR nativement électroniques, et des thèses imprimées ayant fait l’objet d’une reproduction électronique (à la seule condition que cette reproduction soient signalée dans le Sudoc, mais nous y travaillons chaque année pour les thèses diffusées sur TEL hors du circuit STAR).
Aujourd’hui, pour que toutes les thèses de doctorat françaises soient visibles, il faut que BASE moissonne plusieurs entrepôts, d’où des notices en doublon (mais mieux vaut des doublons que des thèses absentes). Charge à BASE de mettre en place un algorithme pour dédoublonner les notices en ce basant sur le titre et l’auteur.
Bien cordialement,