Abstract
Le projet datapoc vise à *construire un « référentiel personnes »
commun à l’ensemble des services du MNHN afin de consolider les bases de
données existantes et de permettre aux chercheurs de croiser, lier et
exploiter des données qu’il leur est difficile d’apparier compte-tenu de
la dispersion des applications.
En se focalisant sur un petit nombre de personne, le projet a permis en l'espace
de quelques mois de démontrer la richesse des gisements de données, de préparer
le passage à l’échelle et de commencer à ouvrir les données.
Dans cette présentation, nous souhaiterions partager notre expérience et les
difficultés rencontrées, en particulier concernant les choix de modélisation
liés à la complexité du domaine et à la multiplicité et la diversité des sources
que nous souhaitions intégrer.
Nous avons recueilli des données accessibles selon des modalités diverses :
imports de fichiers, moissonnage d'entrepôts OAI, requêtes sparql, conversion de
fichiers unimarc...
Nous avons associé des personnes (les naturalistes) à des "objets" divers
(spécimens, taxons) à partir de la description de ces objets ce qui a été rendu
compliqué par l'utilisations courante d'abbréviations et le grand nombre
d'homonymes.
Nous avons fait le choix d'un modèle dynamique, de type Cidoc CRM, au sein
duquel les personnes sont alignées sur des Activités.
Nous avons aligné les personnes sur un nombre important d'identifiants (idref,
wikidata, orcid, zoobank, isni, bnf, bhl, ipni, viaf, harvard, etc).
Dans le but d'améliorer les données en continu par itérations successives,
datapoc permet aux utilisateurs qui consultent les fiches des personnes de faire
apparaître les paramètres et les résultats des calculs dont est issu un
alignement. Si nécessaire, les utilisateurs peuvent signaler les incohérences et
contribuer à l'amélioration de la qualité des données.
Les traitement et les algorithmes qui effectuent les alignements ont ainsi pu
évoluer au fur et à mesure des semaines et nous permettre de mieux appréhender
les questions liées à un futur passage à l'échelle.
#### Auteurs/Autrices
**Chloé Besombes** est cheffe du projet Datapoc au sein du Muséum national d'histoire
naturelle de Paris.