Talk Connaître et découvrir l’activité scientifique de l’IRD (projet Explore)

Presented by admin in Session Posters on 2025/11/27 from 14:42 to 14:44
Abstract

La stratégie numérique de l’IRD en 2023 révélait deux grands axes :

• la valorisation des données et des activités scientifiques,
• l’amplification de la transparence des activités institutionnelles.

Avec des données dispersées dans différents systèmes d’information et souvent en silot, il est
difficile d’avoir une vue d’ensemble des activités et des compétences au sein de l’institut.
C’est dans ce contexte que la Mission Science Ouverte et la Direction Informatique (DDUNI) de
l’IRD ont répondu à un appel à projet France Relance en 2021 pour « Connaître et décrire l’activité
scientifique de l’IRD en reliant ses productions ».

Dans le cadre d’une prestation UGAP, nous avons fait appel à trois prestataires pour créer un graphe
sémantique consultable via un portail web et dont les données peuvent être mise à jour à la
demande.

Dans une première étape, nous avons identifiés trois cas d’usage auprès d’un panel utilisateur :

• En tant que gestionnaire de données, j’ai besoin de connaître les productions à l’IRD pour
faire une revue de littérature.
• En tant que responsable de structure, j’ai besoin de connaître les compétences à l’IRD pour
répondre aux enquêtes de bailleurs.
• En tant que producteur de données, j’ai besoin d’identifier les collaborations pour présenter
des références pour un appel d’offre.

À partir de ces cas d’usage, nous avons identifié les sources de données à connecter puis un modèle
de données s’articulant autour de quatre entitées: ird-contrat, ird-person, ird-activite et ird-documents.

Côté architecture, le graphe est relié aux sources de données par des connecteurs. Les données sont
ensuite tranformées et mises sous la forme de triplets conformément au modèle. Une série de
requêtes SPARQL analyse ensuite le contenu du graphe. Les données pivots telles que le matricule
des scientifique permet l’apairage des concepts connexes. Une analyse basé sur du machine learning
est également menée pour établir des connexions plus complexes, telles que le rapprochement de
noms de contrats et de noms de projets. Une fois le graphe consolidé, le données sont indexées dans
un moteur de recherche (ElasticSearch) qui sert d’interface entre le graphe et le portail web. Les
données du graphes sont consultables via une API GraphQL et l’ensemble des étapes précitées est
orchestré par l’outil AirFlow. L’application est constitué de briques modulaires containerisées.

Le lien suivant vous offre une démonstration de l’application : https://filesender.renater.fr/?
s=download&token=b1a0eecb-6a12-42fe-9eb3-007ff5599270

Auteur: Daniel Salas (docteur en informatique, spécialisé dans le calcul scientifique) Je travaille depuis
deux ans au sein de la Mission Science Ouverte de l'IRD. Je suis en charge de la maintenance des
référentiels scientifiques, de leur mise en qualité et de leur intégration au SI de l'IRD. Je suis
également formateur et j'anime des sessions d'aide à la rédaction des plans de gestion de données.

tagged by
no related entity