Talk Grafhydro : la connexion sémantique au service de la gestion des connaissances en ingénierie hydraulique

Presented by admin in Session 2 on 2025/11/27 from 11:45 to 12:00
Abstract

Le Centre d’Ingénierie Hydraulique (CIH) d’EDF Hydro a lancé en novembre 2023 une démarche afin de mieux tirer parti du numérique. Une meilleure interconnexion des données utilisées est un sujet majeur. Pour cela, nous avons lancé, début 2024, le projet « Grafhydro » qui vise à connecter sémantiquement les données utiles à l’ingénierie hydraulique. Cette communication a pour objectif de présenter notre démarche, les résultats obtenus et les défis actuels.

En partant de zéro, nous avons itéré pour aboutir à l’architecture technique jointe, structurée en quatre grandes étapes. La première consiste à définir les ontologies et les conventions de nommage des URI. Nous avons également travaillé à l’intégration des modélisations spécifiées dans les Data Transfer Objects (DTO) de notre datalake existant, et aussi notre glossaire interne qui s’appuie sur Apache ATLAS. Cette modélisation est accessible à la fois via Git et dans notre base graphe.

La deuxième étape consiste à mettre en œuvre l’ontologie à partir de nos sources de données, et de procéder à des alignements entre sources de données. À ce jour, environ 70 sources différentes ont été modélisées, générant près de 35 millions de triplets. Ces triplets sont stockés au format RDF, de manière versionnée, en utilisant un stockage de type S3, Git et Python/DVC.

En troisième étape, nous générons le graphe et le rendons accessible. Pour notre premier prototype, nous avons utilisé le framework open source CubicWeb. En 2025, nous avons testé la migration sous GraphDB, ce qui nous a permis de constater l’intérêt du format pivot RDF.

Enfin, la quatrième étape est de rendre accessible les informations. Pour cela, nous nous appuyons sur deux services. Le premier est une vue encyclopédique (cf. pièce jointe), ce qui permet de voir la définition et les connexions des instances et ontologies manipulées. Le second est une IHM de visualisation métier des données sous forme de tableaux ou de cartes (cf. pièce jointe).

Nous pourrons partager sur les défis relevés et en cours. Aujourd’hui, notre premier défi est une acceptation partagée en interne de ce type d’approche et de service afin de passer à l’échelle de l’industrialisation. Notre deuxième défi est une IHM à la fois souple et intuitive pour les utilisateurs ne connaissant pas la modélisation sous-jacente. Et enfin, le troisième défi est la mise en place de processus robustes de mise à jour du graphe.

Auteurs: - Yann REBOURS est en charge depuis novembre 2023 de l’accélération du numérique au Centre d’Ingénierie Hydraulique d’EDF Hydro - Nicolas CHAUVAT est PDG de la société Logilab, spécialisée en Web Sémantique - Sébastien FREAL-SAISON est pilote opérationnel SI au Centre d’Ingénierie Hydraulique d’EDF Hydro

tagged by
no related entity