Abstract
Le framework open source Synaptix propose une méthodologie et un ensemble d’outils dédiés à la génération et l’exploitation industrielle de knowledge graphs (KG) RDF. Ce framework, fruit de plusieurs années de développement de plates-formes, a été notamment au coeur du dictionnaire contributif dictionnairedesfrancophones.fr lancé en 2020, et vient récemment d’être appliquée au projet Archipel porté par l’Institut national de recherches archéologiques préventives, l'INRAP.
Archipel est un projet visant la création d’une plateforme globale des données scientifiques de l’archéologie produites par l’INRAP. Elle offre un unique point d’accès aux productions publiques des agents de l’Inrap: rapport d’opérations de diagnostic ou de fouilles, projets, et articles scientifiques. Le site https://archipel.inrap.fr/ est ouvert au public depuis début 2025, et l’API et le backend qu’il utilise ont été développés par :probabl et s’appuie sur le framework Synaptix.
L’approche Synaptix peut être assimilée à une méthode d’urbanisation de systèmes d’informations, dont le projet Archipel est un exemple concret. Par urbanisation il faut comprendre ici les moyens mis en œuvre pour décloisonner les silos de données des organisations, et permettre un accès direct et simplifié à un ensemble d’informations auparavant disséminées dans diverses bases de données. L’approche Synaptix pose que les Knowledge Graphs RDF sont un excellent moyen pour atteindre ces objectifs, et propose dans le même temps des solutions facilitant à la fois la génération et l’exploitation des ces KGs, souvent perçus comme des solutions complexes et coûteuses à industrialiser.
L’approche de l’urbanisation décrite ici peut se décomposer en quelques étapes pour lesquelles l’approche Synaptix propose des solutions à la fois innovantes et ayant passées avec succès l’épreuve de l’industrialisation:
1. Ingestion et structuration des données grâce à un modèle pivot RDFS/OWL, permettant d’exprimer en un seul schéma les multiples relations entre les concepts portés par les données;
2. Génération d’un graphe RDF rassemblant les données sources mappés sur le modèle pivot, et exploitant des technologies de mapping génériques (RML.io) ou ad’hoc;
3. Analyse et enrichissement du graphe via des approches à bases de règles (inférence, SPARQL) ou de machine learning
4. Exposition du graphe via des interfaces complémentaires au endpoint SPARQL : un index de moteur de recherche permettant un accès très performant, et une API GraphQL plus adaptée au développement web.
L’ensemble de ces étapes est piloté par un orchestrateur de tâches open source (Airflow) permettant à la fois l’automatisation complète et le monitoring de ce processus.
Intervenant:
Freddy Limpens , Senior Knowledge Graph Engineer chez :probabl.ai depuis 2024. Titulaire d’une thèse de doctorat dirigée par Fabien Gandon et Michel Buffa sur les approches multi-points de vues dans l’enrichissement d’ontologies, il dispose de 15 d’expérience en tant qu’ingénieur R&D sur le développement d’applications de partage de connaissances. De 2019 à 2024 il a œuvré comme expert sémantique et chef de projet chez Mnemotix pour le compte de clients variés (Ministère de la Culture, MNHN, Département de Dordogne, etc.)