Abstract
Retour d’expérience sur un cas concret : enrichissement d’une ontologie à
partir de l’analyse de publications scientifiques sur la résistance aux
antibiotiques.
Proxem est pionnier de l'analyse sémantique des données textuelles pour
l'entreprise. Sa technologie est fondée sur une technologie hybride d'extraction
d'informations et de gestion des connaissances grâce à l'IA, et d'outils
linguistiques d'analyse sémantique.
Dans le cadre d’un projet de mise en place d’un outil de veille scientifique
sur le sujet de la résistance aux antibiotiques, nous avons exploré comment, à
partir d’une ontologie dédiée à la recherche scientifique (dans le cas présent
CARD (The Comprehensive Antibiotic Resistance Database)), il était possible
d’exploiter les ressources de ladite ontologie à des fins d’analyse automatique,
et de proposer de nouvelles relations susceptibles d’enrichir l’ontologie de
départ.
En particulier, il s’agissait de proposer des relations « confer resistance »
entre des déterminants (ou mécanismes) de résistance, des antibiotiques et des
bactéries.
Les sujets abordés dans le cadre de ce projet sont :
* Récupération de l’ontologie source, compréhension de sa structure et
sélection des éléments transformables en « lexiques » pour l’analyse
automatique.
* Problèmes liés à la lexicalisation des éléments de l’ontologie (reconnaissance
des formes fléchies, des composés, identification des « unités lexicales ». Par
exemple structure « syntaxique » des déterminants de résistance.
* Problèmes de tokenisation associés Nous montrerons comment nous avons
extrait des lexiques d’antibiotiques, de bactéries et de déterminants de
résistance
* Problèmes liés à l’exploitation de connaissances non « lexicalisées » dans
l’ontologie : par exemple comment extraire le vocabulaire utilisé dans les définitions,
pouvant servir à identifier des mécanismes complexes de résistance.
* Les mécanismes de résistance sont complexes, mettant en jeu des mutations
génétiques, des membranes cellulaires, des enzymes : l’enjeu, dans un dialogue
avec des spécialistes du domaine, était d'une part de déterminer les éléments
« lexicaux » permettant de donner des indices de détection d’un mécanisme de
résistance exprimé dans un article scientifique et d'autre part d'identifier les
structures phraséologiques plus complexes, permettant d’augmenter le rappel.
* Association d’un score aux relations identifiées.
Nous présenterons les résultats
obtenus et les pistes d’améliorations envisagées.
#### Auteurs/Autrices
**Jocelyn Coulmance** - Directeur scientifique, en charge de la R&D chez Proxem,
diplômé de l’École Nationale Supérieure d'Informatique pour l'Industrie et
l'Entreprise.
**Cécile Potier** - Cheffe de projet infolinguiste chez Proxem, docteure en Linguistique théorique et formelle (Paris VII).