Abstract
Nous constituons un corpus de littérature numérique en ligne à partir du
répertoire de la BNF constitué de sites web et de blogs d’écrivains publiant des
œuvres originales. Aujourd’hui, la BNF a indexé et répertorié plus de 4000 sites
et blogsi. Ils sont décrits sous format MARC. Nous proposons à partir de ce
répertoire un corpus en ligne qui soit à la fois un outil d’observation et
d’analyse d’une production littéraire en cours et un corpus disponible pour
diverses analyses automatiques. La richesse lexicale, syntaxique et sémantique
mais également d’articulation entre les textes et d’autres formats (vidéos,
images fixes, dessins) constituent aussi l’intérêt de ce corpus. Enfin,
l’actualisation fréquente de ces sites et blogs permettent d’observer l’activité
de production d’une œuvre. Ce projet pose à la fois des questions relatives à
la constitution des corpus et à l’indexation fine des productions web. Le
problème initial associé aux corpus est la segmentation d’unités minimales
d’intervention d’auteur et la façon dont ces unités minimales sont insérées dans
la structure des pages donc du site (qui constituent des unités plus
larges). Ces entités sont indexées et représentées de façon à permettre une
navigation élaborée et des mises en commun d’entités hétérogènes par des
paramètres communs. Enfin, on ne dispose pas de langages contrôlés pertinents
pour caractériser les contenus des objets littéraires.
Nous élaborons un modèle ontologique : on considère un site ou un blog de
publication d’auteur comme un flux d’informationii et non uniquement comme un
document. On définit le flux (actualisation, hypermédia et canal d’information)
par des propriétés de domaine qui s’appliquent à des objets identifiés par des
concepts FRBRiii. Ces objets sont enfin annotés par des profils construits à
partir du DCiv. On réutilise des concepts élaborés dans le cadre de la BFO/IAOv
pour caractériser les propriétés associées au flux et donc à la dimension
informationnelle des objets. Cette ontologie s’applique sur les concepts de
groupe 1 de FRBR. Nous reformulons le modèle, notamment sa représentation OWL 2
dans FABIOvi. Les concepts que nous retenons (œuvre, expression, manifestation)
acceptent des profils DC qui représentent chacun des niveaux par des éléments
spécifiques et distincts. La structuration hiérarchique (descendante dans le
FRBR avec propriétés de flux et remontante dans le DC) permet d’inférer les
descriptions des autres niveaux à partir d’un niveau. Ces éléments DC sont
utilisés comme des outils d’annotation. Nous souhaitons donc présenter ce
modèle avant son application à grande échelle.
#### Auteurs/Autrices
**Christian Cote**, Maître de Conférences HDR en SIC, membre de
l’équipe MARGE, dans le cadre du projet LIFRANUM, financement
BOURGEON-Université Lyon3.