Abstract
Les annuaires professionnels anciens, édités à un rythme soutenu dans de nombreuses villes européennes tout au long des XIXe et XXe siècles, forment un corpus de sources unique par son volume et la possibilité qu'ils donnent de suivre les transformations urbaines à travers le prisme des activités professionnelles de ses habitants, de l'échelle individuelle jusqu'à celle de la ville entière.
L'analyse spatio-temporelle d'un type de commerces au travers des entrées d'annuaires demande cependant un travail considérable de recensement, de transcription et de recoupement manuels. Pour pallier cette difficulté, cette présentation propose une approche automatique pour construire et visualiser un graphe de connaissances géohistorique des commerces figurant dans des annuaires anciens.
Les entrées des annuaires sont préalablement identifiées dans les scans des pages d’annuaires et OCRisées à l’aide de méthodes et d’outils de l’état de l’art. Leurs différents éléments constitutifs sont identifiés à l'aide d'une approche de reconnaissance d'entités nommées à base de réseau de neurones profond. Nous avons entraîné un modèle de langue CamemBERT de sorte à lui permettre de mieux gérer le bruit liés à l’étape d’OCR dans le texte des annuaires. Les adresses ainsi reconnues dans les entrées sont ensuite associées à des coordonnées géographiques à l’aide d’un outil de géocodage historique qui recherche pour chaque adresse extraite, l’adresse la plus similaire au sein d’une base d’adresses anciennes et dont le temps valide associé est le plus proche possible de la date de publication de l’annuaire dont l’adresse requête est extraite. Le liage des entrées similaires entre annuaires constitue l'étape principale de création de notre graphe de connaissances géohistorique, car elle permet de dégager les logiques individuelles d'évolution des commerces (déménagements, transmissions, reprises, etc.). Pour surmonter les difficultés posées par le bruit OCR, nous proposons d'utiliser deux approches de liage : une approche logique, à base de raisonnement sur des clés et une approche numérique qui compare les valeurs des propriétés des entrées afin de lier celles présentant les valeurs les plus similaires. Enfin, nous proposons un outil d'exploration spatio-temporelle du graphe créé. Celui-ci permet d’explorer les données à l’aide d’une interface cartographique et d’une frise temporelle : il permet ainsi de répondre à des questions de compétence complexes. L'approche est testée sur des annuaires du commerce parisien du XIXe siècle allant de 1800 à 1908, sur le cas des métiers de la photographie.
Liens utiles :
Article détaillé : https://hal.science/hal-04121643/
Point d’accès SPARQL : https://dir.geohistoricaldata.org/
Interface de visualisation spatio-temporelle :
https://soduco.github.io/ic_2023_photographes_parisiens/
Scripts pour la mise en œuvre de la chaîne de traitement :