Cluster 7 – Text interoperability and analysis

Coordination
Profile picture for user jean-baptiste.camps
Jean-Baptiste CAMPS
Docteur en études médiévales. Maître de conférences en philologie computationnelle
Profile picture for user laurence.mellerin
Laurence MELLERIN
Directrice-adjointe des Sources Chrétiennes. Coordinatrice du projet BIBLINDEX
Sébastien HAMEL
Ingénieur de recherche à la section lexicographie et sémantique

1/ Le protocole de partage de texte Distributed Texts Services (DTS)

Le projet Distributed Text Services (DTS) vise à proposer un protocole d'échange et de mise à disposition de textes et de leurs passages via des API spécifiques. DTS est aux textes ce que IIIF est aux images. Il est porté par le CJM et HiSoMA, en collaboration avec la MRSH de Caen.

Les spécifications de ce protocole sont aujourd'hui ouvertes aux contributions extérieures pour tenter d'assurer sa compatibilité avec le plus grand nombre de projets. Il est fondé sur le partage des textes en TEI, une architecture REST et un catalogue exprimé en JSON-LD.

L'élargissement des communautés concernées par cette API passe par des implémentations sur des outils variés et complets. Les environnements XQuery sont faiblement dotés, l'objectif est donc de venir compléter les outils existants. L'implémentation sur Exist-db avec l'outil TEIPublisher sera ainsi approfondie avec l’expertise d’HiSoMA. Le développement d’une implémentation nommée DoTS sur BaseX est également mené par le CJM. Les outils éditoriaux de la MRSH de Caen en bénéficieront aussi.

Le succès de l’API exige un effort massif en formation des utilisateurs, mais aussi en développement de suites logicielles clients et serveurs (CapiTainS, TEIPublisher, etc.).

Les outils en cours de développement :

  • DoTS
  • DTS-TEIPublisher

2/ Lemmatisation et aide à la traduction des textes anciens

Dès avant la constitution du Cluster,

  • HiSoMA a entrepris d'enrichir les bases de lemmatiseurs existants avec ses travaux sur le latin et le grec patristique, en particulier depuis 2023  pour le repérage des noms propres bibliques (ANR Jerihna) ;
  • la base des textes français du Moyen Âge Jonas (IRHT) a souhaité lemmatiser les incipit et explicit pour contourner les aléas orthographiques de l’ancien français ;
  • un corpus lexical de 50 millions de mots de latin médiéval (période 800-1200), créé par l'IRHT avec le soutien de l’ANR Velum, a été lemmatisé et il a vocation à être doublé en élargissant l'espace étudié (textes ibériques ou italiens du VIIIe siècle ; germaniques ou slaves du XIIIe siècle) et rendre compte à la fois du latin mérovingien et du latin scolastique ;
  • les programmes Collatinus et Eulexis, outils d’aide à la traduction du latin et du grec, s'enrichissent régulièrement de nouveaux contenus et de nouvelles fonctionnalités : pour Collatinus, le latin médiéval (depuis 2019 : dictionnaires, variantes orthographiques) et les noms propres (en cours) ; pour Eulexis est envisagée une intégration du grec Koinè.

Fort de ces travaux en cours et projets, le Cluster 7 s’est donné comme objectif premier la constitution de bases lexicales communes dans data.biblissima, dont la structure modulable accueillera des langues multiples. Des expérimentations du module lexicographique de Wikibase sont en cours pour cela. Cette base nécessitera de faire des alignements de référentiels : par exemple, au CJM, entre le référentiel employé pour le modèle ancien français et celui employé pour le modèle existant des français préclassique et classique ; à HiSoMA, entre les référentiels de la Vulgate, de la Septante et de dictionnaires existants (Forcellini, Sleumer…).

Les sources des données de cette base lexicale seront des corpus de textes annotés, fournis conjointement par le Cluster 5b et le Cluster 7. Le CJM s'occupera d'un corpus couvrant la période manquante (XIVe-XVe siècles) au sein de ses modèles, et souhaite élargir l’empan chronologique du modèle ancien français afin de permettre l’annotation de corpus en diachronie longue (XIIe-XVIIe siècles). À HiSoMA, le travail portera sur des textes bibliques et patristiques en latin et grec : dans un premier temps, les noms propres des Bibles et leurs reprises dans les œuvres de Philon d’Alexandrie, Origène, Eusèbe de Césarée et Jérôme seront analysés et intégrés dans data.biblissima.

L’utilisation de la base lexicale permettra d’améliorer le fonctionnement d’outils existants, comme le lemmatiseur (Pie-extended) utilisé par le CJM et l’application de post-correction Pyrrha pour le grec, le latin classique, l’ancien français.

Les outils :

3/ Textométrie, stylométrie et alignement

Le CJM veut créer un Centre de ressources computationnelles pour les langues à variation graphique qui se concentrera sur :

  • la question de l'annotation linguistique (voir supra) ;
  • les traitements qu'elle permet pour répondre aux questions de datation, localisation ;
  • l'alignement de différentes versions et collation ;
  • la détection des entités nommées.

L’enjeu est le traitement automatique des langues historiques à forte variation graphique et la mise à disposition d'outils (interfaces web, API, algorithmes) et de modèles (essentiellement pour les langues gallo-romanes et le latin). À terme, des services dialectométriques (un système de cartes de chaleur) et stylométriques sont envisagés.

Pour la stylométrie, on souhaite disposer de fonctionnalités pour faire automatiquement des rapprochements entre textes en fonction du style ou du contenu, voire de détection des paraphrases, en particulier d’une langue à l’autre.

Le projet Biblindex d'HISoMa a vocation à développer les outils de recherche d'intertextualité reposant sur de la lemmatisation et de la textométrie, en les rendant le plus générique possible pour une application à la recherche de tout phénomène citationnel dans les textes anciens.

À la croisée de l’édition, de la lemmatisation et de l’exploitation computationnelle des données textuelles, le CJM et le CIHAM proposent la création d’un outil capable de reproduire de façon automatisée le processus complet d'établissement du texte, du niveau macroscopique (alignement par paragraphe ou autre structure textuelle) au niveau microscopique (alignement mot à mot puis établissement d'un apparat typé proposant une analyse de la proximité des variantes).

Un traitement automatique pourra ainsi permettre la classification des variantes graphiques, grammaticales ou sémantiques, voire un classement plus fin s'appuyant sur des représentations sémantiques en fonction du contexte.

Du point de vue ecdotique seront générées des reconstitutions critiques d’archétypes et la visualisation de rapports entre témoins du texte. L’apport de Biblissima+ permettrait d'améliorer le code, de créer et de mettre en production une application web.

Les outils :