Cluster 7 – Interopérabilité et analyse des textes

Poster présenté lors des journées annuelles Biblissima+ le 28 mai 2024 à l'Humathèque Condorcet (Campus Condorcet, Aubervilliers).
Ing, L., Leflaëc, A., Mellerin, L., Gille Levenson, M., & Hamel, S. (2024). Cluster 7 Biblissima+ projets en cours.
Disponible sur Zenodo : https://doi.org/10.5281/zenodo.14101805
Licence : Creative Commons Attribution 4.0

1/ Le protocole de partage de texte Distributed Texts Services (DTS)

Le projet Distributed Text Services (DTS) vise à proposer un protocole d'échange et de mise à disposition de textes et de leurs passages via des API spécifiques. DTS est aux textes ce que IIIF est aux images. Il est porté par le CJM et HiSoMA, en collaboration avec la MRSH de Caen.

Les spécifications de ce protocole sont aujourd'hui ouvertes aux contributions extérieures pour tenter d'assurer sa compatibilité avec le plus grand nombre de projets. Il est fondé sur le partage des textes en TEI, une architecture REST et un catalogue exprimé en JSON-LD.

L'élargissement des communautés concernées par cette API passe par des implémentations sur des outils variés et complets. Les environnements XQuery sont faiblement dotés, l'objectif est donc de venir compléter les outils existants. L'implémentation sur Exist-db avec l'outil TEIPublisher sera ainsi approfondie avec l’expertise d’HiSoMA. Le développement d’une implémentation nommée DoTS sur BaseX est également mené par le CJM. Les outils éditoriaux de la MRSH de Caen en bénéficieront aussi.

Le succès de l’API exige un effort massif en formation des utilisateurs, mais aussi en développement de suites logicielles clients et serveurs (CapiTainS, TEIPublisher, etc.).

Les outils en cours de développement :

DoTS
DTS-TEIPublisher

2/ Lemmatisation et aide à la traduction des textes anciens

Dès avant la constitution du Cluster,

HiSoMA a entrepris d'enrichir les bases de lemmatiseurs existants avec ses travaux sur le latin et le grec patristique, en particulier depuis 2023 pour le repérage des noms propres bibliques (ANR Jerihna) ;
la base des textes français du Moyen Âge Jonas (IRHT) a souhaité lemmatiser les incipit et explicit pour contourner les aléas orthographiques de l’ancien français ;
un corpus lexical de 50 millions de mots de latin médiéval (période 800-1200), créé par l'IRHT avec le soutien de l’ANR Velum, a été lemmatisé et il a vocation à être doublé en élargissant l'espace étudié (textes ibériques ou italiens du VIIIe siècle ; germaniques ou slaves du XIIIe siècle) et rendre compte à la fois du latin mérovingien et du latin scolastique ;
les programmes Collatinus et Eulexis, outils d’aide à la traduction du latin et du grec, s'enrichissent régulièrement de nouveaux contenus et de nouvelles fonctionnalités : pour Collatinus, le latin médiéval (depuis 2019 : dictionnaires, variantes orthographiques) et les noms propres (en cours) ; pour Eulexis est envisagée une intégration du grec Koinè.

Fort de ces travaux en cours et projets, le Cluster 7 s’est donné comme objectif premier la constitution de bases lexicales communes dans data.biblissima, dont la structure modulable accueillera des langues multiples. Des expérimentations du module lexicographique de Wikibase sont en cours pour cela. Cette base nécessitera de faire des alignements de référentiels : par exemple, au CJM, entre le référentiel employé pour le modèle ancien français et celui employé pour le modèle existant des français préclassique et classique ; à HiSoMA, entre les référentiels de la Vulgate, de la Septante et de dictionnaires existants (Forcellini, Sleumer…).

Les sources des données de cette base lexicale seront des corpus de textes annotés, fournis conjointement par le Cluster 5b et le Cluster 7. Le CJM s'occupera d'un corpus couvrant la période manquante (XIVe-XVe siècles) au sein de ses modèles, et souhaite élargir l’empan chronologique du modèle ancien français afin de permettre l’annotation de corpus en diachronie longue (XIIe-XVIIe siècles). À HiSoMA, le travail portera sur des textes bibliques et patristiques en latin et grec : dans un premier temps, les noms propres des Bibles et leurs reprises dans les œuvres de Philon d’Alexandrie, Origène, Eusèbe de Césarée et Jérôme seront analysés et intégrés dans data.biblissima.

L’utilisation de la base lexicale permettra d’améliorer le fonctionnement d’outils existants, comme le lemmatiseur (Pie-extended) utilisé par le CJM et l’application de post-correction Pyrrha pour le grec, le latin classique, l’ancien français.

Les outils :

les alignements bibliques de Biblindex
Collatinus et Eulexis
Dépôts de lemmes
Application Pyrrha
Modèles d’annotation Pie : [grec ancien] [latin] [ancien-français]
Modèles Treetagger de l’IRHT.

3/ Textométrie, stylométrie et alignement

Le CJM veut créer un Centre de ressources computationnelles pour les langues à variation graphique qui se concentrera sur :

la question de l'annotation linguistique (voir supra) ;
les traitements qu'elle permet pour répondre aux questions de datation, localisation ;
l'alignement de différentes versions et collation ;
la détection des entités nommées.

L’enjeu est le traitement automatique des langues historiques à forte variation graphique et la mise à disposition d'outils (interfaces web, API, algorithmes) et de modèles (essentiellement pour les langues gallo-romanes et le latin). À terme, des services dialectométriques (un système de cartes de chaleur) et stylométriques sont envisagés.

Pour la stylométrie, on souhaite disposer de fonctionnalités pour faire automatiquement des rapprochements entre textes en fonction du style ou du contenu, voire de détection des paraphrases, en particulier d’une langue à l’autre.

Le projet Biblindex d'HISoMa a vocation à développer les outils de recherche d'intertextualité reposant sur de la lemmatisation et de la textométrie, en les rendant le plus générique possible pour une application à la recherche de tout phénomène citationnel dans les textes anciens.

À la croisée de l’édition, de la lemmatisation et de l’exploitation computationnelle des données textuelles, le CJM et le CIHAM proposent la création d’un outil capable de reproduire de façon automatisée le processus complet d'établissement du texte, du niveau macroscopique (alignement par paragraphe ou autre structure textuelle) au niveau microscopique (alignement mot à mot puis établissement d'un apparat typé proposant une analyse de la proximité des variantes).

Un traitement automatique pourra ainsi permettre la classification des variantes graphiques, grammaticales ou sémantiques, voire un classement plus fin s'appuyant sur des représentations sémantiques en fonction du contexte.

Du point de vue ecdotique seront générées des reconstitutions critiques d’archétypes et la visualisation de rapports entre témoins du texte. L’apport de Biblissima+ permettrait d'améliorer le code, de créer et de mettre en production une application web.

Les outils :

dépôt de l’outil en ligne de commande SuperStyl ;
dépôts des travaux en cours sur l’alignement et la collation automatiques :
https://gitlab.huma-num.fr/mgillelevenson/collation_tei_macro_unilingue
https://gitlab.huma-num.fr/mgillelevenson/tei_collator
https://github.com/LucenceIng/alignementEtCollation/

	Image
BiblIndex		Plateforme collaborative en ligne pour la construction d'un index exhaustif des citations et allusions bibliques dans la littérature chrétienne de l'Antiquité et du Moyen Âge.
Centre de ressources computationnelles pour les langues à variation graphique		L’enjeu du centre (ENC-PSL), financé par Biblissima+, sera le traitement automatique des langues historiques à forte variation graphique et la mise à disposition d'outils (interfaces web, API, algorithmes) et de modèles (essentiellement pour les langues gallo-romanes et le latin). À terme, des services dialectométriques et stylométriques sont envisagés.
Citations bibliques dans les textes patristiques (BIBLINDEX)		Recherche des références bibliques dans la littérature chrétienne de l’Antiquité.
Collatinus		Logiciel de lemmatisation et analyse morphologique de textes latins disponible pour Windows, Mac OS et GNU/Linux. Il permet de lemmatiser un mot ou un texte latin en entier, de traduire les lemmes grâce à des dictionnaires de latin incorporés, et d'afficher les quantités et les flexions correspondantes.
Collatinus-web		Version en ligne de Collatinus, le logiciel de lemmatisation et d'analyse morphologique de textes latins. Il permet de rechercher un lemme dans 6 dictionnaires de latin, fléchir un lemme, scander un texte latin, le lemmatiser ou effectuer son analyse morphologique.
Corpus lexical européen Glossaria		Enrichissement et mise en valeur du Corpus lexical européen latin par le Comité Du Cange, qui offre également des outils innovants pour la lexicographie historique.
Correspondances bibliques (BIBLINDEX)		Correspondances entre les textes de bibles multilingues alignées (hébreu, grec, latin, syriaque, français, anglais).
DoTS		DoTS est une implémentation en XQuery de la spécification d'API DTS (Distributed Text Services), adossée au logiciel de base de données XML BaseX. Cet outil entièrement financé par Biblissima+ permet de publier aisément des sources en XML/TEI selon les principes FAIR.
Edit_Dunhuang		Le projet Edit_Dunhuang, centré sur le fonds Pelliot chinois de la BnF, a pour objectif d’améliorer la transcription automatique des documents historiques chinois en développant des outils permettant de transformer le produit de l’OCR en textes structurés et richement annotés, afin de créer des corpus textuels vastes et exploitables pour des recherches tant qualitatives que quantitatives.
Eulexis		Logiciel de lemmatisation de textes en grec ancien développé par Philippe Verkerk. Il permet de rechercher un terme dans des dictionnaires de grec, de fléchir un lemme et de lemmatiser un texte.
Eulexis-web		Version du web du logiciel de lemmatisation de textes en grec ancien. Il permet de rechercher un terme dans des dictionnaires de grec, de fléchir un lemme et de lemmatiser un texte. Eulexis-web est développé par Philippe Verkerk avec le concours de l'équipe portail Biblissima.
JERIHNA		Édition numérique en cours de développement du traité de Jérôme sur les Noms Hébreux.
Kennicott (projet REK)		Reconstitution en "reverse engineering" de 30 manuscrits de la Bible hébraïque à partir de l'édition du Vetus testamentum hebraicum de Benjamin Kennicott (1776-1780) : alignement du texte avec 30 manuscrits HTRisés ; application du HTR pipeline à d’autres manuscrits ; expérience de stemmatologie automatique ; finalisation du plugin Mirador de la BSB pour la visualisation de textes en RTL.
Pyrrha		Application de post-correction de la lemmatisation pour le grec, le latin classique, l’ancien français.
RESCAPÉ : L’approche numérique face au défi du feu		Numérisation et étude du manuscrit L.II.14 de la BNU de Turin, daté de 1311, gravement endommagé lors de l’incendie de 1904 : traitement des images (restauration des parties endommagées), HTR, lemmatisation, stylométrie, scriptométrie.
SuperStyl		Outil de stylométrie.