Cluster 7 – Text interoperability and analysis

Le projet Distributed Text Services (DTS) vise à proposer un protocole d'échange et de mise à disposition de textes et de leurs passages via des API spécifiques. DTS est aux textes ce que IIIF est aux images. Il est porté par le CJM et HiSoMA, en collaboration avec la MRSH de Caen.

Les spécifications de ce protocole sont aujourd'hui ouvertes aux contributions extérieures pour tenter d'assurer sa compatibilité avec le plus grand nombre de projets. Il est fondé sur le partage des textes en TEI, une architecture REST et un catalogue exprimé en JSON-LD.

L'élargissement des communautés concernées par cette API passe par des implémentations sur des outils variés et complets. Les environnements XQuery sont faiblement dotés, l'objectif est donc de venir compléter les outils existants. L'implémentation sur Exist-db avec l'outil TEIPublisher sera ainsi approfondie avec l’expertise d’HiSoMA. Le développement d’une implémentation nommée DoTS sur BaseX est également mené par le CJM. Les outils éditoriaux de la MRSH de Caen en bénéficieront aussi.

Le succès de l’API exige un effort massif en formation des utilisateurs, mais aussi en développement de suites logicielles clients et serveurs (CapiTainS, TEIPublisher, etc.).

Les outils en cours de développement :

DoTS
DTS-TEIPublisher

2/ Lemmatisation et aide à la traduction des textes anciens

Dès avant la constitution du Cluster,

HiSoMA a entrepris d'enrichir les bases de lemmatiseurs existants avec ses travaux sur le latin et le grec patristique, en particulier depuis 2023 pour le repérage des noms propres bibliques (ANR Jerihna) ;
la base des textes français du Moyen Âge Jonas (IRHT) a souhaité lemmatiser les incipit et explicit pour contourner les aléas orthographiques de l’ancien français ;
un corpus lexical de 50 millions de mots de latin médiéval (période 800-1200), créé par l'IRHT avec le soutien de l’ANR Velum, a été lemmatisé et il a vocation à être doublé en élargissant l'espace étudié (textes ibériques ou italiens du VIIIe siècle ; germaniques ou slaves du XIIIe siècle) et rendre compte à la fois du latin mérovingien et du latin scolastique ;
les programmes Collatinus et Eulexis, outils d’aide à la traduction du latin et du grec, s'enrichissent régulièrement de nouveaux contenus et de nouvelles fonctionnalités : pour Collatinus, le latin médiéval (depuis 2019 : dictionnaires, variantes orthographiques) et les noms propres (en cours) ; pour Eulexis est envisagée une intégration du grec Koinè.

Fort de ces travaux en cours et projets, le Cluster 7 s’est donné comme objectif premier la constitution de bases lexicales communes dans data.biblissima, dont la structure modulable accueillera des langues multiples. Des expérimentations du module lexicographique de Wikibase sont en cours pour cela. Cette base nécessitera de faire des alignements de référentiels : par exemple, au CJM, entre le référentiel employé pour le modèle ancien français et celui employé pour le modèle existant des français préclassique et classique ; à HiSoMA, entre les référentiels de la Vulgate, de la Septante et de dictionnaires existants (Forcellini, Sleumer…).

Les sources des données de cette base lexicale seront des corpus de textes annotés, fournis conjointement par le Cluster 5b et le Cluster 7. Le CJM s'occupera d'un corpus couvrant la période manquante (XIVe-XVe siècles) au sein de ses modèles, et souhaite élargir l’empan chronologique du modèle ancien français afin de permettre l’annotation de corpus en diachronie longue (XIIe-XVIIe siècles). À HiSoMA, le travail portera sur des textes bibliques et patristiques en latin et grec : dans un premier temps, les noms propres des Bibles et leurs reprises dans les œuvres de Philon d’Alexandrie, Origène, Eusèbe de Césarée et Jérôme seront analysés et intégrés dans data.biblissima.

L’utilisation de la base lexicale permettra d’améliorer le fonctionnement d’outils existants, comme le lemmatiseur (Pie-extended) utilisé par le CJM et l’application de post-correction Pyrrha pour le grec, le latin classique, l’ancien français.

Les outils :

les alignements bibliques de Biblindex
Collatinus et Eulexis
Dépôts de lemmes
Application Pyrrha
Modèles d’annotation Pie : [grec ancien] [latin] [ancien-français]
Modèles Treetagger de l’IRHT.

3/ Textométrie, stylométrie et alignement

Le CJM veut créer un Centre de ressources computationnelles pour les langues à variation graphique qui se concentrera sur :

la question de l'annotation linguistique (voir supra) ;
les traitements qu'elle permet pour répondre aux questions de datation, localisation ;
l'alignement de différentes versions et collation ;
la détection des entités nommées.

L’enjeu est le traitement automatique des langues historiques à forte variation graphique et la mise à disposition d'outils (interfaces web, API, algorithmes) et de modèles (essentiellement pour les langues gallo-romanes et le latin). À terme, des services dialectométriques (un système de cartes de chaleur) et stylométriques sont envisagés.

Pour la stylométrie, on souhaite disposer de fonctionnalités pour faire automatiquement des rapprochements entre textes en fonction du style ou du contenu, voire de détection des paraphrases, en particulier d’une langue à l’autre.

Le projet Biblindex d'HISoMa a vocation à développer les outils de recherche d'intertextualité reposant sur de la lemmatisation et de la textométrie, en les rendant le plus générique possible pour une application à la recherche de tout phénomène citationnel dans les textes anciens.

À la croisée de l’édition, de la lemmatisation et de l’exploitation computationnelle des données textuelles, le CJM et le CIHAM proposent la création d’un outil capable de reproduire de façon automatisée le processus complet d'établissement du texte, du niveau macroscopique (alignement par paragraphe ou autre structure textuelle) au niveau microscopique (alignement mot à mot puis établissement d'un apparat typé proposant une analyse de la proximité des variantes).

Un traitement automatique pourra ainsi permettre la classification des variantes graphiques, grammaticales ou sémantiques, voire un classement plus fin s'appuyant sur des représentations sémantiques en fonction du contexte.

Du point de vue ecdotique seront générées des reconstitutions critiques d’archétypes et la visualisation de rapports entre témoins du texte. L’apport de Biblissima+ permettrait d'améliorer le code, de créer et de mettre en production une application web.

Les outils :

dépôt de l’outil en ligne de commande SuperStyl ;
dépôts des travaux en cours sur l’alignement et la collation automatiques :
https://gitlab.huma-num.fr/mgillelevenson/collation_tei_macro_unilingue
https://gitlab.huma-num.fr/mgillelevenson/tei_collator
https://github.com/LucenceIng/alignementEtCollation/

	Image
BiblIndex		Online collaborative platform for the construction of an exhaustive index of biblical quotations and allusions in the Christian literature of Antiquity and the Middle Ages.
Citations bibliques dans les textes patristiques (BIBLINDEX)		Search for biblical references in ancient Christian literature.
Collatinus		This lemmatisation and morphological analysis tool for Latin texts is available for Windows, Mac OS and GNU/Linux. Lemmatise a single word or a whole text in Latin, translate the lemmas using the bundled Latin translation dictionaries, and display the corresponding syllable quantities and flexion.
Collatinus-web		Online version of Collatinus, a lemmatiser and morphological analyser for Latin texts. Use it to look up a word in 6 Latin dictionaries, to inflect a lemma, or to scan, lemmatise or analyse the morphology of a Latin text.
Computational resource centre for languages with graphic variation		The centre (ENC-PSL), funded by Biblissima+, will focus on the automatic processing of historical languages with a high degree of graphic variation, providing tools (web interfaces, APIs, algorithms) and models (mainly for Gallo-Romance languages and Latin). Eventually, dialectometric and stylometric services are envisaged.
Correspondances bibliques (BIBLINDEX)		Correspondences between the texts of aligned multilingual Bibles (Hebrew, Greek, Latin, Syriac, French, English).
DoTS		DoTS is an XQuery implementation of the DTS (Distributed Text Services) API specification, backed up by the BaseX XML database software. This tool, entirely funded by Biblissima+, makes it easy to publish sources in XML/TEI according to FAIR principles.
Edit_Dunhuang		The Edit_Dunhuang project, focused on the Chinese Pelliot collection at the BnF, aims to improve the automatic transcription of Chinese historical documents by developing tools to transform the OCR product into structured and richly annotated texts, in order to create vast textual corpora that can be exploited for both qualitative and quantitative research.
Eulexis		Online lemmatiser of Ancient Greek texts: use it to look up terms in Ancient Greek dictionaries, check the flexion of a lemma, and lemmatise a Greek text. Eulexis is developed by Philippe Verkerk, with support from the Biblissima team.
Eulexis-web		Web version of the lemmatization software for ancient Greek texts. It allows you to search for a term in Greek dictionaries, to inflect a lemma and to lemmatise a text. Eulexis-web was developed by Philippe Verkerk with the help of the Biblissima portal team.
European lexical corpus Glossaria		Enrichment and enhancement of the European Latin Lexical Corpus by the Du Cange Committee, which also offers innovative tools for historical lexicography.
JERIHNA		Digital edition under development of Jerome's treatise on Noms Hébreux.
Kennicott (projet REK)		Reverse engineering reconstruction of 30 manuscripts of the Hebrew Bible based on Benjamin Kennicott's edition of the Vetus testamentum hebraicum (1776-1780): alignment of the text with 30 HTRised manuscripts; application of the HTR pipeline to other manuscripts; automatic stemmatology experiment; finalisation of the BSB's Mirador plugin for viewing texts in RTL.
Pyrrha		Post-correction lemmatisation application for Greek, Classical Latin and Old French.
RESCAPÉ : L’approche numérique face au défi du feu		Digitisation and study of the manuscript L.II.14 from the BNU in Turin, dated 1311, severely damaged by fire in 1904: image processing (restoration of damaged parts), HTR, lemmatisation, stylometry, scriptometry.
SuperStyl		Stylometry tool.