
Par l’analyse et la fouille de texte, on mènera un double travail sur l’interopérabilité des corpus et sur la granularité extrêmement fine, permettant d’aller au-delà de ce qui se fait par ailleurs.
1/ Le protocole de partage de texte Distributed Texts Services (DTS)
Le projet Distributed Text Services (DTS) vise à proposer un protocole d'échange et de mise à disposition de textes et de leurs passages via des API spécifiques. DTS est aux textes ce que IIIF est aux images. Il est porté par le CJM et HiSoMA, en collaboration avec la MRSH de Caen.
Les spécifications de ce protocole sont aujourd'hui ouvertes aux contributions extérieures pour tenter d'assurer sa compatibilité avec le plus grand nombre de projets. Il est fondé sur le partage des textes en TEI, une architecture REST et un catalogue exprimé en JSON-LD.
L'implémentation de DTS dans TEIPublisher, incomplète à ce jour, sera finalisée avec l'aide d'HiSoMA en lien avec la communauté. La spécification devra aussi être implémentée au sein des outils éditoriaux de la MRSH de Caen. Le succès de l’API exige un effort massif en formation des utilisateurs, mais aussi en développement de suites logicielles clients et serveurs (CapiTainS, TEIPublisher, etc.).
2/ Lemmatisation et aide à la traduction des textes anciens
HiSoMA a créé le prototype de lemmatisation de Biblindex (sur un set de 70.000 couples formes/lemmes issus de textes bibliques et patristiques grecs). La base des textes français du Moyen Âge Jonas (IRHT) voudrait lemmatiser les incipit et explicit pour contourner les aléas orthographiques de l’ancien français.
Les programmes Collatinus et Eulexis, outils d’aide à la traduction du latin et du grec, s'enrichiront de nouveaux contenus et de nouvelles fonctionnalités. Collatinus continuera de s’ouvrir au latin médiéval et aux dictionnaires prosopographiques. Eulexis sera enrichi et intégrera le grec Koinè. Biblissima+ veut transposer la structure de ces outils à d’autres langues.
Le lemmatiseur (Pie) du CJM et son application de post-correction (Pyrrha) sont aujourd’hui opérationnels en latin classique, en ancien français. On assurera le chaînage de ces outils avec la reconnaissance automatique d'écriture manuscrite (HTR) au sein d’e-Scripta, en lien avec les travaux du cluster 3.
Le corpus lexical lemmatisé de 50 millions de mots de latin médiéval (période 800-1200), créé par l'IRHT avec le soutien de l’ANR Velum, pourra être doublé en élargissant l'espace étudié (textes ibériques ou italiens du VIIIe siècle ; germaniques ou slaves du XIIIe siècle) et rendre compte à la fois du latin mérovingien et du latin scolastique.
3/ Textométrie, stylométrie et alignement
Le CJM veut créer un Centre de ressources computationnelles pour les langues à variation graphique qui se concentrera sur :
- la question de l'annotation linguistique (voir supra),
- les traitements qu'elle permet pour répondre aux questions de datation, localisation ; alignement de différentes versions et collation ; détection des entités nommées.
L’enjeu est le traitement automatique des langues historiques à forte variation graphique et la mise à disposition d'outils (interfaces web, API, algorithmes) et de modèles (essentiellement pour les langues gallo-romanes et le latin). À terme, des services dialectométriques (un système de cartes de chaleur) et stylométriques sont envisagés.
Pour la stylométrie, on souhaite disposer de fonctionnalités pour faire automatiquement des rapprochements entre textes en fonction du style ou du contenu, voire de détection des paraphrases, en particulier d’une langue à l’autre.
Le projet Biblindex d'HISoMa a vocation à développer les outils de recherche d'intertextualité reposant sur de la lemmatisation et de la textométrie, en les rendant le plus générique possible pour une application à la recherche de tout phénomène citationnel dans les textes anciens.
A la croisée de l’édition, de la lemmatisation et de l’exploitation computationnelle des données textuelles, le CJM et le CIHAM proposent la création d’un outil capable de reproduire de façon automatisée le processus complet d'établissement du texte, du niveau macroscopique (alignement par paragraphe ou autre structure textuelle) au niveau microscopique (alignement mot à mot puis établissement d'un apparat typé proposant une analyse de la proximité des variantes).
Un traitement automatique pourra ainsi permettre la classification des variantes graphiques, grammaticales ou sémantiques, voire un classement plus fin s'appuyant sur des représentations sémantiques en fonction du contexte.
Du point de vue ecdotique seront générées des reconstitutions critiques d’archétypes et la visualisation de rapports entre témoins du texte. L’apport de Biblissima+ permettrait d'améliorer le code, de créer et de mettre en production une application web.