HTRogène

Type de projet
Projet exploratoire
Responsable scientifique
Thibault Clérice
Établissement porteur
Lauréat en
2023

HTRogène s’attaque au défi de produire des modèles génériques de transcription automatique pour les textes manuscrits (HTR) des documents médiévaux et du début de la période moderne.

Le projet se concentre sur la production de transcriptions pour des manuscrits littéraires et des archives publiques ou privées en langues romanes du xie au xvie siècle. Le principal objectif du projet est de produire des données d’entraînement et des modèles de transcriptions résistants aux changements de langue et de main. HTRogène est donc envisagé comme une brique pour l’infrastructure de Biblissima+ et la philologie médiévale des langues romanes : le projet ne se concentre pas sur un texte ou une petite sélection de textes en particulier, mais vise au contraire à produire des exemples de transcription susceptibles de constituer un échantillon représentatif. Cet échantillonnage s’appuie sur des critères spécifiques de langue, de script, de genre ou encore de datation.

Illustration d'un manuscrit avec le logo HTRogène