Reverse Engineering Kennicott (REK)

Reverse Engineering Kennicott (REK) combine la reconnaissance de texte manuscrit (HTR), le traitement automatique du langage (TAL) et la fouille de données d'images et de catalogues pour relier l'un des travaux les plus importants dans l'étude du texte de la Bible hébraïque (Kennicott's Vetus Testamentum hebraicum cum variis lectionibus, 1776–1780) avec le catalogue collectif et la base de données d'images des manuscrits du monde en écriture hébraïque à la Bibliothèque nationale d'Israël, KTIV.

Kennicott a noté des variae lectiones complètes de 250 manuscrits et plus de 50 éditions imprimées, et partielles pour 350 manuscrits supplémentaires. Nous appliquerons une chaîne de traitement autour d'eScriptorium capable de recréer des transcriptions complètes de manuscrits avec l'apparat critique de Kennicott en les alignant aux résultats HTR des manuscrits.

En travaillant sur une sélection de manuscrits, le projet permettra de créer des quantités massives de nouvelles données d'entrainement HTR très précises (> 99%) et de modèles HTR avec des coûts humains très faibles. Il ajoutera également la possibilité de vérifier visuellement la vocalisation absente de Kennicott.

BnF Ms. Hébreu 5 et l'apparat de Kennicott