De la numérisation à la caractérisation de contenu d’images de documents anciens : où commencer ? où s’arrêter ?
De la numérisation à la caractérisation de contenu d’images de documents anciens : où commencer ? où s’arrêter ?
Nicholas Journet et Vincent Rabeux (Labri, Bordeaux).
2 Septembre 2010.
Résumé :
Les travaux qui vont être présentés lors de ce séminaire ont pour principale ambition de revenir sur l’importance de la phase de numérisation dans une chaîne de traitements de documents.
Alors que cette première étape de numérisation conditionne tout le reste de la chaîne, nous verrons qu’en dépit du grand nombre de campagnes de numérisation déjà réalisées, cette phase de numérisation est bien trop isolée des étapes suivantes (restauration, compression, segmentation, indexation, visualisation...).
Après un rapide tour d’horizon sur l’état actuel des connaissances après 10 ans de projets de numérisation, nous présenterons les premiers travaux relatifs à la caractérisation d’images de documents anciens. Cette caractérisation a pour ambition de permettre l’association de métadonnées aux images de documents dès l’étape de numérisation.
C’est dans ce sens que nous présenterons nos travaux sur la caractérisation de fontes anciennes et la quantification de la transparence dans des images de documents anciens. Nous montrerons notamment que sur la base de cette quantification, il est possible d’associer aux images numériques des métadonnées permettant de prédire les résultats de l’application de logiciels de reconnaissances de caractères tels que FineReader ou OCROPUS.