Publications > Caractérisation du contenu des images de documents anciens

Sujet

Caractérisation du contenu des images de documents anciens

Doctorant

Zaghden Nizar

Financement

Résumé

Il s’agit de faire une caractérisation du contenu des images de documents anciens. Une base d’images hétérogène a été préparée et elle est issue des images de la base de Madonne, de la British Library et de la bibliothèque nationale Tunisienne.
Les documents anciens possèdent de nombreuses particularités qui ne permettent pas
d’appliquer les techniques classiques d’analyse d’images de documents composites et d’OCR (Reconnaissance Optique de Caractères). Ils se heurtent à de multiples problèmes parmi lesquels nous pouvons citer :
 Les déformations dues à la courbure naturelle des pages
 L’ombre générée par l’intérieur de la reliure
 La présence de tâches d’humidité absorbée par le papier et qui rende illisible
l’original

Tous ces défauts engendrent une perte d’informations structurelles des documents, et
augmentent ainsi les difficultés pour reconnaître la structure et par suite l’information. D’où la nécessité de mettre en oeuvre une chaîne de numérisation, de traitement et d’interprétation des images de documents manuscrits, et d’indexation qui présente un travail fastidieux dans le cas manuel et difficile dans le cas automatique vu la variabilité des contenus des documents manuscrits.
Plusieurs technique sont en cours d’être appliquées afin de discriminer les textes issus de différentes langues de documents anciens.

publie le mercredi 30 janvier 2013