Zaghden Nizar > Zaghden Nizar
Email : nizar.zaghden gmail.com
Statut : Doctorant
Projet scientifique : I-Médoc
Numéro de téléphone : +60 12 2683233
Page Web Personnelle : http://nizar.zaghden.googlepages.com/
Résumé du sujet de thèse ou thème de recherche :
Il s’agit de faire une caractérisation du contenu des images de documents anciens. Une base d’images hétérogène a été préparée et elle est issue des images de la base de Madonne, de la British Library et de la bibliothèque nationale Tunisienne.
Les documents anciens possèdent de nombreuses particularités qui ne permettent pas
d’appliquer les techniques classiques d’analyse d’images de documents composites et d’OCR (Reconnaissance Optique de Caractères). Ils se heurtent à de multiples problèmes parmi lesquels nous pouvons citer :
– Les déformations dues à la courbure naturelle des pages
– L’ombre générée par l’intérieur de la reliure
– La présence de tâches d’humidité absorbée par le papier et qui rende illisible
l’original
Tous ces défauts engendrent une perte d’informations structurelles des documents, et
augmentent ainsi les difficultés pour reconnaître la structure et par suite l’information. D’où la nécessité de mettre en oeuvre une chaîne de numérisation, de traitement et d’interprétation des images de documents manuscrits, et d’indexation qui présente un travail fastidieux dans le cas manuel et difficile dans le cas automatique vu la variabilité des contenus des documents manuscrits.
Plusieurs technique sont en cours d’être appliquées afin de discriminer les textes issus de différentes langues de documents anciens.
Mots clés : caractérisation du contenu, discrimination du texte, classification
Points forts de mes activités de recherche :
Principales publications (4 dernières années) :
acidca icmi 2005
cifed 2006
ICPR 2008
VSMM 2008