Stages Master 2 (2009) > Stage proposé n°7

Campagne 2011

Sujet Stage :

Extraction de métadonnées liées aux informations « image » et « structure» contenues dans les documents anciens

Résumé du travail proposé :

Dans une campagne de numérisation où la qualité est prépondérante, 70% des coûts de production sont des coûts de main-d’œuvre, principalement liés au temps de réglage ou de re-réglage du scanner. Il est même parfois nécessaire de recommencer la phase d’acquisition lorsque les images produites ne peuvent être utilisées par les autres maillons de la chaîne. C’est le cas par exemple lorsque le taux de reconnaissance de l’OCR est trop faible. Il est donc primordial d’étudier un processus de numérisation permettant aux scanners de s’auto-adapter aux données.
Contrairement aux approches classiques un processus est élaboré intégrant des connaissances a priori sur les futurs traitements à réaliser potentiellement sur les documents numérisés : archivage simple, analyse de structure, OCR, recherche d’illustrations graphiques, etc. Il ne s’agit pas de développer de nouvelles briques logicielles pour chacun de ces traitements mais d’identifier des informations de niveau intermédiaire, des caractéristiques plus objectives et robustes, susceptibles d’aider les modules d’analyse classiques. L’objectif est donc d’intégrer, dès la phase d’acquisition des images, un maximum de compétences métier et de connaissances a priori sur les futurs traitements ainsi que sur les caractéristiques des documents eux-mêmes. Rapprocher la numérisation de l’exploitation des images permettra d’améliorer l’ensemble de la chaîne. Pour atteindre cet objectif, un nouveau format de description d’images de documents sera défini, le format DIGIDOC.

Mots clés :

Documents anciens, traitement d’image, extraction de métadonnées

Informations complémentaires :

Encadrants: Petra KRAEMER, Rémy MULLOT
Axe thématique : Données complexes, Images et Documents
Axe stratégique : Pertinence Contenu-Interaction
Cadre de coopération :National
Date de début du stage : Janvier 2011
Durée du contrat : 5 mois

Contexte de l’étude:

Ce stage sera mené au sein du projet ANR DIGIDOC. Ce projet se situe dans le contexte général de la numérisation de documents et plus précisément celui des documents précieux et anciens. Dans un contexte général où se multiplient les grands projets d’acquisition et de valorisation du patrimoine écrit, le projet DIGIDOC se focalise sur l’étape d’acquisition des images de documents pour améliorer et simplifier leur utilisation ultérieure (archivage, reconnaissance de texte, extraction de document, etc.). Les coûts de numérisation et la fragilité des documents précieux rendent pratiquement impossible une deuxième numérisation, il est donc impératif de maîtriser la qualité de la numérisation en fonction de l’image. De plus, la prise en compte de l’usage des documents numérisés s’exprime nécessairement en termes de connaissances et contraintes métier. L’objectif est donc de conditionner la phase de production des images en considérant à la fois des connaissances à priori sur les caractéristiques des documents à numériser et des connaissances sur l’utilisation qui en sera faite. Le projet DIGIDOC rassemble des laboratoires de recherche (LaBRI Bordeaux, LI Tours, L3I La Rochelle, LITIS Rouen), des industriels (I2S Bordeaux, Arkhenum Bordeaux) et des utilisateurs finaux (BNF).

Description du sujet :

L’objectif est de proposer des indices permettant de caractériser le contenu des images de documents et les méthodes permettant leur extraction. Ces indices extraits serviront de base à la définition du format d’image DIGIDOC enrichi pour le traitement des images de documents.
La production de méta-données de niveau intermédiaire (entre image et structure du document) vise à proposer un certain nombre de descripteurs renseignant sur le nombre, la position, la forme et le contenu de zones vecteur d’information. Leur extraction doit être faite sans mettre en œuvre de traitements lourds d’analyse de la structure physique de l’image du document. Ce premier axe de travail vise à déterminer les méthodes d’extraction à base de traitement d’image les mieux à même de fournir ce type d’information en se basant sur une analyse de l’état de l’art en la matière. Les méthodes envisagées exploitent les informations statistiques relatives aux intensités des pixels de l’image (intensité moyenne, variance, densité, corrélation) ainsi que les informations liées à l’identification de textures (filtre de Gabor, autocorrélation, Steerable pyramids, ...). Une fois ces primitives extraites, une ou plusieurs signatures de chaque page seront définies, sur la base des blocs homogènes extraits, en intégrant leur topologie. Chaque page pourra ainsi être signée, et ainsi aisément proposer une mesure de différence ou de catégorisation.

Pré requis et contraintes particulières :

• Connaissances de Matlab/C++

Références bibliographiques :

[Kal00] Kalldremxhiu. Les logiciels de numérisation des livres anciens. Technical report, Université
Claude Bernard Lyon1, 2000.

[TRI03] Trinh. De la numérisation à la consultation de documents anciens. PhD thesis, Université
De Lyon, 2003.

[VTR07] Valveny, Tabbone, Ramos Terrades, and Philippot, Performance characterization of shape descriptors for symbol representation. Liu Wenyin, Josep Llados, Jean-Marc Ogier (Editors). Graphics recognition, Recent advances. Selected papers from GREC’07, LNCS 2008

Contacts – liens :

Email : petra.kraemer univ-lr.fr, remy.mullot univ-lr.fr

publie le dimars 30 de novembre de 2010