Thèses proposées > Proposition de thèse (2011)

Sujet de la thèse :

Extraction de métadonnées liées aux informations « image » et « structure » contenues dans les documents anciens

Résumé du travail proposé :

Les travaux développés dans cette thèse viseront à proposer un jeu de métadonnées caractérisant la structure physique des pages en termes de zones homogènes et de relations topologiques. Dans cette optique, une attention particulière sera portée d’une part aux approches statistiques, reconnues pour leur robustesse et leur faible niveau de complexité, et d’autre part aux approches textures apportant un niveau de discrimination très pertinent pour la catégorisation des zones.

Mots Clés :

Traitement image, extraction des métadonnées, documents anciens

Informations complémentaires :

Encadrant(s) : Rémy Mullot, Pierre Héroux, Petra Kraemer
Axe thématique: IDDOC
Axe stratégique : ASPIC
Financement : Projet ANR DIGIDOC (environ 1400€/mois)
Cadre de coopération : National
Date de début du contrat : Octobre 2011
Durée du contrat : 3 ans
Candidature : jusqu’au 17 juillet 2011
Envoyez les documents de candidature (CV détaillé, lettre de motivation, lettres de recommandation, travaux réalisés, rapport de stage, relevé de notes + classement des 2 années de master)

Contexte de l’étude :

Cette thèse se déroulera au sein du projet DIGIDOC. Ce projet se situe dans le contexte de la numérisation de documents et plus précisément celui des documents précieux et anciens. Dans un contexte général où se multiplient les grands projets d’acquisition et de valorisation du patrimoine écrit, le projet DIGIDOC se focalise sur l’étape d’acquisition des images de documents pour améliorer et simplifier leur utilisation ultérieure (archivage, reconnaissance de texte, extraction de document, etc). Les coûts de numérisation et la fragilité des documents précieux rendent pratiquement impossible une deuxième numérisation, il est donc impératif de maîtriser la qualité de la numérisation en fonction de l’image. De plus, la prise en compte de l’usage des documents numérisés s’exprime nécessairement en termes de connaissances et contraintes métier. L’objectif est de conditionner la phase de production des images en considérant à la fois des connaissances a priori sur les caractéristiques des documents à numériser et des connaissances sur l’utilisation qui en sera faite. Pour cela, un module supplémentaire qui fournira en plus de l’image numérisée un ensemble de descripteurs de niveau intermédiaire calculés sur cette image sera intégré au sein des scanners. Ce projet rassemble des laboratoires de recherche (LaBRI Bordeaux, LI Tours, L3i La Rochelle, LITIS Rouen), des industriels (I2S Bordeaux, Arkhenum Bordeaux) et des utilisateurs finaux (BNF).

Description du sujet :

La production de méta-données de niveau intermédiaire (entre image et structure du document) vise à proposer un certain nombre de descripteurs renseignant sur le nombre, la position, la forme et le contenu de zones vecteur d’information. Leur extraction doit être faite sans mettre en œuvre de traitements lourds d’analyse de la structure physique de l’image du document. Ce premier axe de travail vise à déterminer les méthodes d’extraction à base de traitement d’image les mieux à même de fournir ce type d’information en se basant sur une analyse de l’état de l’art en la matière. Les méthodes envisagées exploitent les informations statistiques relatives aux intensités des pixels de l’image (intensité moyenne, variance, densité, corrélation) ainsi que les informations liées à l’identification de textures (filtre de Gabor, autocorrélation, Steerable pyramids, ...). Une fois ces primitives extraites, une ou plusieurs signatures de chaque page seront définies, sur la base des blocs homogènes extraits, en intégrant leur topologie. Chaque page pourra ainsi être signée. Cette signature devra permettre de proposer une mesure de différence entre pages et une catégorisation des pages.
Structuration / Mise en œuvre des descripteurs :
La structure physique d’une image de document est une hiérarchie de zones. Une structure de données arborescente est le plus souvent adoptée dans laquelle, par exemple une zone de texte est composée de zones lignes, elles-mêmes composées de zones mots et ainsi de suite jusqu’à un niveau élémentaire (composante connexe ou primitive graphique). Outre le lien de composition, cette structure est également fréquemment augmentée par des liens (voisinage, connexion,...) entre les objets même niveau donnant lieu à une structure de graphe. Ce type de description ne peut être atteint que par des traitements lourds et mettant en œuvre des connaissances a priori relatives au type de document traité.
Dans le cadre de cette thèse, le candidat se restreindra à une localisation et une caractérisation grossière des zones porteuses d’information suivant les caractéristiques intrinsèques de chaque zone, et leurs différences avec les zones voisines. Pour ce faire, deux types d’exploitation d’informations sont proposés : la multirésolution, et l’analyse des indices de textures. Concernant les textures, de récents travaux ont démontré tout l’intérêt de ces approches qui permettent sans connaissances a priori d’apporter des informations d’homogénéité et d’hétérogénéité suivant différents critères (orientations, fréquences, occurences, ..). Une structuration des blocs homogènes basée sur ces critères permet ainsi "d’organiser" la page. Cette organisation peut être réalisée à plusieurs résolutions. La structuration globale des descripteurs est, en première approche, considérée comme un ensemble de zones pour chaque résolution intégrant les indices d’homogénéité. En effet, les notions de blocs à base de rectangles englobant voire même de polygones, trouvent leurs limites lorsque les documents présentent des mises en page complexes. Il sera envisagé davantage de modéliser les zones porteuses d’information comme des régions connexes éventuellement floues permettant intégrer l’incertitude liées à leurs limites réelles et le caractère grossier de la modélisation.
Signature topologique de chaque page:
Suite à cette extraction, il est alors possible de structurer chaque page sur la base de liens de topologies associant chaque zone, ces liens définissant d’une part l’organisation spatiale des blocs, et d’autre part les attributs entre blocs en fonction de leur homogénéité ou leur hétérogénéité. Sur ce point, la littérature dispose de travaux de références associant image et topologie d’objets permettant d’associer ces dits-objets à des références ontologiques. Dans ce travail, il s’agit plus d’envisager la notion de « résumé » de la page en soulignant les points marquants de sa structure, basés sur les relations d’association et de dissociation les plus marquants. Il y aura donc deux niveaux d’analyse dans ce travail : une analyse générique chargée de définir l’expression des liens de topologie possibles sur une page. Il s’agit de définir les différentes expressions possible du « résumé » intégrant et la topologie des blocs et leur homogénéité. Puis un second niveau d’analyse qui doit permettre de définir le ou les résumés adaptés à l’exploitation du contenu de la page en vérifiant en particulier les différentes modalités d’expression des signatures des pages dans le but de mesurer les « différences » et « ressemblances » globales ou locales des pages.
Au final, chaque page sera caractérisée par un graphe de zones homogènes et hétérogènes au sens de critères statistiques et d’indices de texture, à plusieurs résolutions, suivant une topologie s’appuyant sur une modélisation chaque zone basée sur son positionnement et sa « dimension ».

Prérequis et contraintes particulières :

Le candidat doit avoir, avant le début de la thèse, validé un niveau d’étude équivalent à un Master 2 de recherche dans les domaines de l’informatique, de la reconnaissance de formes ou de l’analyse d’images.

Références bibliographiques :

 Nicolas Journet. Analyse d’images de documents anciens : une approche texture.
Thèse soutenue au Laboratoire Informatique, Image et Interaction de la Rochelle (L3I), 2006.
 Eugen Barbu, Pierre Héroux, Sébastien Adam, Eric Trupin. Clustering Document Images using a Bag of Symbols Representation. International Conference on Document Analysis and Recognition, pp. 1216-1220, 2005.

Contacts – liens :

Email :
pierre.heroux univ-rouen.fr, petra.kraemer univ-lr.fr

publie le dimars 10 de mai de 2011