Stages Master 2 (2009) > Stage proposé n°15

Campagne 2011

Sujet Stage :

Modèle de dégradation d’images de documents anciens pour la génération de données synthétiques et analyse de complexité des bases d’images.

Résumé du travail proposé :

Ce stage a deux objectifs. Le premier est de proposer des modèles d’images de dégradation de documents anciens pour servir à l’évaluation de performances de méthodes d’analyses d’images de documents anciens. En particulier, ces bases permettront d’étudier la robustesse des méthodes proposées de manière systématique vis-à-vis de diverses sources de dégradation de ces images. Le second objectif de ce stage est de concevoir des mesures permettant d’évaluer la complexité des bases d’images ainsi générées vis-à-vis de différentes tâches (classification, indexation…) et plus généralement de bases d’images naturelles et/ou synthétiques au contenu plus varié.

Mots clés :

Analyse d’images de documents anciens, génération d’images synthétiques, indicateurs de complexité des bases d’images.

Informations complémentaires :

Encadrants: Muriel Visani, Nicholas Journet (LABRI, Bordeaux), Rémy Mullot.
Axe thématique : Données complexes, Images et Documents
Axe stratégique : Pertinence Contenu-Interaction
Cadre de coopération :Ce sujet s’inscrit dans le projet ANR Digidoc qui vient d’être accepté et nous lie à plusieurs laboratoires universitaires français réputés (LITIS Rouen, LI Tours, LABRI Bordeaux, LIRIS Lyon) ainsi qu’à deux partenaires industriels (BNF, I2S, Arkhenum).
Date de début du stage : Février 2011
Durée du contrat : 5 ou 6 mois

Contexte de l’étude:

Les nombreuses campagnes de numérisation de documents patrimoniaux mises en place ces dernières années ont permis de constituer, un peu partout dans le monde, des entrepôts de données présentés sous la forme de collection d’images. Cette numérisation massive de documents soulève une problématique liée à l’indexation de grosses quantités d’images. Cette masse de documents constitue le plus souvent une simple version numérique des ouvrages originaux. En effet, rares sont les images ayant été enrichies de méta-données. Ainsi, on ne dispose pas à ce jour d’une base annotée qui soit commune à l’ensemble de la communauté. Les méthodes proposées dans la littérature sont généralement testées sur des bases dont quelques exemplaires sont annotés manuellement.

Quelques équipes de recherche appartenant notamment à la communauté scientifique liée à l’analyse et la reconnaissance de symboles graphiques ont d’ores et déjà adopté l’utilisation de bases synthétiques pour une évaluation fine des performances de leurs méthodes. L’avantage des bases synthétiques est en effet double. Premièrement, c’est le seul moyen de tester les méthodes proposées sur des images synthétiques dont on maîtrise quantitativement et qualitativement tous les paramètres de génération (type de bruit, type d’arrière plan, nombre de couleurs, type de courbure et d’inclinaison, résolution, ...). Deuxièmement, cela permet de s’affranchir de la subjectivité qu’induirait une étape d’évaluation réalisée sur des données annotées manuellement (subjectivité d’autant plus problématique que cette annotation est le plus souvent réalisée par l’auteur de la méthode lui-même).

Description du sujet :

L’objectif de ce stage est de mettre en place un logiciel dédié à la génération d’images synthétiques de documents anciens. Ce logiciel intégrera des modèles de dégradation (encre, fond, papier,...) permettant de générer des images de documents les plus visuellement crédibles possible. L’ambition est de pouvoir, en s’aidant de l’observation des données réelles issues des bases d’images naturelles, simuler l’apparition de l’encre du recto sur le verso, l’érosion de caractères, l’apparition de pliures ou de trous, ...
Le noyau de ce logiciel existe déjà et permet de générer des documents synthétiques. Ce premier travail est détaillé dans [1]. Un exemple d’une image générée synthétiquement par la version actuelle du logiciel est donné en Figure 1.
L’étudiant devra donc s’approprier le code existant et à le faire ensuite évoluer en ajoutant un module de génération de défauts.

Figure 1 : Un exemple d’image générée synthétiquement par la version actuelle du logiciel

Les enjeux scientifiques liés à la mise en place d’une telle plate-forme sont triples :
1. Il faut proposer des modèles de déformation permettant, sur la base d’exemples réels, de reproduire à volonté divers défauts. Après avoir étudié plusieurs modèles de diffusion d’encre, nous avons choisi d’adapter le modèle de [2] qul permet de générer de manière synthétique la transparence de l’encre. Ce modèle se base sur une équation de diffusion (EDP) permettant de simuler l’apparition de l’encre du verso sur le recto. Sur la même méthodologie, nous souhaitons que le stagiaire étudie plusieurs modèles de déformation de caractères et propose l’implantation de l’un d’entre eux. Pour ce faire, le stagiaire aura à étudier l’état de l’art de [3] qui recense plusieurs de ces méthodes de dégradation.
2. Proposer des métriques permettant de mesurer la complexité de la base ainsi générée et, dans un contexte plus général d’analyse d’images, être capable de quantifier la complexité d’une base d’images synthétiques ou naturelles à partir d’indices tels que le nombre d’images qu’elle contient et la variabilité de celles-ci. Différentes approches d’évaluation de la complexité d’une base d’images ont été proposées dans la littérature. Celles-ci sont généralement basées sur les similarités statistiques observées entre différents exemples appartenant à différentes classes dans la base [4,5,6]. Leur principale limitation est qu’elles sont très dépendantes de la mesure de similarité choisie. Notre objectif est d’exploiter l’idée mentionnée dans les perspectives de [7] : en effet, si l’on considère un ensemble bien choisi de descripteurs mutuellement complémentaires et que l’ensemble de ces descripteurs donne une description peu satisfaisante de la base (au regard de la tâche visée, eg classification, indexation…), alors on peut considérer que cette base est complexe.
3. Proposer une Interface Homme-Machine permettant à un utilisateur de pouvoir générer de grosses quantités de documents synthétiques "à la carte".

Pré requis et contraintes particulières :

Compétences requises pour faire ce stage : notions d’analyse d’images, bonne maitrise du C++
Compétences supplémentaires appréciées : notions de QT, XML, Design patterns
Financement souhaité : bourse Région Poitou-Charentes (réservée aux étudiants de l’Institut de la Francophonie pour l’Informatique, Hanoï, Vietnam)

Références bibliographiques :

[1] N. Journet, A. Vialard, J.P. Domenger. Analyse de fontes anciennes : de la génération de données synthétiques à la reconnaissance. Colloque International Francophone sur l’Ecrit et le Document (CIFED2010), Tunisie (2010).
[2] R.F. Moghaddam, M. Cheriet, “Low quality document image modeling and enhancement”, Int. J. Doc. Anal. Recognit, vol 11(4), pp. 183-201, Mars 2009.
[3] H.S. Baird, “The State of the Art of Document Image Degradation Modeling”, Proc. of 4 th IAPR International Workshop on Document Analysis Systems, Rio de Janeiro, pp 1-6, 2000.
[4] A.F.R. Rahman, M.C. Fairhurst, "Measuring Classification Complexity of Image Databases: A Novel Approach," iciap, pp.893, 10th International Conference on Image Analysis and Processing (ICIAP’99), 1999.
[5] Rao, Srihari, Zhu, and Zhang, A method for measuring the complexity of image databases.
IEEE Transactions on Multimedia, vol. 4, n.2, Juin 2002, pp. 160­173
[6] Valveny, E., Tabbone, S., Terrades, O.R., Philippot, E.: Performance characterization of shape descriptors for symbol representation. In: Liu, W., Lladós, J., Ogier, J.-M. (eds.) Graphics Recognition. Recent Advances and New Opportunities. LNCS vol. 5046, pp. 278–287. Springer (2008).
[7] M. Visani, O. Terrades, S. Tabbone, “A protocol to characterize the descriptive power and the complementarity of shape descriptors”, International Journal on Document Analysis and Recognition, ISSN 1433-2833, pp. 1-14, Septembre 2010.

Contacts – liens :

Email : muriel.visani univ-lr.fr

publie le dimecres 1r de decembre de 2010