Stages Master 2 (2009) > Stage proposé n°14

Campagne 2011

Sujet Stage :

Conception d’une méthode de reconnaissance d’écriture manuscrite cursive adaptative

Résumé du travail proposé :

Le but de stage est de développer, à partir d’une méthode d’identification de scripteur et d’une méthode de reconnaissance d’écriture manuscrite cursives développées au laboratoire, une méthode de reconnaissance d’écriture manuscrite cursive adaptative. L’idée de cette méthode est de personnaliser le moteur de reconnaissance de mots cursifs en fonction de l’identité du scripteur ou de son style d’écriture.

Mots clés :

Reconnaissance d’écriture manuscrite cursive, identification du scripteur, identification du type d’écriture d’un scripteur, personnalisation.

Informations complémentaires :

Encadrants: Muriel Visani, Sophea Prum (encadrant(s) scientifique(s)).
Axe thématique : Données complexes, Images et Documents
Axe stratégique : Environnement
Cadre de coopération :Projet Reconomad
Date de début du stage : Février 2011
Durée du contrat : 5 mois

Contexte de l’étude:

Actuellement, les documents manuscrits proviennent principalement des archives (documents anciens par exemple ou documents administratifs). Chaque jour, des millions de formulaires papier sont remplis. Le traitement de ces formulaires représente un travail considérable de gestion : transmission, indexation, stockage, etc... Pour traiter automatiquement ces formulaires par le biais de systèmes informatiques, on a besoin de saisir préalablement les contenus des différents champs dans le système informatique. Pour éviter cette étape de saisie à la fois fastidieuse et coûteuse, le projet RecoNomad vise à proposer un système de reconnaissance automatique ou semi-automatique du formulaire utilisé et des contenus remplis dans le formulaire. Les formulaires sont remplis en posant le formulaire papier sur une tablette électro-magnétique captant et enregistrant l’écriture, sans dispositif supplémentaire (pas de stylo spécial), cf. Figure 1.

Figure 1 : Tablette électro-magnétique.

Description du sujet :

Les documents manuscrits sont produits par les humains avec d’innombrables variations, provenant en partie des variations d’écriture entre scripteurs, mais aussi des variations entre deux occurrences d’un même mot écrit par un même scripteur. Les caractéristiques de l’écriture dépendent en particulier de l’origine du scripteur, du contexte et du contenu. Cette variabilité très importante constitue un problème majeur pour la reconnaissance d’écriture manuscrite cursive.

Une manière de limiter les variations est de mener, préalablement à la phase de reconnaissance d’écriture, une phase d’identification de scripteur (cf. Figure 2.). Ainsi, nous pouvons concevoir un modèle de reconnaissance d’écriture dédié à chacun des scripteurs dans la liste (writer-dependent). Le système de reconnaissance d’écriture manuscrite cursive personnalisé ainsi créé devra être plus performant que le moteur de reconnaissance d’écriture manuscrite cursive générique. Un exemple de méthode de reconnaissance de mots cursifs writer-dependent est présenté dans [1].

Mlle Sophea PRUM, dans le contexte de sa thèse, a déjà développé un système de reconnaissance d’écriture manuscrite cursive performant [2,3]. Dans le cadre de son stage de Master 2, M. Quang Anh BUI a développé un système d’identification de scripteur performant [4]. Les caractéristiques utilisées sont à la fois des caractéristiques en-ligne capturées par la tablette et des caractéristiques hors-ligne reconstruites à partir de ce signal en-ligne

Le premier objectif de ce stage sera de concevoir, à partir de ces deux systèmes, un outil de reconnaissance personnalisé en fonction du scripteur ou style de l’écriture (cf. Figure 2). Ce système est facilement réalisable par combinaison des deux systèmes existants, puisqu’il suffit d’entraîner un modèle de reconnaissance d’écriture manuscrite cursive pour chacun des scripteurs et, en mode reconnaissance, d’identifier le scripteur puis de charger son moteur de reconnaissance personnalisé. Mais un tel système ne peut fonctionner qu’en monde fermé, où l’ensemble des scripteurs potentiels est connu.
Le second objectif de ce stage est de concevoir un modèle adaptatif de reconnaissance d’écriture manuscrite cursive en monde ouvert, où de nouveaux scripteurs (non enregistrés préalablement) peuvent se présenter au système.

Deux pistes sont possibles :
• La première piste consiste à améliorer le système d’identification de scripteur existant pour permettre le rejet, c’est-à-dire la détection d’un scripteur qui n’aurait pas été préalablement enregistré. Tandis que, pour un scripteur connu, on pourra charger le moteur de reconnaissance personnalisé correspondant, dans le cas d’un scripteur inconnu il faudra utiliser le moteur de reconnaissance générique.
• La seconde piste consiste à modifier le système d’identification de scripteur de manière à ce qu’il permette non pas d’identifier le scripteur, mais son style d’écriture. On passe alors d’un problème d’apprentissage supervisé à un modèle d’apprentissage non supervisé. Il faudra dans ce cas modifier les caractéristiques utilisées pour choisir des caractéristiques plus adaptées à la caractérisation du style d’écriture. L’une des principales difficultés consistera à trouver une méthode automatique permettant de sélectionner automatiquement le nombre optimal de styles d’écritures à prendre en compte.

Figure 2 : schéma du processus du système de reconnaissance adaptative. Les documents S1 à Sn sont des exemples de l’écriture des scripteurs 1 à n.

Pré requis et contraintes particulières :

  Programmation en C/C++
  Bonnes bases en data-mining et/ou apprentissage machine
  Rudiments d’analyse d’images

Références bibliographiques :

[1] Marcus Liwicki, Andreas Schlapbach, and Horst Bunke : Writer-Dependent Recognition of Handwritten Whiteboard Notes in Smart Meeting Room Environments. The Eighth IAPR Workshop on Document Analysis Systems
[2] S.Prum, M.Visani, JM.Ogier, On-line Handwriting word recognition using a bi-character model. 20th International Conference on Pattern Recognition, Istanbul, 2010.
[3] S.Prum, M.Visani, JM.Ogier, Cursive on-line Handwriting word recognition using a bi-character model for large lexicon applications 12th International Conference on Frontiers in Handwriting Recognition, Kolkata 2010.
[4] BUI Quang Anh, Identification du scripteur pour la reconnaissance de l’écriture manuscrite cursive. Mémoire de fin d’étude Master 2, 2010.

Contacts – liens :

Email : muriel.visani univ-lr.fr

publie le dimecres 1r de decembre de 2010