Actualités > Soutenance de thèse de Madame Thi Tuyet Hai NGUYEN


 

AVIS DE PRÉSENTATION DE THÈSE EN SOUTENANCE POUR L’OBTENTION DU DIPLÔME NATIONAL DE DOCTEUR
 

 

Madame Thi Tuyet Hai NGUYEN présentera ses travaux intitulés :

« Faciliter l’accès aux documents anciens en améliorant les résultats de la numérisation »

Spécialité : informatique

Le 6 avril 2020

Lieu : La Rochelle Université

Composition du jury :

M. Jean-Christophe BURIE, Professeur, La Rochelle Université, Président
M. Frédéric BÉCHET, Professeur, Aix Marseille Université, Rapporteur
M. Laurent HEUTTE, Professeur, Université de Rouen Normandie, Rapporteur
M. Gaël DIAS, Professeur, Université de Caen Normandie, Examinateur
Mme Laurence LIKFORMAN-SULEM, Maîtresse de Conférence HDR, ParisTech, Université de Paris- Saclay, Examinatrice
M. Sébastien CRETIN, Digitisation expert, Bibliothèque nationale de France, Examinateur Professeur,
M. Antoine DOUCET, La Rochelle Université, Directeur de thèse
M. Adam JATOWT, Associate Professor, Kyoto University, Co-Directeur de thèse

Résumé :

Les documents papiers sont à la base de nos connaissances et renferment une myriade d’information dont certaines sont très précieuses pour notre société. Dans un but de préservation et afin de les rendre plus accessibles, de nombreux projets de numérisation visent à convertir ce type de documents en textes numérisés, notamment en utilisant des logiciels de reconnaissance optique de caractères (OCR). Toutefois, certains problèmes inhérents aux techniques actuelles d’OCR rendent difficiles la recherche ou l’accès aux informations présentes dans ces collections numérisées, tant pour les utilisateurs que pour les processus automatiques, et limitent ainsi l’impact de ces efforts de numérisation.

L’une des limitations de la numérisation repose sur le processus même puisque les documents numérisés ne sont pas immédiatement réprésentés sous leur forme logique (partie, chapitre, section, etc.), mais de façon physique. Ainsi, une œuvre sera numérisée page par page, ce qui ne correspondant généralement qu’à une organisation physique et pas à l’intention rédactionnelle des auteurs. La structure logique des documents doit ainsi être extraite afin de permettre aux utilisateurs de naviguer dans les collections ou même de trouver des informations au sein d’un ouvrage.

Un second verrou du processus de numérisation, qui en est également le plus important, correspond aux performances des moteurs d’OCR. En effet, celles-ci sont substantiellement réduites pour les documents patrimoniaux qui ont généralement subis des dégradations. Les erreurs d’OCR que cela induit ont un impact non négligeable sur la performance des outils de recherches et sur les systèmes de traitement du langage naturel puisqu’il faut par exemple apparier des besoins bien écrits à des textes mal reconnus. Cette thèse a pour objectif de faciliter l’accès aux documents historiques numérisés en étudiant les problèmes précédemment mentionnés.

En vue de faciliter l’accès aux documents historiques, plusieurs approches sont proposées, visant à reconstruire les structures logiques des ouvrages et à améliorer la qualité des textes numérisés par OCR.

En ce qui concerne l’extraction de la structure logique, nous avons développé des approches de fusion combinant des méthodes préexistantes afin d’extraire la table des matières d’ouvrages numérisés. Nos expériences ont démontré que cette approche surpasse l’état de l’art.

La contribution majeure de cette thèse fournit, quant à elle, des méthodes pour la détection et la correction des erreurs d’OCR. Les caractéristiques communes et divergentes entre les erreurs d’OCR et celles des utilisateurs sont clarifiées pour mieux concevoir les traitements post-OCR. Normalement, un système de post-traitement détecte et rectifie les erreurs résiduelles. Toutefois, il peut être préférable de gérer ces erreurs séparément grâce à des applications qui permettent de filtrer, d’étiqueter, ou de traiter sélectivement de telles données. Dans cette étude, nous examinons différentes approches post-OCR basées sur la modélisation des erreurs typiques observées, et sur des modèles de réseaux de neurones. Les résultats montrent que les performances de nos méthodes sont comparables à plusieurs méthodes de référence sur des jeux de données en anglais utilisés lors des deux premières éditions de la compétition sur la correction des textes post-OCR organisée durant les conférence ICDAR en 2017 et 2019.

http://www.univ-larochelle.fr/Soutenances-de-these

publie le mardi 12 mai 2020