Actualités > Soutenance de thèse de Monsieur Joris VOERMAN


 

AVIS DE PRÉSENTATION DE THÈSE EN SOUTENANCE POUR L’OBTENTION DU DIPLÔME NATIONAL DE DOCTEUR
 

 

Monsieur Joris VOERMAN présentera ses travaux intitulés :

« Classification automatique à partir d’un flux de documents. »

Spécialité : Informatique

Le 13 juin 2022 à 9h30

Lieu : La Rochelle Université
Maison des Sciences de l’Ingénieur
Amphi 100 (rez-de-chaussée)
Av. Becquerel
17000 LA ROCHELLE

Composition du jury :

M. COUSTATY Mickaël (Invité), Maître de conférences, La Rochelle Université
M. DOMENGER Jean-Philippe, Professeur, Université de Bordeaux
Mme GIRARD Nathalie, Maître de conférences, Université de Rennes 1
Mme JOSEPH Aurélie (Invitée), Research Project Manager, Société YOOZ
M. OGIER Jean-Marc, Professeur, La Rochelle Université
M. POULAIN D’ANDECY Vincent, Research Department Manager, Société YOOZ
M. ROCHE Mathieu, Chercheur, HDR, Université de Montpellier
Mme VINCENT Nicole, Professeure, Université Paris Descartes

Résumé :
Les documents administratifs sont aujourd’hui omniprésents dans notre quotidien. Nombreux et diversifiés, ils sont utilisés sous deux formes distinctes : physique ou numérique. La nécessité de passer du physique au numérique selon les situations entraîne des besoins dont le développement de solutions constitue un domaine de recherche actif notamment d’un point de vue industriel. Une fois un document scanné, l’un des premiers éléments à déterminer est le type, la classe ou la catégorie, permettant de faciliter toutes opérations ultérieures. Si la classification automatique est une opération disposant de nombreuses solutions dans l’état de l’art, la classification de documents, le fort déséquilibre au sein des données d’apprentissage et les contraintes industrielles restent trois difficultés majeures. Ce manuscrit se concentre sur la classification automatique par apprentissage de documents à partir de flux industriels en tentant de solutionner ces trois problèmes.
Pour cela, il contient une évaluation de l’adaptation au contexte des méthodes préexistantes ; suivie d’une évaluation des solutions existantes permettant de renforcer les méthodes, ainsi que des combinaisons possibles. Il se termine par la proposition d’une méthode de combinaison de modèles sous la forme de cascade offrant une réponse progressive. Les solutions mises en avant sont d’un côté un réseau multimodal renforcé par un système d’attention assurant la classification d’une grande variété de documents. De l’autre, une cascade de trois réseaux complémentaires : un pour les images, un pour le texte et un pour les classes faiblement représentées. Ces deux options offrent des résultats solides autant dans un contexte idéal que dans un contexte déséquilibré. Dans le premier cas, il équivaut voire dépasse l’état de l’art. Dans le second, ils montrent une augmentation d’environ +6% de F0,5-Mesure par rapport à l’état de l’art.

https://www.univ-larochelle.fr/recherche/doctorat-et-hdr/doctorat/soutenances-de-theses/

publie le lundi 13 juin 2022