Équipe Images et Contenus (IC) : BOROS Emanuela

IGR

Mots clés : Traitement automatique des langues (TALN), Détection, extraction et liaison d'événements et d'entités (NER/NEL/EE), OCR/HTR/ASR et post-correction, Traitement à grande échelle de documents à l'aide de modèles neuronaux et de LLMs, Interprétabilité et évaluation des LLMs

Publié le

Thématiques de recherche : Ma recherche porte sur l'analyse automatique de documents (historiques) multilingues, en particulier les journaux et archives numérisés et bruités. Je travaille sur la reconnaissance et la liaison d'entités nommées, l'extraction et la détection d'événements, ainsi que sur la numérisation et la post-correction, à l'aide de modèles neuronaux et de modèles de langue. Mes travaux concernent également l'évaluation, l'interprétabilité et la compréhension du comportement des LLMs appliqués à ces données, notamment l'analyse de leurs erreurs, biais et capacités de généralisation. Je m'intéresse enfin à l'application de ces méthodes à d'autres types de données et de thématiques en humanités numériques.

Points forts des activités de recherche :

Mes activités de recherche combinent développement méthodologique, expérimentation à grande échelle et analyse critique des modèles appliqués aux archives historiques et, plus largement, aux documents fortement bruités (OCR, ASR, HTR).

Je développe des pipelines robustes pour la reconnaissance et la liaison d'entités ainsi que pour l'extraction et la détection d'événements dans des corpus multilingues, bruités ou non. Ces travaux ont conduit au développement de modèles, de ressources et de benchmarks utilisés dans des projets de recherche internationaux.

Un autre axe fort de mes recherches concerne la post-correction OCR, avec une attention particulière portée à la comparaison systématique entre approches neuronales classiques et grands modèles de langue (LLMs). Je conçois des jeux de données structurés, des protocoles d'évaluation reproductibles et des stratégies de prompting adaptées aux documents patrimoniaux.

Enfin, je mène des travaux sur l'interprétabilité et l'analyse du comportement des LLMs pour l'extraction d'information à partir de données historiques : compréhension des erreurs, sensibilité au bruit, rôle du contexte et limites des raisonnements générés, avec un focus sur les implications méthodologiques pour l'analyse automatique des archives.

Page perso : https://emanuelaboros.github.io/