Vers une reconnaissance multimodale du texte et de la parole pour l’analyse (…) - Laboratoire Informatique, Image et Interaction (L3i)

Publications > Vers une reconnaissance multimodale du texte et de la parole pour l’analyse de documents videos pédagogiques

Sujet

Vers une reconnaissance multimodale du texte et de la parole pour l’analyse de documents videos pédagogiques

Doctorant

Mots clés

analyse multimodale, analyse vidéo, reconnaissance de la parole,
reconnaissance du texte, détection de texte dans la vidéo,
extraction de texte dans la vidéo, segmentation de caractères,
enseignement à distance

Résumé

Cette thèse s’intéresse à la mise en œuvre de méthodes de reconnaissance multimodale du texte et de la parole dans des contenus audiovisuels. Elle se focalise en particulier sur les enregistrements de cours présentiels, dans lesquels est fait un usage intensif de l’écrit et de la parole. Avec l’augmentation massive de la production de données multimédias, l’accès à ces dernières devient problématique et doit passer par une indexation efficace des contenus. En particulier, il est nécessaire de tenir compte de la nature hétérogène de l’information présente. C’est à cet objectif que tentent de répondre le paradigme de l’analyse multimodale et les méthodes d’analyse qui s’y rapportent. Il convient cependant de constater qu’en raison de l’émergence récente de l’analyse multimodale, il n’y a eu que peu de tentatives de définition de ce domaine. Par ailleurs, peu de travaux se sont intéressés à l’interaction entre texte et parole dans les flux multimédias et à la prise en compte de cette interaction pour leur extraction. Notre contribution s’axe donc sur deux points. En premier lieu, nous souhaitons combler le manque de définition en proposant un modèle de l’analyse multimodale. Son objectif est de disposer d’un cadre permettant une meilleure description des applications recourant à l’analyse multimodale, notamment en définissant précisément les concepts de modalité et de multimodalité. Le second point de notre contribution est axé sur la reconnaissance multimodale du texte et de la parole. Nous procédons pour cela à une comparaison des processus de reconnaissance du texte et de la parole pour ensuite étudier deux cas de collaboration texte-parole. Le premier n’implique pas un processus de reconnaissance du texte mais repose sur la constitution d’un modèle de langage thématisé à partir des ressources textuelles du cours pour améliorer la reconnaissance de la parole. Malgré la petite taille de ce corpus, nous montrons une amélioration significative des résultats de reconnaissance. Nous expérimentons enfin une méthode de reconnaissance croisée du texte et de la parole basée sur la complémentarité des représentations écrite et phonétique du langage. Nous montrons que cela permet d’améliorer les résultats de reconnaissance du texte, voire même, à terme, de faire ressortir le vocabulaire spécialisé du cours.

Financement

Bourse Lavoisier "Vent d’Est" du Ministère des Affaires Etrangères

publie le mercredi 30 janvier 2013