Soutenances > Représentations visuelles de concepts textuels pour la recherche et l’annotation interactives d’images

Représentations visuelles de concepts textuels pour la recherche et l’annotation interactives d’images

Nhu Van Nguyen

Thèse soutenue le 9 Septembre 2011

Manuscrit
Soutenance

Directeur de thèse : Jean-Marc Ogier

Encadrant scientifique : Alain Boucher et Salvatore Tabbone

Mots clés : recherche d’images multimodale, annotation interactive d’images, retour de pertinence, représentation de concepts, apprentissage par renforcement

Résumé :

En recherche d’images aujourd’hui, nous manipulons souvent de grands volumes d’images, qui peuvent varier ou même arriver en continu. Dans une base d’images, on se retrouve ainsi avec certaines images anciennes et d’autres nouvelles, les premières déjà indexées et possiblement annotées et les secondes en attente d’indexation ou d’annotation. Comme la base n’est pas annotée uniformément, cela rend l’accès difficile par le biais de requêtes textuelles. Nous présentons
dans ce travail différentes techniques pour interagir, naviguer et rechercher dans ce type de bases d’images. Premièrement, un modèle d’interaction à court terme est utilisé pour améliorer la précision du système. Deuxièmement, en se basant sur un modèle d’interaction à long terme, nous proposons d’associer mots textuels et caractéristiques visuelles pour la recherche d’images par le texte, par le contenu
visuel, ou mixte texte/visuel. Ce modèle de recherche d’images permet de raffiner itérativement l’annotation et la connaissance des images.
Nous identifions quatre contributions dans ce travail. La première contribution est un système de recherche multimodale d’images qui intègre différentes sources de données, comme le contenu de l’image et le texte. Ce système permet l’interrogation par l’image, l’interrogation par mot-clé ou encore l’utilisation de requêtes hybrides.
La deuxième contribution est une nouvelle technique pour le retour de pertinence combinant deux techniques classiques utilisées largement dans la recherche d’information : le mouvement du point de requête et l’extension de requêtes. En profitant des images non pertinentes et des avantages de ces deux techniques classiques, notre méthode donne de très bons résultats pour une recherche interactive d’images efficace. La troisième contribution est un modèle nommé "Sacs de KVR" (Keyword
Visual Representation ) créant des liens entre des concepts sémantiques et des représentations visuelles, en appui sur le modèle de Sac de Mots [Sivic 2008]. Grâce à une stratégie d’apprentissage incrémental, ce modèle fournit l’association entre concepts sémantiques et caractéristiques visuelles, ce qui contribue à améliorer la
précision de l’annotation sur l’image et la performance de recherche. La quatrième contribution est un mécanisme de construction incrémentale des connaissances à partir de zéro. Nous ne séparons pas les phases d’annotation et de recherche, et l’utilisateur peut ainsi faire des requêtes dès la mise en route du système, tout en
laissant le système apprendre au fur et à mesure de son utilisation.
Les contributions ci-dessus sont complétées par une interface permettant la visualisation et l’interrogation mixte textuelle/visuelle. Même si pour l’instant deux types d’informations seulement sont utilisées, soit le texte et le contenu visuel, la généricité du modèle proposé permet son extension vers d’autres types d’informations
externes à l’image, comme la localisation (GPS) et le temps.

publie le jeudi 22 septembre 2011