Soutenances > Modèle computationnel d’attention pour la vision adaptative
Modèle computationnel d’attention pour la vision adaptative
Matthieu Perreira da Silva
Thèse soutenue le 10 Décembre 2010
Directeur de thèse : pascal Estraillier
Encadrants scientifiques : Vincent Courboulay et Armelle Prigent
Mots clés : Attention visuelle, vision par ordinateur, adaptation, systèmes dynamiques.
Résumé : L’analyse temps réel de la masse de données générée par les mécanismes de gestion de
la vision dans les applications interactives est un problème toujours ouvert, promettant
des avancées importantes dans des domaines aussi variés que la robotique, l’apprentissage
à distance ou les nouvelles formes d’interactions avec l’utilisateur, sans clavier ni
souris.
Dans le cadre général de la vision, les algorithmes d’analyse de scène doivent trouver
un compromis entre d’une part la qualité des résultats recherchés et d’autre part la quantité
de ressources allouable aux différents tâches. Classiquement, ce choix est effectué
à la conception du système (sous la forme de paramètres et d’algorithmes prédéfinis),
mais cette solution limite le champ d’application de celui-ci. Une solution plus flexible
consiste à utiliser un système de vision adaptatif qui pourra modifier sa stratégie d’analyse
en fonction des informations disponibles concernant son contexte d’exécution. En
conséquence, ce système doit posséder un mécanisme permettant de guider rapidement
et efficacement l’exploration de la scène afin d’obtenir ces informations.
Chez l’homme, les mécanismes de l’évolution ont mis en place le système d’attention
visuelle. Ce système sélectionne les informations importantes afin de réduire la charge
cognitive et les ambiguïtés d’interprétation de la scène.
Nous proposons, dans cette thèse, un système d’attention visuelle, dont nous définissons
l’architecture et les principes de fonctionnement. Ce dernier devra permettre
l’interaction avec un système de vision afin qu’il adapte ses traitements en fonction de
l’intérêt de chacun des éléments de la scène, i.e. ce que nous appelons saillance.
A la croisée des chemins entre les modèles centralisés et hiérarchiques (ex : [Koch 85],
puis [Itti 98]), et les modèles distribués et compétitifs (ex : [Desimone 95], puis [Deco 04,
Rolls 06]), nous proposons un modèle hiérarchique, compétitif et non centralisé. Cette
approche originale permet de générer un point de focalisation attentionnel à chaque pas
de temps sans utiliser de carte de saillance ni de mécanisme explicite d’inhibition de
retour. Ce nouveau modèle computationnel d’attention visuelle temps réel est basé sur
un système d’équations proies / prédateurs, qui est bien adapté pour l’arbitrage entre
un comportement attentionnel non déterministe et des propriétés de stabilité, reproductibilité,
et réactivité.
L’analyse des expérimentations menées est positive : malgré le comportement nondéterministe
des équations proies / prédateurs, ce système possède des propriétés intéressantes
de stabilité, reproductibilité, et réactivité, tout en permettant une exploration
rapide et efficace de la scène. Ces propriétés ouvrent la possibilité d’aborder différents
types d’applications allant de l’évaluation de la complexité d’images et de vidéos à la
détection et au suivi d’objets. Enfin, bien qu’il soit destiné à la vision par ordinateur,
nous comparons notre modèle au système attentionnel humain et montrons que celuici
présente un comportement aussi plausible (voire plus en fonction du comportement
défini) que les modèles classiques existants.