Problématique scientifique > Séquences d’Images : de la pellicule au flux vidéo (SI)
Depuis plus d’un siècle, l’enregistrement d’une séquence animée consiste en un échantillonnage temporel de la scène. Le flux ainsi produit a été d’abord enregistré comme une suite d’images fixes sous forme analogique (film, vidéo analogique), puis à la fin du 20ème sous forme numérique, en utilisant des techniques de compression de plus en plus élaborées.
Les premiers supports, analogiques et redondants, permettent de mettre en oeuvre des techniques de restauration, essentiellement en détectant les incohérence spatiales et temporelles qui produisent une gène visuelle lors de la restitution de la séquence. En se servant de la redondance des informations (voisinage spatial et temporel), on peut également rétablir une homogénéité visuelle. Il est ainsi possible de détecter les défauts impulsifs (poussières) ou temporellement persistantes (rayures) et reconstruire les informations altérés.
Ces mêmes notions s’appliquent à la détection et à la poursuite d’objets dans des séquences. L’objet à suivre est visuellement identifié dans une image parce qu’il contraste avec l’environnement (contours, différence colorimétrique, etc…) et l’on analyse la cohérence temporelle de présence de cet objet. Cette tâche est évidemment plus aisée en s’aidant d’un modèle, décrivant généralement l’évolution des trajectoires. Le suivi peut s’appliquer sur des objets de portée diverses : du simple points d’intérêt à un ensemble de primitives reliés entre eux selon un modèle simple (objet rigide) ou très complexe, comme les articulations d’un corps humain.
La détection et la poursuite d’objet constituent également les techniques de base d’une activité de recherche sur l’indexation de flux audio visuel - ou plus précisément la production de metadonnées correspondantes à ce flux. Il s’agit d’un défi d’envergure, la masse de flux audio-visuel ne cessant de s’accroître, et la normalisation du MPEG7 propose maintenant un cadre technique pour l’encapsulation de ces métadonnées. Ce découpage sémantique d’un flux audio-visuel peut s’effectuer à divers niveaux d’analyse. Il fait largement appel à une analyse intra-image s’il s’agit de détecter et de définir comme pertinent la présence d’un objet ; il nécessite l’analyse du contenu spatial et temporel de la séquence s’il faut détecter une geste. Evidemment, les flux audio-visuel ne contiennent pas que l’image. Le signal sonore est également porteur d’information. Certaines information textuelle se laisse extraire de l’image (incrustation, affichage de scores, texte écrit) et peuvent contribuer a améliorer la reconnaissance et l’indexation, qui deviennent alors multimodales.