Actualités > Séminaire de Jean-Charles Lamirel
Jean-Charles Lamirel
Université de Strasbourg - Universite de Tartu (Estonie), Equipe SYNALP (ex. INRIA TALARIS) - LORIA - Nancy
Le 23/04/2015 à 14h, salle 018, RDC bâtiment PASCAL, Pôle Sciences et Technologie, Université de La Rochelle.
Titre : La maximisation des traits : une nouvelle approche incrémentale flexible pour l’analyse précise des grandes collections de données dynamiques
Résumé : Etant donné l’évolution de la notion de texte et la croissance continue des informations textuelles, de multiples natures, qui sont disponibles en ligne, un des challenges importants pour les linguistes et les analystes de l’information, afin de pouvoir formuler des hypothèses et de valider des modèles, est d’exploiter des outils efficaces pour l’analyse textuelle, capables de s’adapter à des volumes importants de données hétérogènes, changeantes et souvent et de nature distribuée. Nous nous proposons dans cet exposé de présenter de nouvelles méthodes statistiques qui s’inscrivent dans ce cadre, mais qui peuvent également étendre leur champ d’application au contexte plus général de données numériques dynamiques.
Les mesures les plus couramment utilisées pour l’analyse textuelle sont des mesures distributionnelles qui reposent généralement sur l’entropie ou sur la métrique du Chi2, ou encore des mesures vectorielles, comme la distance euclidienne ou la corrélation cosinus. Nous avons montré dans plusieurs cadres différents, comme dans celui du projet QUAERO, que ces approches présentaient de fortes limitations dans le cas du traitement de données très déséquilibrées, hétérogènes et très fortement multidimensionnelles, comme c’est très souvent le cas pour les données textuelles.Nous avons récemment proposé une mesure alternative basée sur la maximisation des traits qui n’a pas ces inconvénients [LAM 11]. Le principe de cette mesure est de définir une fonction de compromis entre la généralité et discrimination en se basant à la fois sur les propriétés des données qui sont spécifiques à chaque groupe, issus d’un processus de regroupement, et celles qui sont partagés entre les groupes. L’un des avantages-clés de cette mesure est qu’elle est opérationnelle en mode incrémental, aussi bien dans le cadre du clustering (classification non supervisée) que dans celui de la catégorisation traditionnelle. Nous avons montré qu’elle permettait de résoudre très efficacement des problèmes multidimensionnels très complexes liés à l’analyse non supervisée de données textuelles et linguistiques, comme le suivi de sujets de recherche changeant au cours du temps (projet IST PROMTECH) [LAM 12] ou la classification automatique des verbes du français [FAL 12][LAM 14a]. Nous avons également montré qu’elle pouvait facilement être exploitée dans l’analyse discriminante traditionnelle, fréquemment utilisée en linguistique, pour la catégorisation de textes, ou encore, pour l’indexation automatique ou la synthèse de textes, avec des performances de loin supérieures aux méthodes conventionnelles [LAM 14b]. D’une manière plus générale, cette technique qui s’affranchit de l’exploitation des paramètres peut être considérée comme une méthode puissante de sélection de variables et de ré-échantillonnage de données dans n’importe quel contexte numérique [LAM 14b].
Nous présenterons dans cet exposé les principes généraux de la mesure de maximisation des traits et nous reviendrons sur ses diverses applications à succès dans les cadres supervisés et non supervisés, en comparant ses performances avec celles des méthodes de l’état de l’art sur des données de référence. Nous montrerons les avantages supplémentaires liés à son intégration dans une approche flexible basée sur les points de vue multiples et sur le raisonnement bayésien non supervisé [LAM 10]. A titre de perspective, nous discuterons finalement de son intérêt pour la caractérisation des sujets et des acteurs-clés dans les réseaux sociaux, ainsi que pour la caractérisation de leur dynamique.