Annuaire > Dao Ngoc Bich

Docteure en Informatique
Laboratoire L3i
Département informatique
Pôle Sciences et Technologie

Thèse de doctorat soutenue en Juin 2017

Réduction de dimension de sac de mots visuels grâce à l’Analyse Formelle de Concepts

Mots clés
Réduction de dimension, sélection d’attributs, treillis, irréductible, analyse formelle de concepts, modèle de sac de mots visuels, graphe de précédence, graphe de précédence flou, méthode algébrique, logique floue.

Résumé
La réduction des informations redondantes et/ou non-pertinentes dans la description de données est une étape importante dans plusieurs domaines scientifiques comme les statistiques, la vision par ordinateur, la fouille de données ou l’apprentissage automatique.
Dans ce manuscrit, nous abordons la réduction de la taille des signatures des images par une méthode issue de l’Analyse Formelle de Concepts (AFC), qui repose sur la structure du treillis des concepts et la théorie des treillis. Les modèles de sac de mots visuels consistent à décrire une image sous forme d’un ensemble de mots visuels obtenus par clustering. La réduction de la taille des signatures des images consiste donc à sélectionner certains de ces mots visuels. Dans cette thèse, nous proposons deux algorithmes de sélection d’attributs (mots visuels) qui sont utilisables pour l’apprentissage supervisé ou non.
Le premier algorithme, RedAttSansPerte, ne retient que les attributs qui correspondent aux irréductibles du treillis. En effet, le théorème fondamental de la théorie des treillis garantit que la structure du treillis des concepts est maintenue en ne conservant que les irréductibles. Notre algorithme utilise un graphe d’attributs, le graphe de précédence, où deux attributs sont en relation lorsque les ensembles d’objets à qui ils appartiennent sont inclus l’un dans l’autre. Nous montrons par des expérimentations que la réduction par l’algorithme RedAttsSansPerte permet de diminuer le nombre d’attributs tout en conservant de bonnes performances de classification.
Le deuxième algorithme, RedAttsFloue, est une extension de l’algorithme RedAttsSansPerte. Il repose sur une version approximative du graphe de précédence. Il s’agit de supprimer les attributs selon le même principe que l’algorithme précédent, mais en utilisant ce graphe flou. Un seuil de flexibilité élevé du graphe flou entraîne mécaniquement une perte d’information et de ce fait une baisse de performance de la classification. Nous montrons par des expérimentations que la réduction par l’algorithme RedAttsFloue permet de diminuer davantage l’ensemble des attributs sans diminuer de manière significative les performances de classification.

Abstract
In several scientific fields such as statistics, computer vision and machine learning, redundant and/or irrelevant information reduction in the data description (dimension reduction) is an important step. This process contains two different categories : feature extraction and feature selection, of which feature selection in unsupervised learning is hitherto an open question. In this manuscript, we discussed about feature selection on image datasets using the Formal Concept Analysis (FCA), with focus on lattice structure and lattice theory. The images in a dataset were described as a set of visual words by the bag of visual words model. Two algorithms were proposed in this thesis to select relevant features and they can be used in both unsupervised learning and supervised learning.
The first algorithm was the RedAttSansPerte, which based on lattice structure and lattice theory, to ensure its ability to remove redundant features using the precedence graph. The formal definition of precedence graph was given in this thesis. We also demonstrated their properties and the relationship between this graph and the AC-poset. Results from experiments indicated that the RedAttsSansPerte algorithm reduced the size of feature set while maintaining their performance against the evaluation by classification.
Secondly, the RedAttsFloue algorithm, an extension of the RedAttsSansPerte algorithm, was also proposed. This extension used the fuzzy precedence graph. The formal definition and the properties of this graph were demonstrated in this manuscript. The RedAttsFloue algorithm removed redundant and irrelevant features while retaining relevant information according to the flexibility threshold of the fuzzy precedence graph. The quality of relevant information was evaluated by the classification. The RedAttsFloue algorithm is suggested to be more robust than the RedAttsSansPerte algorithm in terms of reduction.

Principales publications

Conférence internationales avec comité de lecture (papiers complets)

  • Ngoc Bich DAO, Sebastien ESKENAZI, Karell BERTET, Arnaud REVEL ; A fuzzy precedence graph definition for algebra-based dimension reduction ; The annual IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), Vancouver (Canada), 24-29 Juillet, 2016.
  • Ngoc Bich DAO, Karell BERTET, Arnaud REVEL ; Reduction dimension of bag of visual words ; International Conference of Concept Lattices and their Applications (CLA), Kosice (Slovaquie), 7-10 October 2014, p.219-230.

Workshop avec comité de lecture

  • Ngoc Bich DAO, Arnaud REVEL, Michel MENARD ; Simulation models for grassland ecosystem and inter-species plant competition – Integration in NetLogo ; Workshop Proceedings of GEODIFF, in conjunction with VISIGRAPP, Barcelone (Espagne), 21-24 Février 2013.

Activités d’enseignement

2012 – 2014 Enseignante vacataire à la faculté des Sciences et Technologies, université de La Rochelle pour un total de 79.5h HETD.

HeuresNiveauCoursThèmes abordésMes contributions
14h Master 2 ICONE UE Recherche, parcours IID Optimisation d’indexation textuelle à l’aide de générateurs minimaux Encadrement et suivi d’un projet
Evaluation de la soutenance et du rapport
48h Licence 3 Info Déduction et programmation logique Prolog, algorithme de chaînage en java, systèmes experts, optimisation de contraintes TP : Réalisation des TPs
Correction d’examen
15h Licence 3 Info Interface Homme-Machine C#, Windows Forms, transformation 2D, contrôles utilisateurs, application graphique, sérialisation TP : Réalisation des TPs
Correction d’examen
30h Licence 1 sciences et droit Informatique d’usage QCM, éditeur de texte, tableur de calcul, travail collaboratif TP : Réalisation des TPs
Correction d’examen

Activités administratives et collectives

  • Membre du comité d’organisation de la 10ème conférence Concept Lattices and their Applications (CLA) 2013 à La Rochelle.
  • Membre du comité d’organisation de la Journée des Ingénieurs, Doctorants, ATER et Postdocs du laboratoire L3i 2013.