Actualités > Séminaire de Gaël Lejeune
Gaël Lejeune
LINA, Université de Nantes
Le 26/03/2015 à 15h, salle 018, RDC bâtiment PASCAL, Pôle Sciences et Technologie, Université de La Rochelle.
Titre : Méthodes robustes et parcimonieuses pour l’analyse des données textuelles
Résumé : Le domaine de l’analyse des données textuelles se heurte à un certain nombres de verrous parmi lesquels figurent le multilinguisme, le bruitage et la massification des données. Nous présenterons un cadre méthodologique qui vise à lever ces verrous. Nous nous appuyons sur les propriétés structurelles des données en langue naturelle dans une approche dite "holiste", à opposer à l’approche réductionniste plus couramment utilisée en Traitement Automatique des Langues.
Notre cadre s’articule autour de deux principes forts : la robustesse (à la variation en langue, au bruitage...) et la parcimonie (en ressources impliquées, en temps de calcul...).
Nous montrerons différentes applications pour lesquelles nous avons exploité ce cadre méthodologique : extraction d’information dans le domaine épidémiologique, identification automatique d’auteurs, extraction de mots-clés, classification de nouvelles, évaluation du nettoyage de pages web...
Enfin, nous présenterons quelques conclusions et perspectives de travail autour de ces principes.