La plateforme DAE : fouille, interprétation et sémantique de documents par le prisme de l’évaluation de performances.
La plateforme DAE : fouille, interprétation et sémantique de documents par le prisme de l’évaluation de performances.
Bart Lamiroy (Loria, Nancy)
Résumé :
La plateforme DAE a été développée à Lehigh University, en collaboration avec le LORIA à Nancy. L’objectif initial de cette plateforme était de permettre aux domaines liés à la reconnaissance de formes et de perception artificielle (et plus spécifiquement celui de l’analyse d’images de documents) d’appliquer un ensemble de bonnes pratiques de la recherche expérimentale, conduisant à des comptes-rendus d’expériences traçables, reproductibles et comparables. De ce point de vue, la plateforme se présente comme une ressource d’accès à des données expérimentales, des catalogues d’algorithmes, et des résultats d’exécution ou encore des annotations et interprétations des données.
Une partie de cet exposé abordera les propriétés de cette plateforme et comment elle promeut, sans changement notable des pratiques de chaque individu, des expériences reproductibles et vérifiables à tous les niveaux, et comment elle a été utilisée avec succès dans des concours organisés à l’occasion de conférences internationales tels qu’ICDAR et GREC 2011.
La seconde partie de l’exposé abordera des effets de bord particulièrement inattendus et déroutants induits pas l’utilisation de cette plateforme. Ses fonctionnalités de traçabilité et de gestion de la « provenance » des données lui permettent de concevoir les notions d’interprétation et de sémantique de documents comme des résultats d’algorithmes et de modéliser la notion de contexte à travers la fouille de données.
L’exposé se prolongera par une partie atelier pratique optionnelle, consacrée à la prise en main et l’utilisation de la plateforme.
Abstract :
The DAE platform was developed at Lehigh University, in collaboration with the LORIA in Nancy. Its initial goal was to allow pattern recognition and machine perception research (and more specifically Document Image Analysis) to apply sound experimental practices ; expecially rendering experimental reporting traceable, reproducible and comparable. Taken from this angle, the platform consists in a global resource for access to experimental data, a catalog of algorithms and the results of experimental runs as well as annotations and interpretations of these data.
One part of this talk addresses the features of this platform, and how it contributes, without notable changes in individual practice, to reproducible and verifiable experimental research. It will also detail how the platform has been effectively used in contests run at international events like ICDAR et GREC 2011.
The second part of this talk introduces a completely unexpected and puzzling side effect of the platform’s practical use. Its traceability and provenance storage features make it possible to shed a new light on notions like “interpretation” and “semantics”. By considering both as being the results of algorithms, applied to document data, it becomes possible to study legitimate differences in interpretation, and to consider formalizing “context” as the result of a data mining process.
The talk will extend, for those who are interested, into a hands-on workshop, dedicated to the practical use of the platform.