Projets > Détection de fraude à partir du contenu

Projet industriel, 2013-2015

Responsable

Titre complet

Détection de fraude à partir du contenu

Mots clés

fraude, documents administratifs, analyse sémantique

Résumé du projet

De tout temps les sociétés humaines ont produit, stocké et échangé des données, des informations dans le but de transmettre des connaissances. Aujourd’hui, ces données sont majoritairement numériques, et elles sont stockées sur des ordinateurs et échangées sur des réseaux informatiques comme Internet. La dernière décennie a connu une augmentation fulgurante des données engendrées par les nouvelles technologies de l’information. Actuellement la quantité d’informations stockées de manière numérique double tous les dix-huit mois. Cette croissance exponentielle des données se traduit par une difficulté à organiser et à analyser ces informations brutes ouvrant pourtant de nouvelles voies sur les chemins de la connaissance.

La question n’est donc plus de disposer de l’information, mais de trouver l’information pertinente au bon moment tout en assurant sa validité. La détection de fraudes dans les documents numériques devient une priorité pour les administrations qui sont sujettes aux problèmes de falsifications et de "faux documents". La détection de fraude est un processus complexe qui nécessite une bonne connaissance du secteur d’activité afin d’identifier les éléments clés à vérifier.

Deux types de méthodes pour la détection de fraudes peuvent être identifiées :

  • les méthodes graphiques qui s’intéressent aux aspects bas-niveau du document en vérifiant la cohérence du document au niveau des pixels (détection de copier/coller, alignement des caractères, etc).
  • les approches sémantiques qui utilisent les mots contenus dans le document (résultat d’OCR). D’un point de vue sémantique, la vérification peut consister à vérifier l’existence d’un élément sémantique précis du document (n° SIRET par exemple), ou encore la cohérence entre ses éléments (n° SIRET + nom de l’entreprise).

Début

Janvier 2013

Fin

Janvier 2015

Chercheurs associés

Benjamin Duthil

publie le mercredi 22 octobre 2014