Auteur :
Denis
Xavier,
Simon
Gaele,
Chanchevrier
Nicolas
Type : Article
Thème : Veille
Couverture : France
Il existe de nombreuses techniques qui permettent de classifier des documents textuels en fonction du centre d’intérêt d’un utilisateur (kNN, SVM, . . .). Malheureusement, l’intégration de ces méthodes dans des plate-formes de textmining est souvent très statique et ne permet pas facilement d’affiner les traitements et/ou résultats au cours du temps. Le but de cet article est de présenter une plate-forme de webmining dans laquelle les données hétérogènes sont représentées uniformément selon un formalisme XML/TEI et ou l’utilisateur peut interagir sur les processus de récupération et d’analyse de ces données. Pour cela, les modules de traitements sont représentés par des agents fonctionnant sur la plate-forme MadKit et l’apprentissage se fait sur une méthode dérivée de VSM et TFIDF utilisant un principe de listes noires pondérées permettant la reconnaissance de documents indésirables. La dynamique de la plate-forme repose principalement sur la possibilité d’ajouter à la volée des agents de traitement et de pouvoir modifier l’ordre et les paramètres d’analyse des documents.