Auteur :
Quatrain
Yasmina
Sylvaine
Nugier et al.
Année de Publication :
0
Type : Article
Thème : Outils de traitement des informations
Dans le contexte de l’ouverture du marché de l’électricité, EDF désire analyser les gros volumes de données textuelles qui lui permettront de mieux connaître ses clients. Dans cette optique, plusieurs outils de text mining destinés à l’analyse de cette information hétérogène de taille importante ont fait l’objet d’une évaluation à l’aide de trois corpus de nature différente. La constitution d’une grille de test facilitant la comparaison des logiciels est apparue indispensable. Inspirée d’une expertise sur les outils de data mining, elle a été réalisée en évitant de privilégier la communauté statistique au détriment de la linguistique. Cette grille se compose de dix thèmes variant de la société éditrice aux champs d’application en passant par l’accès aux données et l’analyse du tableau lexical. Outre le déroulement de l’évaluation et ses résultats sur quatre outils du marché (Alceste, SAS Text Miner, TEMIS Insight Discoverer et SPAD/CRM), cet article retrace la démarche de constitution de la grille de test, le choix des outils évalués et les critères retenus. Il conclut sur l’existence de deux types d’outils en text mining : ceux statistiques enrichis d’un module de traitement du texte et ceux originellement linguistiques. De plus, cette expérience conforte l’utilisation d’un protocole détaillé permettant de déterminer et évaluer les fonctionnalités incontournables en fonction des objectifs et du profil de l’utilisateur du logiciel et de la nature du corpus à analyser.