Auteur :
Toussaint
Yannick,
Namer
Fiammetta,
Daille
Béatrice
...[et al.]
Date de publication : 12/06/1998
Type : Actes de congrès / Séminaire / Atelier
Thème : Indexation
Couverture : France
Cet article présente une chaîne de traitement automatique réalisée dans le cadre du projet ILIAD (Informatique Linguistique et Infométrie pour l’Analyse de grands fonds Documentaires) du GIS Sciences de la Cognition. Cette chaîne est dédiée à l’analyse de l’information à partir de corpus de textes de très grand volume, en français. Elle est expérimentée sur un corpus de 2,5 Mb et a conduit à la création de 50 classes de termes. Ces classes sont construites sur la base de la cooccurrence des termes et représentent des connaissances du domaine. Les différentes étapes de la chaîne associent des méthodes linguistiques informatiques et des méthodes statistiques : pré-traitement des textes, étiquetage, morphologie, terminologie et analyse des documents. Pour chacune d’entre elles, nous présentons les méthodes, les outils ainsi que leur évaluation.