Auteur :
Douzidia
Fouad Soufiane
Année de Publication :
2004
Type : Thèse / Mémoire
Thème : Généralités analyse de l'information
La forte augmentation de texte disponible en format numérique a fait ressortir la nécessité de concevoir et de développer des outils de résumé performants dans le but de repérer et extraire l'information pertinente sous une forme abrégée. Les textes arabes ne font pas exception quant à leur disponibilité mais ils manquent d'outils de traitements automatiques.
Ce mémoire propose une méthode de production de résumés pour les textes arabes. Notre démarche méthodologique consistait à étudier : les caractéristiques de la langue arabe, un corpus de texte journalistique arabe et les techniques utilisées dans le résumé automatique. L'objectif de cette étude fut de repérer les traits caractérisant le contenu essentiel d'un article, d'identifier des marqueurs linguistiques énonçant des concepts importants et d'adapter les techniques de résumé automatique aux textes arabes.
Lakhas, le système de résumé automatique de textes arabes que nous avons développé est basé sur des techniques d'extraction qui ont déjà fait leurs preuves pour d’autres langues comme l'anglais.
Nous avons montré la qualité de nos résultats au moyen de deux évaluations au cours desquelles nous avons comparé les résumés produits par Lakhas avec d'autres technologies de production de résumé automatique. Grâce aux techniques de compression que nous avons introduites à Lakhas, nous avons pu montrer lors d'une compétition d'évaluation de résumé automatique, que les traductions des résumés produits par Lakhas étaient meilleurs par rapport à des résumés produits à partir de textes traduits. De plus, notre étude a fait ressortir la nécessité de travailler sur les textes dans leur langue originale au lieu de textes traduits pour l'obtention de meilleurs résumés.