Visualisation de thèmes de recherche à l'aide d'outils de traitement automatique du langage
Encadrants
- Matthieu Labeau
- Emails: matthieu.labeau@telecom-paris.fr
- Bureaux: 5C15
Nombre d'étudiant par instance du projet:
- Minimum: 4
- Maximum: 4
Nombre d'instances du projet :
1Sigles des UE couvertes et/ou Mots-clés :
Visualisation d'un corpus de documents, Traitement automatique du langageDescription du projet :
Le but du projet est de recenser les différents types de visualisations permettant de résumer les thèmes d'un ensemble de documents, et de les appliquer à la visualisation des travaux de recherche d'une équipe du LTCI, à partir des pages personnelles de ses membres. Un but secondaire du projet est de proposer une approche interactive, permettant à l'utilisateur d'organiser la visualisation suivant des concepts qu'il aura choisi.
Objectifs du projet :
Le groupe de travail devra commencer par récolter les données; les transformer en un format approprié et les pré-traiter. Ce projet est ouvert à l'utilisation de données d'un format similaire, proposées par le groupe !
Le groupe de travail pourra dans un premier temps utiliser des logiciels dédiés à l'analyse d'un corpus de documents, puis pourra appliquer lui-même des techniques issues du traitement automatique du langage, pour un meilleur contrôle des résultats et pour faciliter leur interprétation.
Le groupe pourra enfin effectuer une comparaison avec des résultats obtenus à l'aide de modèles génératifs modernes.
Logiciels requis:
Python
Références bibliographiques:
A Survey of Visual Analytics Techniques for Machine Learning (Jun Yuan, Changjian Chen, Weikai Yang, Mengchen Liu, Jiazhi Xia, Shixia Liu, 2020)
KeywordScape: Visual Document Exploration using Contextualized Keyword Embeddings (Henrik Voigt, Monique Meuschke, Sina Zarrieß and Kai Lawonn, 2022)