Modélisation du langage et algorithmes randomisés

Encadrants

  • Nils Holzenberger
  • Emails: nils.holzenberger@telecom-paris.fr
  • Bureaux: 4C44

Nombre d'étudiant par instance du projet:

  • Minimum: 4
  • Maximum: 5

Nombre d'instances du projet :

1

Sigles des UE couvertes et/ou Mots-clés :

traitement du langage naturel, algorithmes randomisés, modélisation du langage

Description du projet :

Les modèles actuels de traitement du langage naturel, comme par exemple ChatGPT, s'appuient depuis quelques années sur la modélisation du langage. Typiquement, un modèle paramétrique est utilisé pour définir une loi de probabilité, puis les paramètres sont ajustés à l'aide de données et d'algorithmes d'apprentissage automatique. Concrètement, on fait tourner des gros modèles d'IA pendant longtemps sur beaucoup de machines et sur une quantité astronomique de données.

Ce projet propose de faire de la modélisation du langage, mais avec d'autres outils. La loi de probabilité sera paramétrée par un modèle n-gramme ; et l'apprentissage se fera avec un algorithme randomisé, qui permet d'économiser beaucoup en complexité en espace, et de contrôler précisément la quantité de mémoire requise. L'idée sera ensuite de comparer cette approche à un modèle de langage standard.

A l'issue de ce projet, (1) vous saurez comment fonctionnent la majorité des algorithmes de traitement du langage naturel et (2) vous comprendrez la base des algorithmes de streaming, très utilisés pour les gros volumes de données (réseaux, cybersécurité...).

Objectifs du projet :

- Implémenter un modèle n-gramme randomisé, et l'entrainer sur un corpus standard
- Mesurer la perplexité atteinte par un modèle n-gramme randomisé (sur un corpus d'évaluation standard)
- Mesurer l'influence de la mémoire requise par le modèle sur la perplexité

Références bibliographiques:

Charikar, M., Chen, K., & Farach-Colton, M. (2002, June). "Finding frequent items in data streams." In International Colloquium on Automata, Languages, and Programming (pp. 693-703).
May, Chandler, et al. "Streaming word embeddings with the space-saving algorithm." arXiv preprint arXiv:1704.07463 (2017).
Talbot, D., & Brants, T. (2008, June). "Randomized language models via perfect hash functions." In Proceedings of ACL-08: HLT (pp. 505-513).