Le petit monde des mots

Ce projet a été attribué.

Encadrants

  • Thomas Bonald
  • Emails: thomas.bonald@telecom-paris.fr
  • Bureaux: 4C022

Nombre d'étudiant par instance du projet:

  • Minimum: 4
  • Maximum: 5

Nombre d'instances du projet :

2

Sigles des UE couvertes et/ou Mots-clés :

Graphes, IA

Image

project image

Description du projet :

Les mots du vocabulaire courant peuvent être liés entre eux par associations. Par exemple, le mot "vache" peut être associé aux mots "lait", "ferme", "pré", "veau", etc. On obtient un graphe dirigé dont les sommets sont les mots et les liens les associations. Ce graphe est en général un petit monde, au sens où deux mots quelconques du vocabulaire sont reliés par un chemin court. C'est le petit monde des mots.

Des petits mondes de mots ont déjà été créés dans différentes langues (anglais, allemand, espagnol, français, chinois, etc.) en interrogeant des milliers de participants sur Internet :
https://smallworldofwords.org/fr/project/home/

Objectifs du projet :

L'objectif du projet est de créer de tels graphes de manière automatique à l'aide d'IA génératives. En demandant par exemple à ChatGPT les mots associés au mot "vache", on obtient les mots "ferme", "lait", "pâturage", "veau", "meuglement", "étable", "cloche", "ruminant", "corde". Les élèves devront, pour chaque langue choisie, construire un graphe de mots en interrogeant une IA en accès libre (comme Mistral).

Ensuite, les élèves devront analyser la structure de ces graphes, les visualiser, en extraire les mots-clés, et identifier des différences structurelles entre les langues. Si le temps le permet, ils pourront également utiliser ces graphes pour entrainer des IAs à jouer à des jeux basés sur les mots, comme "Fiesta de los Muertos" ou "Codenames". D'autres applications pourront être envisagées.

Logiciels requis:

Code utilisé pour construire le petit monde des mots à partir des réponses des humains :
https://github.com/SimonDeDeyne/SWOWEN-2018/tree/master/output/2018

Une approche pour construire un petit monde de mots à partir d'IAs génératives :
https://github.com/LLMWorldOfWords/LWOW.

Références bibliographiques:

De Deyne, S., Navarro, D. J., Perfors, A., Brysbaert, M., & Storms, G. (2019). The “Small World of Words” English word association norms for over 12,000 cue words. Behavior research methods, 51, 987-1006.

Abramski, K., Improta, R., Rossetti, G., & Stella, M. (2024). The" LLM World of Words" English free association norms generated by large language models. arXiv preprint arXiv:2412.01330.