Analyses de texte pour la compréhension de mondes sociaux

Encadrants

  • Tiphaine Viard
  • Emails: tiphaine.viard@telecom-paris.fr
  • Bureaux: 3A319

Nombre d'étudiant par instance du projet:

  • Minimum: 4
  • Maximum: 5

Nombre d'instances du projet :

1

Sigles des UE couvertes et/ou Mots-clés :

sociologie, python, classification hiérarchique, analyse de textes

Image

project image

Description du projet :

Ce projet s'intéresse à l'analyse narrative de corpus de textes pour la sociologie. Il s'agit, étant donné un ensemble de textes (des articles, des commentaires sur les réseaux sociaux...), d'être capable de faire un partitionnement hiérarchique thématique des différents courants exprimés dans le corpus. La figure présente un exemple sur un corpus d'environ 400 chartes discutant de l'éthique de l'intelligence artificielle.

Comprendre ces thématiques, au delà d'un enjeu technique, offre un point d'entrée vers une compréhension fine des mondes sociaux, c'est-à-dire de la façon dont différents acteur⋅ices et organisations conceptualisent un sujet, négocient son sens, et s'affrontent pour l'espace conceptuel. c'est une clef d'analyse et de compréhension permettant à la fois de comprendre les processus sociaux à l’œuvre, mais également d'éclairer les arbitrages de régulation, comme peut le faire la Commission Européenne autour de l'intelligence artificielle.

La méthode ALCESTE, implémentée dans le logiciel Iramuteq, propose un clustering non supervisé d'un corpus de textes, suivi d'une réduction de dimension pour la visualisation.
De par sa simplicité technique et sa flexibilité, la méthode s'est fait une place de choix dans les analyses textométriques en sciences sociales. Cependant, elle repose principalement sur un logiciel daté, peu flexible et en R. Là où le logiciel est adapté pour des sociologues familiers avec les méthodes quantitatives mais peu familiers avec la programmation, il s'avère limité pour des personnes plus à l'aise avec l'informatique.

L'objectif du projet est de s'approprier l'article présentant la méthode et la réimplémenter, en Python, dans un contexte efficace sur des données volumineuses. Il s'agit d'implémenter toute la chaîne de travail qui va de la lecture du matériau source (un corpus de textes) à la visualisation des résultats (voir image du projet). Il s'agit d'intégrer cette méthode de calcul dans le cadre d'une librairie Python dédiée aux sciences sociales computationnelles.

Si le temps et l'envie sont présents, il est tout à fait possible d'étendre le travail à d'autres méthodes d'analyse, voire à l'analyse originale d'un corpus de textes, au choix des étudiant⋅es.

Objectifs du projet :

Développement python de la méthode ALCESTE
Visualisation des résultats via une réduction de dimensions (type AFC)
Analyse fine d'un corpus de textes (à défaut, lié à l'éthique de l'IA, mais est sujet à changement selon les envies du groupe)

Logiciels requis:

Python, iramuteq

Références bibliographiques:

Reinert, M. (1998). Alceste. Analyse de donnes textuelles. Paris, Societé Image.
Becker, H. S. (1976). Art worlds and social types. American behavioral scientist, 19(6), 703-718.
Gornet, M., Delarue, S., Boritchev, M., & Viard, T. (2024, June). Mapping AI ethics: a meso-scale analysis of its charters and manifestos. In The 2024 ACM Conference on Fairness, Accountability, and Transparency (pp. 127-140).