Conférence
Notice
Lieu de réalisation
Dijon
Langue :
Français
Crédits
Matthieu Bach (Intervention), Arnaud Da Costa (Intervention)
Détenteur des droits
Matthieu Bach & Arnaud Da Costa
Conditions d'utilisation
Droit commun de la propriété intellectuelle
DOI : 10.60527/ypdt-th33
Citer cette ressource :
Matthieu Bach, Arnaud Da Costa. Progedo. (2020, 11 décembre). Twitter et la linguistique située : réflexions méthodologiques à partir de l’exemple de tweets sur la métropole de Dijon-PUDD. [Vidéo]. Canal-U. https://doi.org/10.60527/ypdt-th33. (Consultée le 25 avril 2025)

Twitter et la linguistique située : réflexions méthodologiques à partir de l’exemple de tweets sur la métropole de Dijon-PUDD

Réalisation : 11 décembre 2020 - Mise en ligne : 12 juillet 2024
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

Cette communication s’inscrit dans le cadre du projet de recherche interdisciplinaire POPSU visant à entre autres à analyser l’identité métropolitaine et identifier les intérêts des citoyens. Pour alimenter la discussion proposée, nous exploiterons un corpus original de 300 000 tweets collectés en temps réel depuis juillet 2019 dans le cadre du projet interdisciplinaire POPSU Dijon, hébergé à la MSH Dijon et dont le but est d’explorer les interactions des utilisateurs de Twitter lorsqu’ils parlent de Dijon et de la métropole.

Nous commencerons par discuter les aspects liés à la collecte de données Twitter :

- juridiques : protections des données personnelles, Open Data

- relatifs à la constitution du jeu de données : où placer le curseur entre l’exhaustivité des données recueillies et le risque de recueillir des données trop éloignées de l’objet d’étude (au niveau temporel, géographique ou thématique) ;

- techniques : liés à l’API gratuite de Twitter (différentes méthodes de collectes et leur exhaustivité) ;

- relatifs aux jeux de données dont les traitements ne nécessitent pas d’infrastructure Big Data

Les questionnements informatiques sont consubstantiels aux interrogations linguistiques qui ont émaillé l’ensemble de ce projet à l’interface entre informatique, linguistique et géographie. Les données collectées nous ont amenés à évaluer leur intégrité et leur mise en corpus ; cette phase de réflexion est fondamentale dans le cadre de l’analyse de discours, qui était le but initial du projet de recherche. Or, si l’intégrité du corpus n’est pas garantie, une analyse de discours ne peut être envisagée en tant que telle (cf. la définition séminale de Busse/Teubert 1994). Cette mise en défaut n’est toutefois pas rédhibitoire dans la mesure où les données Twitter peuvent alimenter d’autres réflexions linguistiques et amener à considérer d’autres nœuds entre matérialisations linguistiques et structures épistémiques. En tant que source de données hypersynchroniques, Twitter permet une analyse de phénomènes linguistiques contemporains et authentiques (cf. la réflexion menée dans Bach 2020) ; toutefois, Twitter n’est pas un instrument magique pour la linguistique située, et un certain nombre de desiderata sont à formuler en ce sens pour une démarche scientifique rigoureuse (c’est-à-dire falsifiable et en accord avec les innovations issues des autres champs de la cognition).

Intervention

Avec les mêmes intervenants et intervenantes

Sur le même thème