Conférence
Notice
Lieu de réalisation
En ligne
Langue :
Français
Détenteur des droits
MESHS (UAR 3185)
Citer cette ressource :
MESHS. (2021, 16 novembre). Utiliser les R Notebooks en traitement automatique des langues. Un exemple de classification automatique supervisée de mémoires et thèses universitaires , in DHNord 2021 : Publier, partager, réutiliser les données de la recherche. Les data papers et leurs enjeux. [Vidéo]. Canal-U. https://www.canal-u.tv/166118. (Consultée le 16 septembre 2025)

Utiliser les R Notebooks en traitement automatique des langues. Un exemple de classification automatique supervisée de mémoires et thèses universitaires

Réalisation : 16 novembre 2021 - Mise en ligne : 1 septembre 2022
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

L’objectif de cette contribution est de présenter l’exploitation des R Notebooks par l’intermédiaire des logiciels R et RStudio dans le cadre d’un projet pilote en traitement automatique des langues de classification automatique des mémoires et des thèses catalogués au sein du dépôt institutionnel de l’Université du Québec à Chicoutimi.

Plus précisément, la présente contribution vise à proposer quelques démonstrations, par l’entremise de RStudio, qui porteront, entre autres, sur l’extraction automatique du texte brut de documents PDF, sur le nettoyage du texte à l’aide d’expressions régulières, mais aussi sur l’utilisation d’un modèle de classification automatique supervisée (un modèle eXtreme Gradient Boosting) des textes en six catégories (éducation, gestion et administration, linguistique, théologie, études régionales et travail social).

Vincent Arnaud, Kevin Bouchard & Gilles-Philippe Morin (Université du Québec à Chicoutimi)

Projet MemoRekall

Thème

Dans la même collection