Notice
Utiliser les R Notebooks en traitement automatique des langues. Un exemple de classification automatique supervisée de mémoires et thèses universitaires
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
L’objectif de cette contribution est de présenter l’exploitation des R Notebooks par l’intermédiaire des logiciels R et RStudio dans le cadre d’un projet pilote en traitement automatique des langues de classification automatique des mémoires et des thèses catalogués au sein du dépôt institutionnel de l’Université du Québec à Chicoutimi.
Plus précisément, la présente contribution vise à proposer quelques démonstrations, par l’entremise de RStudio, qui porteront, entre autres, sur l’extraction automatique du texte brut de documents PDF, sur le nettoyage du texte à l’aide d’expressions régulières, mais aussi sur l’utilisation d’un modèle de classification automatique supervisée (un modèle eXtreme Gradient Boosting) des textes en six catégories (éducation, gestion et administration, linguistique, théologie, études régionales et travail social).
Vincent Arnaud, Kevin Bouchard & Gilles-Philippe Morin (Université du Québec à Chicoutimi)
Thème
Dans la même collection
-
Adressbuch 1854
1ère intervention de la 2e session du colloque DHNord 2021
-
Vers un écosystème d'écriture et d'édition avec les données
SAURET Nicolas
2e intervention de la 8e session du colloque DHNord 2021
-
Phoebus e-Balzac : édition numérique exhaustive d’un monument littéraire
2e intervention de la 4e session du colloque DHNord 2021
-
Outils et infrastructures
Table ronde de la 5e journée du colloque DHNord 2021
-
Le Journal of Open Humanities Data : enjeux et défis dans la publication de data papers pour les SHS
3e intervention de la 1ère session du colloque DHNord 2021
-
Des articles et des données : L’écosystème des data papers
SCHöPFEL Joachim
Conférence plénière de la 4e journée du colloque DHNord 2021
-
Découvrir le Journal of Digital History
Conférence plénière de la 2e journée du colloque DHNord 2021
-
Comment passer de l'entrepôt de données aux data papers ? Retour sur l'expérience de data.sciencesp…
3e intervention de la 8e session du colloque DHNord 2021
-
D'artefacts archéologiques à artefacts documentaires : les data papers en archéologie. Le cas du Jo…
BOUKACEM-ZEGHMOURI Chérifa
1ère intervention de la 1ère session du colloque DHNord 2021
-
Cultures visuelles en SHS. Construire un corpus de 470 000 images scientifiques avec du deep learni…
LANGLAIS Pierre-Carl
3e intervention de la 4e session du colloque DHNord 2021
-
Le data paper : une nouvelle forme de publication scientifique en SHS
Table ronde de la 1ère journée du colloque DHNord 2021
-
HTR-United : mutualisons la vérité de terrain !
1ère intervention de la 8e session du colloque DHNord 2021