Notice
Utiliser les R Notebooks en traitement automatique des langues. Un exemple de classification automatique supervisée de mémoires et thèses universitaires
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
L’objectif de cette contribution est de présenter l’exploitation des R Notebooks par l’intermédiaire des logiciels R et RStudio dans le cadre d’un projet pilote en traitement automatique des langues de classification automatique des mémoires et des thèses catalogués au sein du dépôt institutionnel de l’Université du Québec à Chicoutimi.
Plus précisément, la présente contribution vise à proposer quelques démonstrations, par l’entremise de RStudio, qui porteront, entre autres, sur l’extraction automatique du texte brut de documents PDF, sur le nettoyage du texte à l’aide d’expressions régulières, mais aussi sur l’utilisation d’un modèle de classification automatique supervisée (un modèle eXtreme Gradient Boosting) des textes en six catégories (éducation, gestion et administration, linguistique, théologie, études régionales et travail social).
Vincent Arnaud, Kevin Bouchard & Gilles-Philippe Morin (Université du Québec à Chicoutimi)
Thème
Dans la même collection
-
Le Journal of Open Humanities Data : enjeux et défis dans la publication de data papers pour les SHS
3e intervention de la 1ère session du colloque DHNord 2021
-
Des articles et des données : L’écosystème des data papers
SchöpfelJoachimConférence plénière de la 4e journée du colloque DHNord 2021
-
Découvrir le Journal of Digital History
Conférence plénière de la 2e journée du colloque DHNord 2021
-
Comment passer de l'entrepôt de données aux data papers ? Retour sur l'expérience de data.sciencesp…
3e intervention de la 8e session du colloque DHNord 2021
-
D'artefacts archéologiques à artefacts documentaires : les data papers en archéologie. Le cas du Jo…
Boukacem-ZeghmouriChérifa1ère intervention de la 1ère session du colloque DHNord 2021
-
Cultures visuelles en SHS. Construire un corpus de 470 000 images scientifiques avec du deep learni…
LanglaisPierre-Carl3e intervention de la 4e session du colloque DHNord 2021
-
Le data paper : une nouvelle forme de publication scientifique en SHS
Table ronde de la 1ère journée du colloque DHNord 2021
-
HTR-United : mutualisons la vérité de terrain !
1ère intervention de la 8e session du colloque DHNord 2021
-
Un data paper en SHS : pourquoi, pour qui, comment ?
1ère intervention de la 4 session du colloque DHNord 2021
-
Data papers et dissémination des données de la recherche : quelles pratiques en SHS ?
Le BéchecMariannig4e intervention de la 8e session du colloque DHNord 2021
-
Révéler les formes et logiques de citation des data papers en archéologie
2e intervention de la 1ère session du colloque DHNord 2021
-
Écrire des data papers en SHS : exemples et partage d’expériences
Table ronde de la 3e journée du colloque DHNord 2021











