Conférence
Notice
Lieu de réalisation
En ligne
Langue :
Français
Crédits
Pierre-Carl Langlais (Intervention)
Détenteur des droits
MESHS (UAR 3185)
Citer cette ressource :
Pierre-Carl Langlais. MESHS. (2021, 17 novembre). Cultures visuelles en SHS. Construire un corpus de 470 000 images scientifiques avec du deep learning , in DHNord 2021 : Publier, partager, réutiliser les données de la recherche. Les data papers et leurs enjeux. [Vidéo]. Canal-U. https://www.canal-u.tv/166124. (Consultée le 17 septembre 2025)

Cultures visuelles en SHS. Construire un corpus de 470 000 images scientifiques avec du deep learning

Réalisation : 17 novembre 2021 - Mise en ligne : 1 septembre 2022
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

Ce data paper décrit un grand corpus de 470 000 images extraits de 110 000 publications françaises de sciences humaines et sociales, soit l’ensemble des documents en libre accès indexés par le moteur de recherche spécialisé Isidore pendant l’année 2019. Ce corpus final couvre une grande diversité de formats (articles, thèses, ouvrages, mémoires, billets...), de disciplines et d’usages iconographiques et ouvre un nouveau terrain de recherche quantitatif sur l’étude des cultures visuelles scientifiques.

Le corpus a été constitué pour une étude commandée par le Ministère de la recherche sur l’usage des œuvres d’arts visuelles en sciences humaines et sociales, qui vise à préparer la mise en œuvre des licences collectives prévues à l’article 28 de la loi pour la programmation de la recherche de 2020. La collecte visait à produire un échantillon représentatif de 1500 images annotées manuellement pour définir leur statut légal au regard du droit d’auteur.

La réalisation de cette étude nous a contraint à problématiser la notion d’image scientifique en ligne. Contrairement aux attentes initiales, le dénombrement des images n’a pas été une procédure triviale. Elle a requis le développement en amont d’un modèle de classification par deep learning et l’élaboration d’une typologie des objets visuels usuellement présents dans ces publications. L’usage de la modélisation non à des fins d’exploration mais de définition initiale du corpus sera l’un des principaux thèmes de la présentation.

Pierre Carl Langlais (Université de Montpellier Paul-Valéry)

Projet MemoRekall

Intervention

Dans la même collection

Avec les mêmes intervenants et intervenantes