Conférence
Notice
Lieu de réalisation
Ined, Campus Condorcet - Paris Aubervilliers
Langue :
Français
Crédits
ccIned 2021 (Organisation de l'évènement)
Détenteur des droits
Frédéric Vergnaud
Conditions d'utilisation
Droit commun de la propriété intellectuelle
Citer cette ressource :
Ined. (2021, 2 décembre). Le scraping de données conversationnelles avec Extractify , in Données du Web : questions et pratiques en SHS. [Vidéo]. Canal-U. https://www.canal-u.tv/115892. (Consultée le 12 octobre 2024)

Le scraping de données conversationnelles avec Extractify

Réalisation : 2 décembre 2021 - Mise en ligne : 22 avril 2022
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

Si en théorie la manière de structurer en HTML et CSS des données sur le web est plutôt bien définie par tout un ensemble de normes et de standards énoncés par différentes instances promouvant la compatibilité des technologies web, en pratique on se rend compte assez vite de la grande hétérogénéité qui prévaut dans ce domaine, rendant la plupart des méthodes et logiciels inopérants s’ils reposent sur l’identification des structures classiques pour en extraire l’information voulue. Scraper des données en ligne nécessitera par conséquent d’acquérir en amont quelques connaissances sur la structure d’une page web afin d’en repérer et sélectionner les éléments balisant les contenus à extraire.

Cette présentation se propose de participer à cette acquisition en présentant les fondamentaux du HTML et du CSS.

Dans un second temps, nous illustrerons notre propos en présentant un scraping réalisé à l’aide du logiciel Extractify sur des données conversationnelles issues d’un forum de discussion.

Dans la même collection

Sur le même thème