Notice
Le scraping de données conversationnelles avec Extractify
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
Si en théorie la manière de structurer en HTML et CSS des données sur le web est plutôt bien définie par tout un ensemble de normes et de standards énoncés par différentes instances promouvant la compatibilité des technologies web, en pratique on se rend compte assez vite de la grande hétérogénéité qui prévaut dans ce domaine, rendant la plupart des méthodes et logiciels inopérants s’ils reposent sur l’identification des structures classiques pour en extraire l’information voulue. Scraper des données en ligne nécessitera par conséquent d’acquérir en amont quelques connaissances sur la structure d’une page web afin d’en repérer et sélectionner les éléments balisant les contenus à extraire.
Cette présentation se propose de participer à cette acquisition en présentant les fondamentaux du HTML et du CSS.
Dans un second temps, nous illustrerons notre propos en présentant un scraping réalisé à l’aide du logiciel Extractify sur des données conversationnelles issues d’un forum de discussion.
Thème
Dans la même collection
-
Extraction automatique et harmonisation de données : retour sur une étude bibliométrique à partir d…
BoelaertJulienDonnées du Web : questions et pratiques en SHS
-
(Re)faire la sociologie du couple avec des données massives
BergströmMarieDonnées du Web : questions et pratiques en SHS
-
Europresse, Youtube et Genius : retour sur trois expériences de scraping
RoquebertCorentinDonnées du Web : questions et pratiques en SHS
-
Données du web : l’abondance et ses revers
OllionÉtienneDonnées du Web : questions et pratiques en SHS
Sur le même thème
-
Reconfigurations de l’aptitude à être affecté : de la réception à l’émancipation, Spinoza à l’épreu…
BaudeyMatthieuCe projet s’appuie sur une mission de terrain de quatre mois au Kazakhstan pendant laquelle il s’agit de mener des entretiens qualitatifs avec les membres de différents mouvements sociaux, culturels
-
Ce que le droit fait aux données et ce qui change pour la recherche - Dans l'intimité de la recherc…
RobinAgnèsTheviotAnaïsMaurelLionelOliveauSébastienSoirée "Ce que le droit fait aux données et ce qui change pour la recherche" , dans le cadre d'une conversation « Dans l’intimité de la recherche», qui a eu lieu le 19 septembre 2023 au Forum de la
-
JRSS 2022 - Session de clôture
Session de clôture des 16è Journées de Recherche en Sciences Sociales (15 et 16 décembre 2022) à la MSH de Clermont-Ferrand.
-
JRSS 2022 - Session d'ouverture
Session d'ouverture des 16è Journées de Recherche en Sciences Sociales (15 et 16 décembre 2022) à la MSH de Clermont-Ferrand.
-
ChatGPT : Données, méthodes et enjeux
LanglaisPierre-CarlMénissierThierrySchwabDidierBelignéMaxConférence-discussion sur le robot conversationnel ChatGPT organisée par la Plateforme universitaire de données Grenoble Alpes (PUD-GA).
-
Engagement dans les sciences sociales : contraintes et tensions dans le monde 2/2
VegSebastianКопосовНиколай ЕвгеньевичBehrValentinKarsentiBrunoJouanjanOlivierLadier-FouladiMarieLes sciences sociales, en tant que savoirs critiques et émancipateurs, sont exposées aux tensions politiques des contextes où elles se produisent.
-
Autorité et autonomie des sciences sociales : construire une communauté de pairs 4/1
KarsentiBrunoSabbaghDanielMarzoukiNadiaFabianiJean-LouisFriedlanderJudithTerziCédricOrléanAndréSi les connaissances produites par les sciences sociales peuvent jouir d’autorité dans l’opinion, c’est qu’elles se soumettent à des règles méthodologiques, à des modes d’administration de la preuve
-
Les sciences sociales dans la cité : demandes publiques, contraintes, expertises 2/1
DaucéFrançoiseBozarslanHamitPortilloJosé MaríaGousseffCatherineAktarO. CengizZevounouLionelLes sciences sociales sont dans un rapport intérieur à la cité qui justifie qu’on les interroge et qui fonde un certain nombre d’attentes légitimes à leur égard, que ce soit de la part des pouvoirs
-
Ouverture du colloque Sciences sociales en danger ? 1/1
ProchassonChristopheKarsentiBrunoThireauIsabelleOuverture du colloque Sciences Sociales en danger ? Pratiques et savoirs de l'émancipation, 22 et 23 septembre 2022 au Centre des colloques au Campus Condorcet, par Christophe Prochasson, président de
-
LES « DIT-ON » ET AUTRES RÉCITS PLUS SÉRIEUX - INTERVIEW DE JEAN-PAUL COLLEYN
ColleynJean-PaulInterview de Jean-Paul Colleyn dans le cadre de la sortie du livre, "Les « dit-on » et quelques autres récits plus sérieux" publié le 16 février 2023 dans la collection "54" des Éditions de la FMSH.
-
Utilisation du RNAseq en cellule unique pour identifier des sous-populations cellulaires
PelletierAlexandreComment identifier des sous-populations cellulaires à partir de données en cellule unique
-
mixOmics : un package R pour l'intégration de données hétérogènes
DejeanSébastienPrésentation du package R mixOmics