Canal-U

Mon compte
Inria

Resolving Entities in the Web of Data


Copier le code pour partager la vidéo :
<div style="position:relative;padding-bottom:56.25%;padding-top:10px;height:0;overflow:hidden;"><iframe src="https://www.canal-u.tv/video/inria/embed.1/resolving_entities_in_the_web_of_data.19389?width=100%&amp;height=100%" style="position:absolute;top:0;left:0;width:100%;height: 100%;" width="550" height="306" frameborder="0" allowfullscreen scrolling="no"></iframe></div> Si vous souhaitez partager une séquence, indiquez le début de celle-ci , et copiez le code : h m s
Auteur(s) :
Christophides Vassilis

Producteur Canal-U :
Inria
Contacter le contributeur
J’aime
Imprimer
partager facebook twitter Google +

Resolving Entities in the Web of Data

Over the past decade, numerous knowledge bases (KBs) have been built to power a new generation of Web applications that provide entity-centric search and recommendation services. These KBs offer comprehensive, machine-readable descriptions of a large variety of real-world entities (e.g., persons, places, products, events) published on the Web as Linked Data (LD). Even when derived from the same data source (e.g., a Wikipedia entry), KBs such as DBpedia, YAGO2, or Freebase may provide multiple, non-identical descriptions for the same real-world entities. This is due to the different information extraction tools and curation policies employed by KBs, resulting to complementary and sometimes conflicting entity descriptions. Entity resolution (ER) aims to identify different descriptions that refer to the same real-world entity, and emerges as a central data-processing task for an entity-centric organization of Web data. ER is needed to enrich interlinking of data elements describing entities, even by third-parties, so that the Web of data can be accessed by machines as a global data space using standard languages, such as SPARQL. ER can also facilitate an automated KB construction by integrating entity descriptions from legacy

 

KBs with Web content published as HTML documents.

ER has attracted significant attention from many researchers in information systems, database and machine-learning communities. The objective of this lecture is to present the new ER challenges stemming from the Web openness in describing, by an unbounded number of KBs, a multitude of entity types across domains, as well as the high heterogeneity (semantic and structural) of descriptions, even for the same types of entities. The scale, diversity and graph structuring of entity descriptions published according to the LD paradigm challenge the core ER tasks, namely, (i) how descriptions can be effectively compared for similarity and (ii) how resolution algorithms can efficiently filter the candidate pairs of descriptions that need to be compared.

In a multi-type and large-scale entity resolution, we need to examine whether two entity descriptions are somehow (or near) similar without resorting to domain- specific similarity functions and/or mapping rules. Furthermore, the resolution of some entity descriptions might influence the resolution of other neighbourhood descriptions. This setting clearly goes beyond deduplication (or record linkage) of collections of descriptions usually referring to a single entity type that slightly differ only in their attribute values. It essentially requires leveraging similarity of descriptions both on their content and structure. It also forces us to revisit traditional ER workfows consisting of separate indexing (for pruning the number of candidate pairs) and matching (for resolving entity descriptions) phases.

In this talk we intend to provide a starting point for researchers, students and developers who are interested in a global view of the ER problem in the Web of data.

  •  
    Label UNT : Unisciel
  •  
    Date de réalisation : 5 Novembre 2015
    Durée du programme : 37 min
    Classification Dewey : Internet, World Wide Web en tant que systèmes de recherche et stockage d'information
  •  
    Catégorie : Conférences
    Niveau : niveau Master (LMD), niveau Doctorat (LMD), Recherche
    Disciplines : Informatique, Informatique
    Collections : La demi-heure de science : pourquoi mène t-on des recherches dans ce domaine là ? Inria Paris - Rocquencourt
    ficheLom : Voir la fiche LOM
  •  
    Auteur(s) : Christophides Vassilis
    Editeur : INRIA (Institut national de recherche en informatique et automatique)
  •  
    Langue : Français
    Mots-clés : web de données, résolution entitées
    Conditions d’utilisation / Copyright : © Inria Paris - Rocquencourt
 

commentaires


Ajouter un commentaire Lire les commentaires
*Les champs suivis d’un astérisque sont obligatoires.
Aucun commentaire sur cette vidéo pour le moment (les commentaires font l’objet d’une modération)
 

Dans la même collection

 Explorations Mathématiques de l'activité du cerveau
 Logic-based static analysis for the verification of programs with dynamically allocated data structures
 Wireless In the Woods: Monitoring the Snow Melt Process in the Sierra Nevada
 Phénomènes Aléatoires dans les Réseaux
 Modèles mémoire pour les multiprocesseurs à mémoire partagée
 Gestion de données personnelles respectueuse de la vie privée
 Génération de maillages pour la simulation numérique
 Transport Optimal et théorème de Brenier
 Réseau optiques, algorithmes et probabilités
 Réduction de modèles de voies de signalisation intracellulaire
 Apprentissage automatique et Big Data
 Quelques questions biomathématiques soulevées par les axes neuro-endocriniens
 Codes correcteurs quantiques
 Quelques modèles solubles pour le trafic routier
 Interopérabilité de protocoles pour des systèmes mobiles émergents dans l’Internet du futur
 Preuve automatique de la sûreté de logiciels critiques
 Cryptanalyse : le fondement de la sécurité
 Transitions de phase : entre physique, mathématiques et informatique
 OCamlPro : promouvoir dans l’industrie un langage de programmation issu de la recherche
 Mesure de la qualité d'expérience Internet depuis le réseau domestique
 Langages de programmation et concurrence, une relation toujours épineuse
 Test et vérification automatique pour systèmes musicaux interactifs
 Aspects temporels dans les systèmes embarqués critiques
 Utilisation d’algorithmes de calcul scientifique en topologie et vice-versa
 Futurs véhicules terrestres : autonomie ou automatisation ?
FMSH
 
Facebook Twitter Google+
Mon Compte