Conférence

1.10 : Segmentation Mode for Archival Documents with Highly Complex Layout

Durée : 00:23:00 -Réalisation : 23 juin 2022 -Mise en ligne : 6 octobre 2022
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
  • audio 1 audio 2 audio 3
Descriptif

par Daniel Stoekl Ben Ezra

Using eScriptorium together with kraken as an infrastructure, we developed a simple but highly efficient procedure for reducing the amount of human labor necessary for creating large amounts of segmentation ground truth for documents with highly complex layouts, i.e., documents comprising regions with lines at eight different angles. Our specific project deals with medieval documents in Hebrew script in Judeo‑Arabic, Aramaic and Hebrew from the Cairo Genizah, including letters, legal documents, lists, notes and accounts. There are about 40,000 documentary texts from the Genizah, of which only about 5,000 have been transcribed. Therefore, our current aim is to create enough data to be able to train a global segmentation model with a very large number of classes, so that it can segment complex layouts in a single step.

Intervenant
Thème
Notice
Lieu de réalisation
École nationale des chartes
Langue :
Anglais
Crédits
Daniel Stoekl (Intervenant)
Conditions d'utilisation
Droit commun de la propriété intellectuelle
Citer cette ressource :
Daniel Stoekl. ENC. (2022, 23 juin). 1.10 : Segmentation Mode for Archival Documents with Highly Complex Layout. [Vidéo]. Canal-U. https://www.canal-u.tv/133479. (Consultée le 1 avril 2023)
Contacter

Dans la même collection

Avec les mêmes intervenants

Sur le même thème