취미가 좋다

FUNSD : A Dataset for Form Understanding in Noisy Scanned Documents 본문

Dataset

FUNSD : A Dataset for Form Understanding in Noisy Scanned Documents

benlee73 2021. 2. 13. 23:54

FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents

 

 


Abstract

FUNSD는 노이즈가 섞인 스캔된 documents의 FoUn (Form understanding)을 위한 데이터셋이다.

 

이 데이터셋은 텍스트 내용을 추출하고 구조화하는 것을 목표로 한다.

 

데이터셋은 모두 annotation이 달린 199개의 스캔된 양식으로 구성된다.

 

문서는 노이즈가 있고 모양이 매우 다양하므로, FoUn하기 어려운 과제이다.

 

FUNSD는 다양한 과제에 사용될 수 있다.

 

예를 들면, Text detection, OCR (optical charater recognition), spatial layout analysis, entity labeling/linking 이 있다.

 

당시 이 데이터셋은 FoUn을 위해 포괄적인 annotation을 가지는 최초의 공개 데이터셋이었다.

 

 

 

 

 

 

아래 사진은 ground-truth 파일의 예시를 보여준다.

 

 


다운로드 링크

 

FUNSD

FUNSD: Form Understanding in Noisy Scanned Documents A dataset for Text Detection, Optical Character Recognition, Spatial Layout Analysis and Form Understanding.

guillaumejaume.github.io

논문 링크

 

FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents

We present a new dataset for form understanding in noisy scanned documents (FUNSD) that aims at extracting and structuring the textual content of forms. The dataset comprises 199 real, fully annotated, scanned forms. The documents are noisy and vary widely

arxiv.org

 

'Dataset' 카테고리의 다른 글

PubLayNet : Largest Dataset Ever for Document Layout Analysis  (0) 2021.02.14
CORD (Consolidated Receipt Dataset)  (0) 2021.02.13
Comments