취미가 좋다
FUNSD : A Dataset for Form Understanding in Noisy Scanned Documents 본문
Dataset
FUNSD : A Dataset for Form Understanding in Noisy Scanned Documents
benlee73 2021. 2. 13. 23:54FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents
Abstract
FUNSD는 노이즈가 섞인 스캔된 documents의 FoUn (Form understanding)을 위한 데이터셋이다.
이 데이터셋은 텍스트 내용을 추출하고 구조화하는 것을 목표로 한다.
데이터셋은 모두 annotation이 달린 199개의 스캔된 양식으로 구성된다.
문서는 노이즈가 있고 모양이 매우 다양하므로, FoUn하기 어려운 과제이다.
FUNSD는 다양한 과제에 사용될 수 있다.
예를 들면, Text detection, OCR (optical charater recognition), spatial layout analysis, entity labeling/linking 이 있다.
당시 이 데이터셋은 FoUn을 위해 포괄적인 annotation을 가지는 최초의 공개 데이터셋이었다.
아래 사진은 ground-truth 파일의 예시를 보여준다.
'Dataset' 카테고리의 다른 글
PubLayNet : Largest Dataset Ever for Document Layout Analysis (0) | 2021.02.14 |
---|---|
CORD (Consolidated Receipt Dataset) (0) | 2021.02.13 |
Comments