취미가 좋다
CORD (Consolidated Receipt Dataset) 본문
네이버 clova에서 사용한 영수증 데이터셋이다.
영수증 OCR을 위한 데이터셋으로, 영수증 정보를 계층 구조로 가지고 있다.
Abstract
OCR은 출력이 text이기 때문에 NLP(Natural Language Processing)와 관련이 있다.
document intelligence가 발전하면서 semantic parsing과 같은 다양한 OCR과 NLP가 통합된 기술이 필요하다.
이때 semantic parsing이란 text가 어떤 구조(구문)로 엮여있는지 분석하는 작업이다.
OCR과 semantic parsing 각각의 데이터셋은 충분하지만, 지금까지 다른 분야로 연구되었기 때문에 통합된 post-OCR parsing 데이터셋은 상대적으로 적다.
CORD는 post-OCR parsing을 위한 첫 단계로, 영수증 parsing을 위한 데이터셋이다.
CORD은 OCR을 위한 이미지, box, text annotation과 parsing을 위한 여러 단계의 semantic 라벨이 포함된 수천 개의 인도네시아 영수증으로 구성되어 있다.
이 데이터셋은 다양한 OCR 및 parsing 문제에 사용될 것이다.
아래의 사진을 보면, 왼쪽은 영수증 이미지이고 오른쪽은 그에 따른 json 파일 구조이다.
'Dataset' 카테고리의 다른 글
PubLayNet : Largest Dataset Ever for Document Layout Analysis (0) | 2021.02.14 |
---|---|
FUNSD : A Dataset for Form Understanding in Noisy Scanned Documents (0) | 2021.02.13 |
Comments