목록Dataset (3)
취미가 좋다
PubLayNet : Largest Dataset Ever for Document Layout Analysis XuZhong, Jianbin Tang, Antonio Jimeno Yepes Overview PubLayNet은 document layout analysis를 위한 데이터셋이다. 문서 이미지와 text, list, figure와 같은 다양한 annotation이 포함된다. 여러 layout들은 bounding box와 polygonal segmentation 형태로 저장되어 있다. 데이터셋은 XML representation과 의학 분야의 백만 개의 PDF article을 자동 매칭하여 만들어졌다. Abstract 구조화되지 않은 디지털 문서의 layout을 인식하는 것은, 문서를 구조화하여 ..
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents Abstract FUNSD는 노이즈가 섞인 스캔된 documents의 FoUn (Form understanding)을 위한 데이터셋이다. 이 데이터셋은 텍스트 내용을 추출하고 구조화하는 것을 목표로 한다. 데이터셋은 모두 annotation이 달린 199개의 스캔된 양식으로 구성된다. 문서는 노이즈가 있고 모양이 매우 다양하므로, FoUn하기 어려운 과제이다. FUNSD는 다양한 과제에 사용될 수 있다. 예를 들면, Text detection, OCR (optical charater recognition), spatial layout analysis, entity labeling/lin..
네이버 clova에서 사용한 영수증 데이터셋이다. 영수증 OCR을 위한 데이터셋으로, 영수증 정보를 계층 구조로 가지고 있다. Abstract OCR은 출력이 text이기 때문에 NLP(Natural Language Processing)와 관련이 있다. document intelligence가 발전하면서 semantic parsing과 같은 다양한 OCR과 NLP가 통합된 기술이 필요하다. 이때 semantic parsing이란 text가 어떤 구조(구문)로 엮여있는지 분석하는 작업이다. OCR과 semantic parsing 각각의 데이터셋은 충분하지만, 지금까지 다른 분야로 연구되었기 때문에 통합된 post-OCR parsing 데이터셋은 상대적으로 적다. CORD는 post-OCR parsing을 ..