[DEVIEW 2020] 파파고 이미지 번역

Today

Total

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Recent Posts

Tags more

관리 메뉴

취미가 좋다

[DEVIEW 2020] 파파고 이미지 번역 본문

Conference

[DEVIEW 2020] 파파고 이미지 번역

benlee73 2021. 3. 1. 14:10

본 글은 DEVIEW 2020의 '외국어가 읽힌다 딱! (파파고 이미지 번역)'을 정리한 글입니다.

외국어가 읽힌다 딱!

파파고 이미지 바로 번역

1. 이미지 번역

1.1 이미지 번역의 필요성

파파고를 이용하면 이미지의 외국어를 한국어로 번역할 수 있다.

번역 방법 : 사진에서 텍스트 영역 추출 → 추출한 영역을 문지르면 해당 부분을 번역

이미지 번역의 사용량과 분야가 점점 늘어나고 있다.

1.2 이미지 번역 과정

OCR(문자 검출 + 문자 인식) → 기계 번역(MT)

↓ ↓ ↓

OCR → 단어 그룹화 → 기계 번역

관련 단어를 묶고, 정렬하여 기계 번역기에 넣어야 한다.

기존에는 룰 기반의 알고리즘을 사용하여, 각 단어마다 자신이 어느 줄에 속하는 지 결정하여 문장을 만들었다.

기존의 한계

사용자가 문지르는 형태로 관련 단어를 묶어야 했다.
룰 기반이기에 성능이 좀 떨어졌다.
문지르는 것 없이 관련 단어를 자동으로 묶고, 더 잘 정렬할 수 있을까?

1.3 이미지 바로 번역

: 이미지의 텍스트를 추출하고 번역한 후, 해당 텍스트 위치에 번역한 텍스트까지 넣는 작업

OCR → 단어 그룹화 → 기계 번역 → 텍스트 에디팅

기존 구글이 제공하는 서비스는은 문맥이 아닌 줄 단위로 묶기 때문에 번역 품질이 좋진 않았음

즉, 온전한 문장 형태로 번역이 이루어지지 않았음

2. 텍스트 계층화

좋은 번역 품질을 위해서 줄 단위보다 문단 단위로 번역이 이루어져야 한다.

2.1 텍스트 계층화

단어 → 라인 → 블록 으로 묶어서 라벨을 추가한다.

단어 : 띄어쓰기 기준
라인 : 동일 선상 단어들, ('\n' 기준)
블록 : 번역의 단위. 동일 문맥

이 방식으로 데이터를 직접 구축하였다.

2.2 텍스트 계층화 모델

: Anchor box, Segmentation, Graph 기반 모델 중 Segmentation 기반의 문자 검출기를 선택하였다.

U-net 아키텍처에 이미지를 넣으면 텍스트 영역인 세그먼트 마스크를 얻을 수 있다.

세그먼트 마스크를 후처리하면 텍스트 박스를 얻을 수 있는 것이다.

이 때, connected component analysis 알고리즘으로 후처리한다.

대표적인 방법론이 PixelLink 라는 text detection을 사용하였다.

모델 수정

1. 단어마스크를 라인마스크로 확장

2. 라인마스크를 블록마스크로 확장

즉, 마지막 채널이 하나의 채널이었다면, 브랜치를 하나 더 추가해서 2,3개 채널로 늘린다.

장점

1. 멀티태스킹, end-to-end learning이 가능하다.

2. 성능이 더 좋고, unet의 백본을 서로 공유할 수 있어서 네트워크 사이즈가 줄어들 수 있고 속도가 빠르다.

2.3 텍스트 계층화 결과

3. 텍스트 에디팅

3.1 텍스트 인페이팅 (inpainting)

인페인팅이란 객체를 자연스럽게 지우는 컴퓨터 비전 기술이다.

이 기술을 사용하여 이미지의 글자를 지운다.

텍스트 영역에서 배경색을 추출하여 텍스트를 지운다.

배경색 : mask가 0인 부분이 배경이므로 최빈값을 찾아서 설정
글자색 : mask가 0이 아닌 부분들을 모아서 글자색을 가져온다. 클러스터링을 통해 2개의 클러스터를 정하고, 배경과 구분력이 크도록 먼 글자 색을 결정

3.2 텍스트 렌더링 (randering)

찾은 색으로 번역 결과를 넣는 과정이다.

번역한 글자의 수가 다를 수 있기 때문에, 글자 크기, 장평, 자간, 여백을 변경한다.

4. 이미지 번역 성능 평가

단어 정렬 성능(Edit Distance)와 이미지 번역 성능(BLEU)의 결과가 rule-base보다 더 좋았다.

Comments

취미가 좋다

[DEVIEW 2020] 파파고 이미지 번역 본문

[DEVIEW 2020] 파파고 이미지 번역

외국어가 읽힌다 딱!

파파고 이미지 바로 번역

1. 이미지 번역

1.1 이미지 번역의 필요성

1.2 이미지 번역 과정

1.3 이미지 바로 번역

2. 텍스트 계층화

2.1 텍스트 계층화

2.2 텍스트 계층화 모델

2.3 텍스트 계층화 결과

3. 텍스트 에디팅

3.1 텍스트 인페이팅 (inpainting)

3.2 텍스트 렌더링 (randering)

4. 이미지 번역 성능 평가

티스토리툴바