구글, 103개 언어 번역 가능하게 한 기술은?

  • 2017.02.09(목) 17:33

구글코리아, '신경망 기계번역' 포럼
제로샷 번역 기능으로 방대한 언어 데이터 처리

 

구글이 '제로샷 번역 기술'을 통해 세계 103개 언어를 번역할 수 있는 인프라를 갖추게 됐다고 밝혔다.

구글코리아는 9일 'AI개요와 구글 신경망 기계번역'을 주제로 포럼을 열었다. 이 자리에서 마이크 슈스터(Mike Schuster) 구글 브레인팀 박사는 "여러 언어간 번역서비스를 제공할 수 있었던 것은 제로샷 번역기술을 통해 방대한 데이터를 다룰 수 있었기 때문"이라고 밝혔다.

 

제로샷 번역 기술이란 일종의 전이(轉移) 학습으로, 시스템이 한번도 해보지 않은 언어간 번역을 다른 언어간 번역 데이터를 이용해 유추해내는 기술을 말한다. 슈스터 박사는 "특정 언어를 번역하는데에는 다양한 모델이 필요한데, 하나의 모델을 트레이닝하기 위해 약 1억개의 문장이 필요하다"고 말했다. 번역 모델을 구축하는데 필요한 물리적인 한계를 제로샷 번역 기능을 통해 극복했다는 것이다.

그는 이어 제로샷 번역기술을 통해 네트워크가 인테르링구아와 같은 공통 언어를 학습할 수 있다는 것을 밝혀냈다고 전했다. 시스템이 같은 의미의 단어와 문장을 언어에 상관없이 범주화시켜 의미별 공통언어로 인식할 수 있다는 뜻이다. 가령 영어를 한국어로 번역한 문장과 일본어를 영어로 번역한 문장이 의미가 서로 같다면 네트워크 상에서 특정 범주화돼 저장된다. 이 데이터를 이용해 시스템이 한국어-일본어간 번역을 시도해본 적이 없어도 한국어-영어, 영어-일본어 사이의 번역 데이터를 이용해 한국어-일본어의 번역을 해낼 수 있는 것이다.

 

구글은 지난해 9월 상대적으로 빠른시간 내에 문장 단위로 번역이 가능한 신경망 기계번역(GNMT) 시스템을 소개한 바 있다. 신경망 기계번역은 한국어, 일본어, 중국어, 터키어를 비롯한 16개 언어조합 중 10개 언어에 적용되고 있다. 구글 관계자는 "신경망 기계번역 시스템을 통해 번역 품질이 한층 개선됐다"고 밝혔다.

 

슈스터 박사는 "이전 30년과는 달리 원천 데이터(Raw Data)의 종류가 많아지고 빅데이터의 규모가 비교할 수 없을 정도로 커졌다"며 "어떤 분야에서 어떻게 이 데이터를 활용할 수 있을지 고민해야 하는 시대가 왔다"고 덧붙였다.

SNS 로그인
naver
facebook
google