• 검색

[포스트]해외 AI도 한국어 능력 쏠쏠하네

  • 2017.10.12(목) 13:09

IBM 왓슨 기반 에이브릴·구글 어시스턴트 '한국어 능력 우수'

 

해외 시장 진출을 위해서는 그 나라 언어에 대한 이해가 무엇보다 중요합니다. 특히 언어를 활용한 제품이나 서비스의 경우 그 중요성은 더욱 커지게 되죠. 때문에 많은 사람들이 해외의 인공지능(AI) 서비스, 플랫폼, 제품들이 국내 시장에 진출하면 한국어가 가장 큰 장벽이 될 것으로 보았습니다. 반대로 국내 기업들이 AI 활용 시 일종의 한국어 버프(게임에서 캐릭터의 능력치를 높여주는 아이템)를 받아 시장경쟁력에서 앞서 나갈 것이라는 시각이 많았죠.


 


하지만 지난 9월 SK C&C와 구글이 공개한 AI를 보면 이러한 인식이 잘못됐다는 걸 금방 확인할 수 있습니다. 이들의 한국어 능력을 한 번 보실까요.


먼저 미국IT기업 IBM의 AI기술인 왓슨(Watson)을 기반으로 제작된 SK C&C의 AI플랫폼 '에이브릴(Aibril)'입니다. 에이브릴은 왓슨 기술의 국내 사업권을 확보한 SK C&C가 지은 서비스 브랜드 이름입니다.

 

▲ SK C&C의 인공지능 플랫폼 에이브릴 로고 [자료=SK C&C]


SK C&C는 왓슨을 한국 시장에 적용하기 위해 지난해 5월부터 열심히 한국어 공부를 시켰습니다. 공부를 시작한지 1년 4개월 되는 올해 9월 드디어 한국어 학습을 마쳤다고 공식 발표했습니다.

다짜고짜 에이브릴에게 "비밀번호를 모르겠습니다"라고 물어도 에이브릴은 당황하지 않습니다. 오히려 "어느 환경 또는 장비에서 문제가 발생하세요?"라고 구체적으로 사용자의 답변을 이끌어 냅니다. 또 "사내 이메일이 안 열려요"라고 물으면 "비밀번호는 정확히 입력하셨나요?"라고 물으며 마치 사람이 하는 대화처럼 말을 주고받기까지 합니다.

구글의 AI비서인 어시스턴트의 한국어 실력도 만만치 않습니다. 어시스턴트는 머신러닝(기계의 학습능력)을 기반으로 자연어 처리, 음성 인식, 번역 등의 역할을 해냅니다.


구글은 어시스턴트의 한국어 학습을 위해 전산언어학자를 영입했습니다. 어시스턴트에 한국어 적용을 진행한 최현정 구글 연구원(전산언어학자)은 "한국어 사용자임에도 다른 언어에 비해 한국어가 어렵다"며 "영어는 문장구사 시 구체적으로 주어를 지칭해 쓰지만 한국은 주어를 생략하는 경우가 많아 한국어 서비스가 쉽지 않았다"고 소감을 밝히기도 했죠.

어시스턴트는 한국어의 중문·복문 이해가 가능합니다. 여기에 지속적인 대화 맥락을 이해할 수도 있습니다. 가령 "내일 서울 날씨 어때?"라고 물은 뒤 바로 "제주도는?"이라고 물어도 제주도의 날씨를 알려달라는 것으로 파악하고 답변을 합니다. "제주도 날씨 어때?"라고 완벽한 문장을 구사하지 않아도 서울 날씨와 연장선에 있는 질문으로 스스로 이해하는 것이죠.


외국인들이 한국어를 배울 때 어려워하는 것 중 하나가 여러 가지 의미가 중첩된 중문·복문이나 갑자기 주어 없이 질문만 던지는 경우라고 해요. 이런 어려움을 SK C&C와 구글의 AI가 해결한 것입니다.

이들의 능력은 국내 토종 AI와 겨뤄도 뒤지지 않습니다. 실제 비슷한 시기 삼성SDS가 자체 개발한 자연어 처리 기술로 개발한 AI플랫폼 브리티(Brity)의 한국어 능력과 에이브릴, 어시스턴트의 능력은 크게 차이나 보이지 않습니다.

 


브리티에게 "어제 냉장고 주문했는데 언제 도착합니까?"라고 물어보면 문장을 분류해 파악합니다. 브리티는 냉장고를 주문했다는 내용을 부가정보로 분류하고 이를 활용해 궁극적인 질문의도인 언제 도착하느냐에 대한 답변을 제공합니다. 에이브릴과 어시스턴트처럼 중문이나 문장의 맥락을 파악하는 수준은 비슷한 셈입니다.

한국어 학습에 있어서 중요한 것은 두 가지입니다. 우선 자연어 처리 기술입니다. 자연어 처리는 인간이 사용하는 언어의 형태와 의미, 대화 분석 등을 통해 컴퓨터가 처리할 수 있도록 변환시키는 작업입니다. 즉 "오늘 점심 뭐 먹었어?"를 컴퓨터가 이해할 수 있게끔 컴퓨터 언어로 바꾸는 것이죠.


 


자연어 처리 능력 다음으로 중요한 것이 충분한 데이터 확보입니다. 아무리 정교한 기계가 있다해도 물건을 만들 재료가 없다면 무용지물이겠죠. 데이터는 바로 이 재료의 역할을 합니다. 한국어 학습 능력을 더욱 발전시켜  '뭐라카노', '알았당께' 등 지역별 사투리까지 AI가 알아듣고 사용할 수 있으려면 데이터 확보가 필수입니다.

SK C&C 관계자는 "정확한 데이터가 입력되는 만큼 정확한 답을 얻을 수 있는 시스템이기 때문에 데이터 확보가 중요하다"고 강조했습니다.

 


다양한 데이터 확보의 중요성은 AI스피커 선두주자인 미국 전자상거래업체 아마존 역시 당면한 문제죠. 아마존은 최근 호주 영어를 능통하게 구사할 수 있는 직원을 채용한다는 공고를 냈습니다. 채용된 직원들은 호주식 영어에 대한 데이터 관련 업무를 담당하게 됩니다. 영어도 다 같은 영어가 아니라 미국식, 영국식, 호주식 등 억양에 따라 다양하게 활용되기 때문입니다. 보다 많은 사람들에게 AI서비스를 제공하기 위한 작업인 셈이죠.

국내에서도 AI전용 한국어 데이터베이스 구축에 나섰습니다. 문화체육관광부와 국립국어원이 2018~2022년 154억7000만 어절의 말뭉치(언어 데이터베이스)를 구축하는 국어 정보화사업 계획을 마련했다는 소식입니다. 5년 간 총 175억원의 예산을 투입해 인간과 AI의 자유로운 의사소통을 구축해 나갈 예정이라네요. AI의 한국어 능력이 어디까지 발전할지 기대됩니다. 

naver daum
SNS 로그인
naver
facebook
google