• 카카오스토리
  • 검색

복잡미묘한 한국어, AI가 알아들으려면…

  • 2018.06.26(화) 18:03

동음이의어·다의어 체계정립 미비
과기부, 자연어 데이터 공개 주목

 

#자연어(기계가 아닌 사람이 일상에서 쓰는 언어) 처리기술을 적용한 번역기를 쓰는 김 모씨는 얼마 전 한글을 영어로 바꾸는 과정에서 이상한 점을 발견했다. 비꼬는 뜻으로 쓴 '잘 됐다'가 긍정적 의미인 'That’s good'으로 번역된 것. 김씨는 복잡미묘한 한국어를 정확히 인식하는 기술이 나오려면 아직 멀었다는 생각이 들었다.

 

자연어 처리기술을 적용한 서비스를 이용하는 도중 겪는 불편을 가상으로 꾸며본 사례다. 실제로 한국어의 다양한 다의어와 동음이의어를 구별하지 못해 의미를 잘못 인식하는 사례가 빈번하다. 자연어 처리기술 기반인 한국어 어휘체계가 정부 차원에서 정립되지 않았기 때문이라는 지적이 나오는 가운데 과학기술정보통신부의 자연어 데이터 개방으로 기술을 끌어올릴지 주목된다.

 

26일 오전 서울 강남구 오토웨이타워에서 구글코리아 주최로 열린 'AI 위드(with) 구글 2018' 컨퍼런스에선 한국어로 된 자연어 처리를 비롯, 국내 AI 기술 발전방향에 대한 업계 의견이 제시됐다.

 

인재채용 추천서비스회사인 원티드랩의 황리건 최고기술책임자(CTO)는 "구직자의 이력서를 자연어 처리기술로 분석한 후 지원기업 입사 성공 확률을 알려주는 서비스를 하면서 한국어가 난제였다"며 "해외와 달리 국내엔 자국어 관련 데이터 체계가 마련돼 있지 않은 상태"라고 말했다.

 

미국의 경우 프린스턴대학교에서 만든 영어 어휘체계 데이터베이스인 ‘워드넷’을 정부가 지원해 꾸준히 업데이트하고 기업에 개방한다. 반면 국내에선 자연어 처리기술에 적용할 한국어 어휘체계를 학계나 정부에서 관리하지 않어 개별기업이 일일이 분류해야 한다는 게 황 CTO의 설명이다.

 

개별기업이 다의어, 동음이의어 등 광범위한 한국어 어휘체계를 정립하는 데엔 현실적으로 한계가 있어 결과적으로 정확도가 떨어진다는 시각이다.

 

김윤 SK텔레콤 AI리서치센터장도 "특정 언어엔 한 국가만의 문화와 감성이 묻어 있다"면서 "대한민국의 감성을 정확히 반영할 수 있는 빅데이터 기반 AI 기술이 만들어져야 한다"고 강조했다.

 

과기정통부는 개방형 데이터베이스인 AI 오픈 이노베이션 허브를 통해 법률, 특허 등 특정분야의 자연어 데이터를 개방한 바 있다. 다만 일반기업까지 사용할 수 있을 정도로 폭넓은 한국어 데이터를 공개하진 않았기 때문에 업계에서 지원 효과를 실감하지 못한 것으로 풀이된다.

 

한편 과기정통부는 대통령 직속 4차산업혁명위원회가 지난 달 의결한 AI 연구개발 전략에 따라 관련분야에 앞으로 5년간 2조2000억원을 투자할 계획이다.

 

투자과정에서 과기정통부에서 운영하는 개방형 데이터베이스인 AI 오픈 이노베이션 허브를 통해 말뭉치(자연어 데이터) 어절 152억7000만개를 공개할 계획이다. 이를 통해 업계 전반의 한국어 자연어 처리기술을 끌어올릴 수 있을지 주목된다.

 

권용현 과학기술정보통신부 지능정보사회추진단장은 "AI 데이터와 인력 문제가 시장에서 자주 제기되고 있다"며 "해외와 비교했을 때 한국은 아직 시작 단계인데 정부에서 뒤쳐지지 않도록 지원할 것"이라고 말했다.

SNS 로그인
naver
facebook
google