[포스트]AI와 말씨름 하다…인식률 향상 언제쯤?

김동훈 기자 99re@bizwatch.co.kr
2018.08.01(수) 17:13

비교 데이터 부족·잡음처리 등 개선해야

▲ 음성인식 기반 인공지능 번역기 서비스 시연중 인식오류가 난 상황을 화면캡쳐했다. [사진=김동훈 기자]

"만나서 반갑습니다. 이 자리에 참석해주셔서 고맙습니다"라고 사람이 말했는데 "났습니다. 이 자리에서"라고 인공지능(AI)이 인식했다면…

인공지능의 음성 인식률이 이렇다면 좀 곤란하겠지? 스피커, 자동차, 스마트폰 등 우리가 일상에서 쓰는 많은 기기에 음성인식 기술이 속속 도입되고 있는데 말이야.

아직은 학습이 더 필요한 것 같아. 실제로 지난달 31일 열린 한 통신사 기자 간담회에서 포털사의 인공지능 번역기가 위의 사례와 같이 인간의 음성을 인식해 많은 참석자를 당황스럽게 했지.

통신사 측은 "마이크 하울링 때문에 제대로 인식하지 못한 것"이라며 "일반적인 음성인식 기반 AI 스피커의 음성 인식률은 80% 수준이고, 자사 IPTV에 쓰이는 경우 95% 이상"이라고 해명했지만, 해명을 받아들여도 사람이 말하는 것의 5~20%를 인공지능이 못 알아듣는다는 말이니 아직은 완전한 기술이 아니라고 해석할 수 있어.

게다가 5~20%의 오류는 시각에 따라 대단히 위험할 수도 있어. 예를 들어 미래에 의료 분야나 차량에 음성인식 기술이 더욱 적극적으로 사용된다고 생각해보자. "100미터 앞에서 좌회전하라"고 말했는데 200미터 앞에서 우회전한다면? 사소한 음성 인식 오류가 기기의 오작동을 야기해 생명을 위험에 빠트릴 수도 있다는 말이지.

콘텍스트(맥락)를 알아듣지 못한다면 더 황당한 일이 벌어질 수 있어. 공상과학(SF) 영화를 보면 음성으로 우주선을 작동하잖아. 그런데 우주 비행사가 "화성으로 가자"라고 말했을 때 경기도 화성시로 출발한다면? 그렇다고 "태양을 중심으로 4번째 궤도를 공전하는 태양계 행성인 화성으로 가자"라고 할 수도 없고.

그렇다면 왜 이런 오류가 발생하는지 기술적 측면을 살펴보자.

일반적으로 음성인식 기술은 사람이 말한 음성을 기계가 듣고 특징을 추출한 다음 사전에 수집한 음성 데이터와 유사성을 비교해 가장 비슷한 걸 말로 바꾸는 방식이라고 해.

지금 당장 음성인식 서비스를 이용해보면 뭔가 눈치껏 말을 알아듣는 것 같은 느낌이 드는 이유가 이런 기술적 배경이 있어서야. 사람이 말을 배우는 과정을 따라 한 것이라고 해.

그래서 SK텔레콤, KT, LG유플러스와 같은 통신회사나 네이버·카카오 같은 포털 사이트·모바일 메신저 기업이 이런 서비스를 하는데 유리한 이유이기도 하지. 이런 회사들이 음성이나 텍스트 데이터를 국내 어떤 사업자보다 많이 갖고 있으니까.

그런데 비교 대상이 되는 데이터가 부족하거나 분석 능력이 떨어지거나 잡음을 제대로 걸러내지 못하면 오류가 발생할 수 있는 것이지. 또한 이런 오류를 하나하나 보완하는 후처리 작업도 꾸준히 반복하고, 인공지능의 특징인 기계학습을 통해 비로소 완벽에 가까워지는 것이야.

오류를 만드는 요인은 또 있어. 사람마다 목소리나 발음, 억양이 다르잖아.

가령 경상도 사람이 '먹자'라는 의미로 "묵자"라고 말했을 때 겸애(兼愛)를 주장한 사상가 '묵자'로 인식하면 곤란하겠지?

사투리뿐만 아니라 어린 아이들의 음성도 잘못 알아듣는다고 해. 아이들의 음성 데이터가 성인보다 부족하기 때문이지.

애플의 스티브 잡스는 아이폰에 음성인식 기반 인공지능 서비스 '시리'를 넣으며 직관성에 주목한 것으로 해석되고 있어. 쓰는 것보다 말하는 것이 편하잖아? 음성 인식률이 개선을 거듭해서 다양한 정보통신기술(ICT) 서비스를 더욱 편리하게 이용할 수 있는 날이 오길 기대해보자. 안녕~!(중국 윈난성에 있는 도시 이름은 아니야)