[비즈人워치]애울음·개소리 알아듣는 AI 아시나요

김보라 기자 bora5775@bizwatch.co.kr
2017.12.14(목) 17:52

비언어적 음성인식 플랫폼 개발 '코클리어닷에이아이'
"현재 호기심 반응 불과하지만 1년뒤 대중기술될 것"

▲ 오디오 인공지능 스타트업 코클리어닷에이아이(cochlear.ai)의 한윤창 대표

서울대학교 연구공원본관 3층 한쪽에 위치한 작은 연구실. 성인 남자 6명이면 꽉 들어찰 작은 공간에서 색다른 인공지능(AI) 플랫폼 개발이 한창이다. 주인공은 바로 서울대 융합과학기술대학원 음악오디오연구실 소속 학생들이 모여 창업한 '코클리어 닷 에이아이(cochlear.ai)'다.

최근 AI 붐이 일고 있지만 이들이 만드는 AI플랫폼은 독특하다. 단어와 음절로 이뤄진 언어가 아니라 기침소리, 자동차 경적음, 발소리 등 비언어적 소리를 인식할 수 있는 AI플랫폼을 개발하고 있기 때문이다.

비언어적 소리는 어떻게 활용될까. 아이가 갑자기 울면 이 소리를 AI플랫폼이 인식해 아이를 달래는 음악을 틀어줄 수 있다. 자동차 운전 시 사람은 앰뷸런스 소리를 듣고 길을 비켜주지만 자율주행차는 아니다. 자율주행차 자체에서 앰뷸런스 소리를 인식하고 길을 비켜주는 AI기술로도 활용 가능하다.

이들은 비언어적 소리를 수집해 국제대회에서 인정도 받았다. 코클리어 닷 에이아이는 지난 11월 열린 미국전기전자공확회(IEEE) 주최 및 구글 후원 오디오 환경음 분석대회(DCASE 2017)에서 환경음 분류 2위, 경고음 검출 1위, 소리이벤트 검출 2위, 무인자동차 환경소리분류 1위 등 총 4개 분야에서 상위권 성적을 기록했다.

사실 KT 기가지니, SK텔레콤 누구 등 현재 사람들이 사용 중인 AI스피커에게 비언어적 소리는 공해에 가깝다. 사람의 목소리를 AI스피커가 잘 알아듣지 못하게 방해하기 때문이다.

최대한 제거해야 할 이 같은 소리들을 오히려 AI플랫폼의 핵심 요소로 본 이유가 무엇인지 궁금했다. 지난 13일 코클리어 닷 에이아이 개발자인 최고경영자(CEO)를 맡고 있는 한윤창 대표를 만나 이야기를 들어봤다.

▲ 서울대학교 연구공원본관 3층 연구실에서 비언어적 오디오를 개발하는 코클리어닷에이아이 직원들

-비언어적 오디오 AI플랫폼. 내용이 생소하다. 대부분 사람들이 인공지능하면 사람의 말, 즉 언어를 알아듣는 걸로 이해하는데 비언어적이라는게 구체적으로 어떤 건가
▲말 그대로 사람의 말을 제외한 모든 음성들을 말한다. 복도에서 나는 구두소리, 사람 기침소리, 자동차 경적소리, 앰뷸런스 사이렌 소리 등 소리라고 인지될 수 있는 모든 것들이 비언어적 음성이다.

-왜 비언어적 소리를 AI플랫폼과 접목시키게 됐는지
▲이미 음성인식은 하는 곳이 많다. KT·SK텔레콤 등 통신사뿐만 아니라 네이버·카카오 등 포털업체, 스타트업에서도 음성인식 AI플랫폼은 이미 활발히 개발이 진행 중이다. 그들과 차별화를 어떻게 할 수 있을까 고민하다가 비언어적 소리를 생각하게 됐다.

-아이디어는 누가 냈고 언제부터 개발을 시작했는지
▲지난해 12월 서울대 융합과학기술대학원 음악오디오연구실 소속 학생들 6명이 팀을 꾸려 개발을 시작했다. 올해 초 어떤 내용으로 개발할까 고민하다가 제가 비언어적 소리를 인식할 수 있는 AI플랫폼을 개발하는 게 어떠냐는 아이디어를 냈다.

-음악오디오연구실은 어떤 연구를 하는 곳인가
▲일반인들에게는 생소할 수 있는데, 국내 대학원에도 음악오디오를 주제로 연구하는 곳은 많지 않다. 연구는 주로 템포, 장르, 사용된 악기, 음의 높낮이, 음악 구조 등 음악 속에서 뽑아낼 수 있는 다양한 정보들을 추출하고 분류하는 작업을 한다. 사람이야 음악을 들으면 이게 어떤 장르인지 바로 파악이 가능하지만 컴퓨터가 알아들으려면 반드시 컴퓨터 언어로 전환하는 과정을 거쳐야 한다. 음악에 담긴 정보를 컴퓨터가 알아들을 수 있게끔 바꿔주는 것이 우리가 하는 일이다.

-음악오디오를 주제로 연구된 것이 실제로 사용된 사례가 있는지
▲있다. 가령 네이버 뮤직앱에 음악검색이라고 해서 지금 나오는 음악을 찾아주는 기능을 실행하면 들리는 음악의 제목을 찾아준다. 이게 바로 우리가 하는 음악오디오연구 작업을 통해 활용할 수 있는 대표적인 사례다.

▲ (왼쪽부터) 임현기(딥러닝 알고리즘 연구), 한윤창(대표), 박정수(음원 분리), 이수빈(운영책임자), 이돈문(딥러닝 알고리즘 연구), 정일영(음원 분리) 개발자 [자료=코클리어닷에이아이]

-연구실에서 음악을 연구하던 작업방식이 회사의 비언어적 음성 연구에도 동일하게 적용되는가
▲그렇다. 전환하는 방식은 기술적인 문제라 차이가 없다. 음악도 어차피 소리의 일부분이다. 따라서 비언어적 음성을 분석할 때도 음악을 분석하던 작업방식을 그대로 적용할 수 있다. 다만 단순히 음악을 대상으로 정보를 추출하던 것에서 비언어적 음성은 주변에서 일어날 수 있는 모든 소리를 포함하기 때문에 범위가 더 넓다.

-범위가 넓다고 말했다. 실제로 주변에서 나는 소리가 대상이라면 종류가 상당히 많은데 커버가 가능한 건가
▲물론 어려운 일이다. 발소리, 기침소리, 아기 울음소리 등 발생할 수 있는 소리의 범위가 넓은 것은 사실이다. 일단은 범위는 작지만 3개 정도 분류를 나눠 데이터를 수집하고 AI플랫폼이 알아듣게끔 전환하는 작업을 하고 있다. 현재는 집안에서 나는 소리, 자동차 운전 시 나는 소리, 검색엔진에 쓰일 수 있는 소리로 분류해 작업 중이다.

-각각 수집하고 있는 데이터 분류에 대해 소개해 달라
▲집안에서는 주로 유리 깨지는 소리, 아기울음소리, 발자국 소리, 기침소리, 개 짖는 소리 등을 수집하고 있다. 가령 아이가 갑자기 울면 이 소리를 AI플랫폼이 인식해 아이를 달래는 음악을 틀어주는 방식으로 활용할 수 있다. 자동차 운전 시 나는 소리는 앰뷸런스 소리나 뒤차의 경적소리 등이 데이터 수집 대상이 된다. 사람이야 앰뷸런스 소리를 듣고 알아서 길을 비키지만 자율주행차는 그럴 수 없다. 그래서 자율주행차 자체에서 앰뷸런스 소리를 인식하고 길을 비켜주는 AI기술을 개발하고 있다.

검색엔진은 일단 구상 단계다. 가령 2시간짜리 축구 경기에서 골 넣는 장면만 보고 싶을 경우 공이 들어가고 사람들이 환호성 치는 골 장면 음성을 들려주면 바로 해당 장면이 검색되는 방식이다. 지금은 일일이 사람이 해당 골장면을 편집해 동영상을 올리지만 골이 들어가는 순간의 음성을 수집해서 바로 검색해 활용한다면 더 편리할 것이다.

-데이터 수집은 어떻게 하고 있나.
▲일단은 직원들이 주변의 소리를 직접 모으고 있다. 녹음기를 갖고 버스타고 다니면서 외부 소리를 수집하고 집 안에서도 실제 생활하면서 나오는 소리를 모은다. 하지만 직원들이 모으는 데 한계가 있기 때문에 내년에는 데이터 수집을 위한 마켓플레이스를 만들어 일반 사람들로부터 다양한 비언어적 음성을 모을 예정이다. 가령 수도꼭지에서 물 흐르는 소리를 녹음하면 건당 500원씩 보상하는 방법이다.

-비언어적 음성인식 AI서비스의 핵심은 무엇이라고 생각하는지
▲우리가 개발하는 AI서비스의 핵심은 상황과 맥락에 대한 이해다. 단순히 입력된 값을 뱉어내는 현 수준의 AI기술은 진정한 의미의 AI서비스라고 보기 어렵다. 가령 현재는 "알렉사, 음악 틀어줘"라고 얘길하면 알렉사가 음악을 트는 수준이다. 하지만 정말 AI스피커라 불리려면 AI 스스로 생각할 줄 알아야 한다. 사람이 음악 틀어달라고 말하기 전에 AI스피커가 사람 주변에 들리는 소리로 상황을 파악하고 이에 맞는 음악을 먼저 틀어줘야 한다.

-예를 든다면
▲가령 부부가 집에서 싸움을 하고 있다. 목소리가 높아지고 말투가 험악해지는 소리를 듣고 AI스피커가 평소와는 다르다는 걸 인지한다. 이후 분위기를 가라앉히기 위해 분위기 좋은 음악을 자동으로 틀어준다면 상황을 파악하고 맥락을 이해하는 유용한 AI플랫폼이 될 수 있다. 사람이 기침을 하면 이 소리를 인식해 AI스피커가 감기약은 챙겨먹었냐고 물어볼 수 있다.

▲ 코클리어닷에이아이 홈페이지. [자료=코클리어닷에이아이 홈페이지 갈무리]

-다양한 플랫폼, 제품에 적용해 실제 사람들이 사용할 수 있게 하는 것이 중요할 것 같다
▲현재는 기술 개발에 집중하고 있다. 현재 가장 대중화된 AI스피커에 적용될 수도 있다. 아직 가시화된 건 없지만 AI제품을 만드는 회사와 연계할 수도 있고 제품 개발자들이 비언어적 소리를 활용할 수 있도록 AI플랫폼 자체를 개방할 수도 있다. 아마존, 카카오 등 이미 AI플랫폼을 만든 큰 기업들도 파트너가 될 수 있다.

-코클리어 닷 에이아이의 비언어적 음성인식을 활용하고 싶은 기업들이 있나
▲삼성전자 무선사업부, LG전자 로봇연구소 등과 미팅을 한 차례 했다. 네이버랩스, 라인 등에서도 연락이 왔고 카카오와는 두 차례 정도 만났다. 아직 구체적으로 사업이 진행되는 건 없다. 스타트업에서도 연락이 오는데 가정용 로봇 만드는 업체에서 우리 기술에 관심을 보였다. 주로 우리 기술이 신기하고 궁금해서 연락하는 업체들이다.

-비언어적 오디오 AI플랫폼의 미래 전망을 어떻게 보고 있는가
▲아직까지는 독특한 기술로 보는 분들이 많지만 1년만 지나도 굉장히 많이 사용하는 흔한 기술이 될 수 있다. 그만큼 AI 분야의 발전 속도가 매우 빠르다는 뜻이다. AI기술 개발에 뛰어든 다른 회사들이 손을 뻗기 전에 최대한 빨리 기술 완성도를 높여야 한다는 위기의식을 갖고 있다.

-비언어적 오디오 AI플랫폼의 상용화는 언제쯤 가능할지
▲내년 3월 베타서비스를 출시해 개발자들에게 공개, 피드백을 받을 생각이다. 또 일반인들에게도 어플리케이션을 활용해 비언어적 음성인식 AI플랫폼에 대한 기술 소개를 할 예정이다.

-코클리어닷에이아이의 최종 목표는?
▲어떤 소리가 들려도 그에 맞는 응답을 할 수 있는 AI플랫폼을 만들고 싶다.