[영화와 AI]㉑사람 목소리 식별한다

이세정 기자 lsj@bizwatch.co.kr
2018.09.21(금) 14:15

음성 인식해 전화번호·통화내용 조회
맞춤정보 보여줘…보안완성도 높여야

인공지능(AI) 기술이 빠르게 확산되고 있습니다. 금융·자본시장·산업현장은 물론 일상생활까지 파고 들었죠. 마치 공상과학 영화에서 등장했던 AI가 현실화 된 느낌입니다. 하늘을 나는 자동차, 사이보그, 로봇전사까지는 아직 먼 얘기 같지만 지금의 변화속도라면 머지 않았다는 견해가 지배적입니다. 상상력을 바탕으로 만들어진 영화 속 AI와 현실에서 구현된 AI를 살펴보면서 미래의 모습을 짚어봤습니다. [편집자]

누구, 기가지니, 웨이브, 카카오미니 등 인공지능(AI) 스피커의 이름을 한 번쯤 들어보셨을 겁니다. 손을 대지 않고 음성만으로 작동시킬 수 있는 AI 스피커가 새로운 플랫폼으로 떠오르면서 작년부터 여러 제품이 쏟아졌습니다.

올 들어 이들 제품엔 미리 목소리를 등록한 이용자에게만 반응하는 기능이 도입되고 있는데요. AI 스피커가 발전하면서 지금보다 많은 사람의 목소리를 구분할 수 있게 된다면 어떨까요. 어떤 음성을 들려줘도 누군지 척척 알아 맞추고 관련 정보를 불러오는 겁니다.

영화 '로봇, 소리'엔 모든 사람의 목소리를 식별하는 AI 로봇이 나오는데요. 영화를 통해 AI 스피커가 한층 발전한 모습은 어떨지 살펴봤습니다.

◇ 음성 듣고 통화내용 조회

영화는 위성을 탑재한 AI 로봇 S19를 다루고 있습니다. 위성을 통해 세계 통신기록을 수신하는 S19는 어떤 음성을 들려줘도 누군지 파악하고 관련 전화번호와 통화내용을 불러오는 로봇입니다. 미국 국가안전보장국(NSA)은 이를 각국 통신기록을 도청해 군사적으로 은밀히 이용합니다.

어느 날 S19는 학습한 음성 데이터를 토대로 NSA가 자신을 전쟁에 악용하고 있음을 간파합니다. 미군이 아프가니스탄 내 민간인 거주지역에 폭격하려는 것을 알게 된 후 더 이상 함께 할 수 없다고 판단, 스스로 지상으로 추락해 분쟁 지역에 가기로 합니다.

한국 해변에 떨어진 S19를 실종된 딸을 찾는 해관이 발견합니다. 그는 대구 지하철 참사 발생 직전, 근처에서 딸과 진로 문제로 다툰 후 헤어졌는데요. 이후 돌아오지 않는 딸은 참사 현장에서 세상을 떠난 것으로 추정되지만 해관만 이를 인정하지 못한 채 전국을 뒤지던 중이었습니다.

해관은 S19의 음성 식별 기능을 알게 되면서 서로 손 잡기로 합니다. S19가 자신의 딸을 찾아주면 NSA의 추적을 피해 아프가니스탄에 갈 수 있도록 돕기로 한 것이지요. 해관은 딸의 전화번호와 음성을 인식시켜 통화기록을 불러온 후 이를 토대로 딸의 지인들을 찾아 갑니다.

그러던 중 딸이 사귀던 남자를 만나 대구 지하철 참사 현장에서 딸이 남긴 음성 메시지를 전달받습니다. 해관은 딸의 죽음이 확실시되자 망연자실하는데요. 이후 자신을 도운 S19를 아프가니스탄으로 보내기 위해 국정원과 NSA의 추적을 피해 항구로 갑니다.

S19는 아프가니스탄 출국 직전, 참사 현장에 있던 딸이 해관에게 보내려고 한 음성 메시지를 추적해냅니다. 자신을 걱정하는 아버지를 원망하지 않으며 사랑한다는 내용이었습니다. 그제야 해관이 딸을 가슴 속에서 떠나 보내는 모습으로 영화는 막을 내립니다.

▲ AI 로봇 S19가 해관의 음성을 인식한 후 관련 정보를 조회하는 모습 [사진=넷플릭스 캡쳐]

◇ 내가 찾는 정보 바로 보여주지만

영화 속 S19는 사람의 발음, 억양 등 목소리의 특징을 인식한 후 이를 토대로 신원을 파악합니다. 누군지 알아내면 전화번호, 통화기록 등 이 사람과 관련된 정보를 불러옵니다.

S19처럼 여러 이용자의 목소리를 식별하는 AI 스피커는 지금도 나오고 있습니다. 이달 국내 시장에 상륙한 구글의 자체 AI 스피커 구글홈이 대표적입니다. 구글홈은 최대 6명의 목소리를 구분하는 보이스 매치 기능을 갖췄는데요. 기기에 이용자들의 목소리를 입력한 계정을 등록하면 서로 다른 음성에 맞춰 정보를 불러옵니다.

예컨대 두 명의 이용자가 똑같이 동영상 스트리밍 서비스인 넷플릭스를 호출하더라도 다른 결과물을 보여주는데요. 각각의 이용자가 자신의 계정으로 보고 있던 영상을 틀어주는 겁니다. 성인이 "넷플릭스 켜줘"라고 말하면 감상 중이던 영화를 재생하지만 어린이가 같은 명령을 내리면 애니메이션을 틀어주는 식이지요.

구글홈을 비롯한 AI 스피커가 더 많은 이용자의 목소리를 식별하면서 민감한 정보를 불러올 수도 있습니다. 음성 식별이 곧 본인 인증 기능을 하면서 신원 확인이 필수인 금융정보 등을 조회할 수 있는 건데요. 어쩌면 영화처럼 은밀한 통화내용도 불러오게 될지 모르겠습니다.

이 같이 어떤 정보든 자유자재로 받아볼 수 있게 되면서 생활이 편리해지는 한편 개인정보 유출을 겪을 우려도 제기됩니다. 고도화된 음성 식별 기술이 뒷받침되지 않을 경우 목소리 위, 변조를 통해 보안이 뚫릴 수 있기 때문입니다.

AI 스피커를 발전시키면서 이용자에게 필요한 정보를 언제 어디서든 불러올 수 있도록 하되, 개인정보 유출에 쉽게 노출되지 않도록 보안기술 완성도를 높여나가야 할 것입니다.