KT가 지난해 11월 출시한 '마이 AI 보이스'는 30개 예시 문장을 녹음하면 내 목소리와 닮은 인공지능(AI) 보이스를 만들어주는 서비스다. 목소리뿐 아니라 개인의 말투나 억양까지 구현해내기 때문에 직접 말하는 것과 구분하기 힘들 정도로 자연스러운 느낌을 준다. 지난 2일 KT 송파사옥에서 서비스 설명을 듣고 해당 서비스를 직접 체험해봤다.
30개 문장만 녹음하면 내 목소리 그대로 구현
KT는 해당 서비스를 유료로 제공하고 있다. 1개의 목소리를 만드는 데 9만9000원이 든다. 내 목소리로 AI 보이스를 만들기 위해서는 '마이 AI 보이스'에서 제공하는 스크립트 중 마음에 드는 것을 선택해 30개 문장을 읽어야 한다. 스크립트는 일상대화부터 사투리 대본·어린이·동화 등으로 구성돼 있다. 다양한 감정 표현과 연기가 가능하도록 스크립트를 지속적으로 추가할 예정이다.
KT는 녹음 품질을 높이기 위해 조용한 공간에서 마이크를 이용해 녹음하는 것을 권장한다. 전문 녹음실에서 녹음한다면 더 좋은 품질의 음성을 생성할 수 있겠지만, 일반 이어폰에 달린 마이크를 이용하더라도 충분히 서비스를 이용할 수 있었다.
해당 서비스는 녹음 파일에서 특유의 억양이나 말투를 파악해 AI 보이스에 반영하기 때문에 일관된 분위기를 유지하는 것이 중요하다. 따뜻한 분위기로 시작했다면 끝까지 따뜻한 분위기를 유지하고, 사투리를 써서 읽었다면 끝까지 사투리를 써서 녹음해야 한다.
문장 녹음은 제시된 원문을 한문장씩 읽는 식으로 진행된다. 녹음을 확인한 후 잡음이 들어가거나, 마음에 들지 않을 경우에는 몇번이고 다시 녹음을 할 수 있다. 발음이 꼬이거나, 어색하게 느껴져 여러차례 녹음을 하다 보니 30문장을 녹음하는 데 생각보다 긴 시간이 소요됐다. 일상대화 스크립트를 읽었을 때는 21분이, 동화 '성냥팔이소녀'를 낭독할 때는 17분 정도가 걸렸다. 다만 여러번 반복하다 보면 시간이 짧아져 2분 안에 30문장을 녹음하는 것도 가능하다고 회사 측은 설명했다.
보통 녹음한 음성을 AI 보이스로 만들어내기까지는 하루 정도가 걸린다. 오늘 음성을 녹음했다면 내일 목소리가 나온다고 생각하면 된다. KT 관계자는 "현재 마이 AI 보이스는 30문장 녹음 후 다음날 생성되나, 앞으로는 수분 후 생성하는 것을 목표로 고도화 연구를 진행하고 있다"고 했다.
AI 보이스가 만들어지면, 이를 활용해 원하는 스크립트를 직접 입력해 음성을 추출할 수 있다. 예를 들어 '안녕하세요, 홍길동입니다. 반갑습니다!'라는 텍스트를 입력하면 AI 보이스가 내 목소리로 해당 문장을 읽어주는 식이다.
해당 서비스는 한국어뿐 아니라 영어·중국어·일본어·스페인어 등 다국어 합성 기능도 제공하고 있다. 한국어로만 음성을 녹음했더라도 영어 문장을 입력하면 현지인 발음과 유사하게 문장을 읽어준다. 향후에는 프랑스어·러시아어·독일어·태국어 등으로 다국어 합성 언어를 늘려갈 예정이다.
KT 관계자는 "개별 화자의 특징은 살리되, 지원하는 현지인 발음 성능도 더 자연스러워지도록 서비스 방향을 잡고 개발하고 있다"고 설명했다.
콘텐츠 제작 등 다양한 분야서 활용
마이 AI 보이스는 KT인베스트먼트가 투자한 AI 기반 음성합성 스타트업 휴멜로와 협업을 통해 만들어졌다. 여기에는 '퓨샷러닝'이라는 기술이 적용됐다. AI가 소량의 데이터 자원만 학습해도 효율적으로 활용할 수 있도록 해줘, 5분 안팎의 짧은 시간 동안 녹음한 음성 데이터로도 고품질의 AI 보이스를 생성할 수 있는 기술이다.
다른 사람의 목소리를 도용하는 등 악용 사례를 방지하기 위한 노력도 하고 있다. 타인의 목소리로 본인 동의 없이 AI 보이스를 생성하는 것을 막기 위해 마이 AI 보이스 생성 시 녹음된 파일이 아닌 실제 사용자가 문장 단위로 정해진 스크립트를 직접 읽고 녹음해야만 학습이 되도록 구현했다.
이 서비스는 생각보다 다양한 분야에서 활용되고 있다. 레바논 파병 장병의 AI 보이스를 만들어준 사례가 대표적이다. 파병 군인의 목소리를 녹음해 만든 AI 보이스는 자녀들에게 실시간 날씨를 안내해주거나, 동화책을 읽어주는 데 활용돼 자녀들이 가족의 빈자리를 느끼지 않도록 돕고 있다.
콘텐츠 크리에이터들도 해당 서비스를 활용하고 있다. 뷰티 인플루언서인 레미니씬은 중국 팬들과 소통할 때 AI 보이스를 이용했다. 실제 중국어를 하진 못하지만, 다국어 합성 기능으로 중국어 더빙 콘텐츠를 제작한 것이다.
이밖에 고(故) 유상철 감독의 사례처럼 고인의 목소리를 복원하거나 변성기가 오기 전 자녀의 목소리를 간직하는 등 여러 분야에 AI 보이스가 적용되고 있다.
KT 계열 서비스와 시너지도 내고 있다. KT의 독서 플랫폼 밀리의서재는 AI 보이스를 활용해 오디오북을 제작하고 있으며, 기가지니·통화비서·서빙로봇 등 KT 내부 서비스와 결합 서비스 출시도 준비 중이다.
KT는 향후 서비스 품질을 높여 더빙 등 새로운 시장을 공략해나갈 방침이다. 예를 들어 배우 송강호가 나오는 영화를 현지어로 더빙할 때는 해당 배우에 어울리는 성우를 찾아 더빙해야 하는데, 앞으로 기술이 발달하면 AI로 이를 대체할 수 있을 거란 설명이다.
KT 관계자는 "해외는 더빙 시장이 워낙 크기 때문에 그런 쪽으로 제휴사를 넓혀가고 있다"며 "아직까진 해결해야 할 문제가 있지만 기술이 좀 더 발전하면 다국어 합성 기능을 통해 텍스트만 입력해도 AI로 더빙을 대체하는 날이 조만간 열리지 않을까 생각한다"고 했다.