• 검색

아고라가 선보인 음성·텍스트 변환기술 써보니

  • 2023.06.16(금) 18:15

한국어·영어·중국어 등 18개 언어 지원
빠른 변환 속도…AI 적용해 정확도 높여

'리얼타임 트랜스크립션 솔루션' 예시/이미지=아고라 제공

실시간 소통 플랫폼 업체인 아고라(Agora)가 음성·텍스트 변환과 자막 기능을 제공하는 '리얼타임 트랜스크립션 솔루션'을 출시한다. 회사가 보유한 음성·영상·양방향 라이브 스트리밍 기술을 활용해 빠르고 정확한 서비스를 지원하는 것이 특징이다.

지난 14일 서울 강남구 코엑스에서 열린 '메타버스 엑스포'에서 아고라 부스를 찾아 3분기 중 정식 출시 예정인 '리얼타임 트랜스크립션 솔루션' 데모 버전을 체험해봤다.

리얼타임 트랜스크립션은 개발자에게 자동 음성-텍스트 변환과 앱이나 서비스에 쉽게 통합할 수 있는 자막 기능을 제공하는 솔루션이다. 현재 한국어, 영어는 물론 중국어, 일본어, 스페인어 등 18개 언어를 지원한다.

음성을 텍스트로 변환해주는 STT(Speech To Text) 서비스에서 가장 중요한 것은 속도와 정확도다. 변환 속도를 늦추면 높은 정확도를 유지할 수는 있지만 변환하는 데 너무 오랜 시간이 걸리면 서비스 활용도가 떨어지기 때문에 적절한 조율이 필요하다.

아고라의 리얼타임 트랜스크립션 솔루션은 음성을 빠르게 변환해주면서도 인공지능(AI)을 활용해 텍스트의 정확도를 높일 수 있었다. 아고라 관계자는 "기존 트랜스크립션 서비스의 경우 음성이 텍스트로 변환되는 데 4~5초가량이 걸린다면 아고라의 솔루션은 0.4초 미만이 걸린다"며 "단순히 들리는 대로 변환하는 것이 아니라 AI 기술을 이용하기 때문에 앞뒤 맥락을 파악해 높은 정확도를 유지할 수 있다"고 설명했다.

실제 체험한 리얼타임 트랜스크립션 솔루션은 간단한 문장을 정확히 알아듣고 텍스트로 변환하는 것은 물론 영어, 중국어 등 다른 언어로 빠르게 번역해줬다. 긴 문장을 연달아 말하면 인식하지 못하는 경우도 있었지만 대부분의 문장은 인식이 가능한 수준이었다.

아고라 솔루션의 또 한가지 장점은 시끄러운 환경이나 부정확하고 억양이 심한 사람, 여러 사람의 음성이 겹치는 경우에도 정확하게 실시간 대화를 텍스트로 변환해준다는 것이다. 일대일 영상 통화는 물론 다대다 스트리밍이나 오디오 채팅 그룹에서 최대 100명까지 음성·텍스트 변환을 지원한다.

아고라는 이번에 출시한 솔루션을 통해 언어 장벽 해소와 콘텐츠 관리 등에 도움을 줄 수 있을 것으로 기대하고 있다. 동영상, 회의, 강의, 인터뷰 등에 다국어 커뮤니케이션과 자동 자막처리 기능을 지원해 의사소통을 원활하게 할 수 있도록 도와주고 실시간으로 노트를 작성해 회의 참여자와 공유할 수 있게 한다는 것이다.

기업간거래(B2B)에 특화된 솔루션인 만큼 고객사가 데이터를 보유할 수 있다는 것도 장점이다. 기존 트랜스크립션 서비스의 경우 제공 업체의 서비스를 이용하기 때문에 데이터 소유권 역시 제공 업체에 있는 것이 보통이다. 하지만 리얼타임 트랜스크립션 솔루션은 고객사에 필요한 기능을 툴을 제공하기 때문에 데이터 역시 고객사에 제공하고 있다.

현재 리얼타임 트랜스크립션 솔루션은 올해 3분기 중 정식 출시를 앞두고 오픈베타 서비스를 진행 중이다. 아고라 관계자는 "현재 글로벌 이커머스 업체 등이 오픈베타에 참여 중"이라며 "라이브쇼핑은 양방향 소통이 중요한 만큼 서비스에 지연이 없어야 하는데 이 솔루션을 활용할 경우 여러명의 호스트가 다른 곳에서 동시에 방송을 진행해도 무리 없이 빠르게 대화를 인식하고 실시간 자막을 제공할 수 있다"고 말했다.

naver daum
SNS 로그인
naver
facebook
google