음성을 실시간으로 인식, 답변하는 서비스는 대중화됐다. 네이버·카카오를 비롯 SK텔레콤·KT·LG유플러스가 인공지능(AI) 스피커를 서비스 중이다.
그러나 상당시간 분량의 한국어 음성파일을 한글(텍스트)로 변환 시켜주는 AI 서비스는 찾기 힘들다. 여기서 차별화가 드러난다.
AI 음성인식 및 자연어처리 기술 스타트업 '액션파워' 이야기다.
스마트폰 녹음기능이 보편화되면서 여러 상황에서 중요한 내용을 녹음하는 경우가 많다. 비즈니스 회의는 물론 법률상담, 교회설교, 방송뉴스에 이르기 까지 다양하다.
다만 1시간 짜리 녹음 내용을 다시 듣기 위해선 또다시 1시간을 소모해야 한다. 이것을 한글로 표시해주려면 서너 번은 반복해서 듣고 옮겨 적어야 하니 3∼4시간을 소비하기 마련이다. 또 녹음된 파일은 검색할 수 없어, 녹음 파일만으로는 데이터로써 가치 있게 활용하기 어렵다.
액션파워의 인공지능 받아쓰기 서비스 '다글로(https://daglo.ai )'는 이 문제를 해결해준다. 누구나 사용할 수 있는 크롬 브라우저에 최적화된 웹 기반 서비스로, 음성 파일을 업로드하면 수 분만에 자동으로 한글(텍스트)로 전환해준다.
조홍식 액션파워 공동대표는 "네이버나 카카오 같은 대기업이 하고 있는 음성인식 서비스와 액션파워의 음성인식 서비스는 전략방향이 다르다"면서 "우린 조금더 복잡한 말이나 전문용어를 잘 이해하면서 학습능력을 높여왔다"고 설명했다.
대기업 AI 스피커가 음악재생, 날씨알림, TV채널변경 등 일상영역에 집중했다면 액션파워는 특정 사무영역에 집중했다는 뜻이다.
조 대표는 특히 "우리의 기술력은 대기업 부럽지 않을 정도"라면서 "자체적인 AI 음성인식 기술을 보유한 스타트업이 거의 없는데 직접 기술개발, 머신러닝까지 구현하고 있다"고 강조했다.
실제로 액션파워는 증권사 애널리스트 출신인 조 대표와 함께 공동대표를 맡고 있는 이지화 CTO(최고기술책임자) 등 음성인식, 인공지능, 머신러닝 분야 전공자들이 맴버를 이루고 있다.
◇ 서울대 선후배 뭉쳤다
맥쿼리, BoA 메릴린치, HSBC증권 애널리스트 경력자인 조홍식 대표와 미국 스탠포드연구소 출신의 엔지니어 이지화 대표.
이들의 표면적 공통분모는 서울대합창단 선후배 사이다. 조 대표는 서울대 경제학부, 이 대표는 서울대 전기공학부 출신이다. 졸업후 각자의 길을 걷던 중 우연히 생각이 통했을까.
조 대표는 "애널리스트 재직시 전화통화나 세미나, 회의를 많이 했는데 휘발성 강한 음성으로 하다보니 사라지는 데이터들이 많아 아쉬움이 많았다"면서 "이를 텍스트로 바꾸면 소중한 자산이 될 수 있겠다는 생각을 했다"고 말했다. 이 대표 역시 "합창단 시절 음향작업을 주로 담당하면서 음성인식 분야에 관심을 가져왔다"면서 "특성을 살려 AI와 음성인식의 융합 서비스를 창업 아이템으로 잡았다"고 설명했다.
이 대표는 "만약 저 혼자라면 창업을 결심하지 못했을텐데, 부족한 부분을 채워줄 수 있는 조 대표를 만나 창업할 수 있었다"면서 "이후 대학에서 실시간시스템 자율주행차 연구실에서 AI와 머신러닝을 연구중인 후배들을 영입해 맴버를 구성하게 됐다"고 밝혔다.
이렇게 해서 2016년 설립된 액션파워는 자체적으로 음성인식 기술과 자연어처리 기술을 개발해 보유하고 있다. 음성인식 기술은 최신 머신러닝 기술 외에도 전처리, 후처리 등 매우 복잡하고 다양한 하위 기반기술을 필요로 하기 때문에 구글, 네이버 등 대기업을 제외하면 해당 기술을 자체적으로 보유한 국내 스타트업은 많지 않다.
◇ 서비스 방향설정·재정문제 극복기
아무리 기술력 있는 스타트업 일지라도 재정문제를 극복하기란 쉽지 않다. 소비자에게 서비스가 각인되기 전까진 매출이 거의 없기 때문이다.
창업 4년차를 맞이한 액션파워는 이 문제를 어떻게 해결했을까.
액션파워는 지난해 아마존에서 주최한 'AWS AI startup challenge'에서 우수상을 받았다. 덕분에 부상으로 아마존 서버를 무상으로 이용할 수 있게 됐다. 통상 AI기업은 서버 비용부담이 크지만, 액션파워는 수 천 만원에 이르는 서버비용을 절감할 수 있었다.
또 네이버 계열사 벤처캐피탈인 스프링캠프로부터 투자유치를 받은 후, 팁스(TIPS)에 선정되면서 자금지원을 받았다. TIPS는 일종의 민간투자주도형 기술창업지원 프로그램이다. 세계시장을 선도할 기술아이템 보유 창업팀을 민간주도로 선발, 미래유망 창업기업을 육성하는 지원 프로그램이다.
조 대표는 "창업후 피버팅(기존 사업 아이템이나 모델을 바탕으로 사업의 방향을 전환하는 것)하는 과정이 제일 힘들었다"면서 "당시엔 회사를 접어야 하냐를 두고 고민까지 했었는데, 이 과정을 지나고나면서 오히려 창업맴버간 더 신뢰가 쌓였다"고 말했다. 이어 이 대표는 "이러한 과정을 거쳐 2017년 12월 리뷰와이저(다글로 이전 버전 서비스)를 내놨을 때 첫 번째 유료결제 고객이 가장 기억난다"면서, 힘들게 만들었던 서비스가 시장에서 인정받았던 첫 느낌을 회고했다.
◇ 정확도 85∼95%…'가치있는 성공'
액션파워는 이달 10일 리뷰와이저를 업그레이드 시킨 다글로 서비스를 내놨다.
리뷰와이저를 운영하면서 다양한 고객들로부터 축적한 피드백을 반영하고 기술력을 녹여낸 것. 특히 고객의 요구에 맞춰 교회설교, 법률상담, 뉴스녹음에 대해 높은 정확도를 자랑하는 음성인식 엔진을 새롭게 추가했다.
녹음 음질과 발음 상태에 따라 다르지만, 좋은 조건의 녹음인 경우 음성인식 엔진의 정확도는 85∼95%(CER 기준) 수준에 이른다.
일각에선 '95%의 정확도라도 미흡한 부분을 수정·보완하려면 어차피 녹음파일을 재생해야 하는 것 아니냐'고 반문할지 모른다.
그러나 95% 정확도의 텍스트가 갖춰진 문장을 수정·보완하는 일은 처음부터 음성파일을 텍스트로 변환하는 작업에 비하면 매우 쉽다. 특히 100% 정확도가 요구되는 상황은 공증과 같은 전문영역에서 이뤄지므로, 일상적 회의녹음을 텍스트로 전환하는데에는 효율적이라는 설명이다.
또 사용자가 좋은 녹음 상태인지 아닌지 판단하기 어려운 경우, 정확도를 미리 확인할 수 있도록 '5분 미리보기' 기능도 제공한다.
더욱 정확한 받아쓰기가 필요한 고객의 피드백을 반영, 편집기 기능도 향상됐다. 키워드 검색 기능은 물론 재생 중인 단어 표시, 재생 속도 조절, 현재 커서 위치를 재생해주는 단축키 등 다양한 기능이 추가됐다.
조 대표는 "현재까지는 음성녹음환경을 갖춘 강연자, 1인방송 종사자들이 주로 텍스트 변환 서비스를 이용하고 있는 추세였는데 다글로 서비스 이후 교회설교, 법률상담 등 전문영역으로 서비스가 확산될 전망"이라면서 "앞으로는 콜센터, 방송국, 병원 등 음성을 텍스트로 전환하는 니즈의 B2B 영역도 도전할 계획이다"고 말했다. 또 "중국어의 경우 특성상 음성을 텍스트로 변환하는 작업이 어려운데, 중국어 학습도 진행하면서 중국시장도 도전할 예정이다"고 강조했다.