자율주행·인공지능(AI) 등에 학습시킬 수 있는 수집된 데이터 집합체, 이른바 '데이터 셋(Set)' 구축 움직임이 국내외에서 포착되고 있다는 보고서가 나와 세간의 관심을 끌고 있음.
정보통신기획평가원은 '韓, 자율주행·자연어 연구 등 첨단기술 지원하는 데이터셋 구축'이라는 제목의 보고서를 최근 발간. 데이터셋은 특정 지역의 지형 및 지물, 인간의 언어 등 다양한 분야에서 수집해 AI 및 자율주행 개발 등에 활용할 수 있는 데이터를 하나로 모은 것.
네이버의 연구개발(R&D) 전문 자회사 네이버랩스는 올 5월 실내외 고정밀 지도 및 측위 데이터 등을 모은 데이터셋을 외부에 개방.
그간 네이버랩스는 항공사진 및 AI를 활용해 '하이브리드 HD 매핑'을 기반으로 데이터셋을 구축. 해당 기술은 항공사진을 활용한 3차원(3D) 고정밀 제작 기술로 3D 공간과 실제 사물의 위치 오차범위를 최대 16㎝ 이내까지 줄이는데 성공.
통상 자율주행 기술은 오차범위를 20㎝ 정도까지 허용
구체적으로 △마곡 △판교 △상암 △여의도 지역 실외 고정밀 HD맵과 모바일 매핑 시스템 R1을 통해 스캔한 클라우드 데이터 등이 공개 대상.
특히 네이버랩스가 첫 공개한 실내 측위 데이터셋은 백화점 및 복합공간 등 일상공간을 그대로 구현한 세계 최대 규모 정밀 데이터라는 점에서 주목.
해당 데이터는 실내 고정밀 지도 제작 로봇, 백팩 타입 모바일 매핑 시스템 등 네이버랩스 독자 기술력으로 구축. 모바일 로봇, 가상현실 등 다양한 연구 분야에 활용 가능할 전망.
이 같은 매핑 기술을 통한 데이터셋 구축은 글로벌 빅테크 기업들도 관심을 지니는 사항. △로봇 △자율주행차 △메타버스 등 미래 서비스는 위치 정확성이 높은 디지털 지도 위에서 구현 가능하며, 이를 통해 더욱 시너지를 발휘할 수 있기 때문.
미국 구글은 구글맵 활성 범위를 미국 전역 25개 도시 이상으로 확대해 데이터셋을 구축하는 프로젝트를 진행 중. 구글 자율주행 소프트웨어 '웨이모 드라이버'에 결합하는 고정밀 지도를 제작하기 위한 목적.
웨이모 드라이버는 고정밀 지도를 기반으로 특정 도로에 대한 지형 데이터 등을 학습. 이에 기반해 보행자, 차량 등 움직이는 물체와 관련된 데이터 처리를 고도화해 돌발 상황에 대비.
일본 소프트뱅크는 인공위성과 지상 측위 거점을 활용해 사물 위치 오차를 3㎝ 이내로 줄인 위치 정보 서비스 개발 진행. 이를 위해 일본 국토지리원 측위 거점 1300개의 2.5배에 달하는 측위 거점 3300개를 확보해 데이터셋 구축에 몰두.
중국 화웨이는 2019년 정부 허가를 받아 고정밀 지도 개발에 착수. 중국 전역 고속도로와 △베이징 △상하이 △광저우 △선전 등 4개 도시 일반도로 고정밀 지도를 데이터셋으로 구축해 관련 서비스를 제공할 계획.
한국 스타트업 업계에서는 한국어 자연어를 AI에 학습시키려는 움직임이 일고 있음. 그간 연구 기반이 되는 공개 데이터셋은 대부분 영어로 이루어져 한국어 고유 특성을 고려한 연구가 어려웠던 실정.
AI 스타트업 업스테이지는 공신력을 갖춘 '한국어 자연어 이해 평가 데이터셋'(KLUE)를 구축해 올 5월 공개.
KLUE 프로젝트는 뉴욕대, 카이스트, 서울대, 연세대, 네이버 클로바, 카카오 엔터프라이즈 등 대학 및 기관에서 31명의 자연어 처리 전문가가 약 7개월에 걸쳐 긴밀하게 협업한 성과.
KLUE는 영·한 번역문이 아닌 일상생활에서 사용하는 한국어 원문으로만 제작해 한국어의 정확한 이해와 추론 능력을 평가 가능.
AI 알고리즘을 개발하고 고도화하기 위해 알고리즘 연구 노하우뿐만 아니라 각각의 알고리즘에 대응하면서 형식·규격 등에 부합하는 기초 데이터셋 구축이 중요하다고 보고서는 지적.
정부 차원에서도 AI 학습용 데이터 구축 및 의료데이터셋·AI 개발 등 데이터 구축 사업을 본격 추진하고 있는 만큼, 이를 실제 현장에 적용해 고품질 데이터의 실효성 확보 지원이 필요하다고 보고서는 마무리.