• 검색

헬스케어 스타트업에 단비…3300억 들인 데이터댐 풀린다

  • 2021.06.18(금) 10:00

과기부, AI 학습용 데이터 4.8억건 민간 개방
헬스케어·자율주행·자연어 데이터 수요 높아
다양한 질병진단 데이터 온·오프라인서 활용

정부가 인공지능(AI)을 학습시킬 수 있는 대규모 데이터셋(Set)을 풀기로 했다. 스타트업이 확보하기 어려운 암, 뇌질환 등 실제 질병진단 데이터를 온·오프라인서 확인할 수 있게 해 헬스케어 사업을 활성화한다는 방침이다.

18일 과학기술정보통신부는 이날부터 'AI 허브' 홈페이지를 통해 AI 학습용 데이터 60종을 개방한다. 이미 구축해둔 170종(약 4억8000만건)의 데이터를 순차적으로 연내 개방할 계획이다. 최종 목표는 오는 2025년까지 1300종의 데이터를 신규 구축·개방하는 것이다.

170종 데이터 구축에 정부가 투입한 예산은 약 3300억원에 달한다. 대규모 원시 데이터 수집과 라벨링 작업, 품질 검증에 수천억원이 소요됐다. 작년 7월 발표된 '한국판 뉴딜 종합계획'에 따라 추경 예산이 편성됐으며 향후 투입 금액은 더 늘어날 예정이다. 

가장 민간 수요가 높을 것으로 예상되는 데이터는 음성·자연어, 헬스케어, 자율주행 분야 데이터다. 170종 데이터 중 이 3대 분야 데이터는 △대화·명령어·방언 발화 음성 39종 △암, 치과 등 의료 데이터 32종 △주행영상, 장애물 등 자율주행 데이터 21종 등으로 절반 이상을 차지하고 있다. 

특히 헬스케어 데이터는 실제 환자의 질병진단 데이터라는 점에서 가치가 있다. 헬스케어 분야를 제외한 음성·자연어, 자율주행 등 7개 분야의 경우 배우를 기용해 정해진 환경에서 구축한 시나리오 기반 데이터다.

헬스케어 데이터는 AI 허브와 연결된 '안심존' 홈페이지에서 오는 30일부터 개방된다. 대부분의 데이터는 비전(이미지)·영상 데이터다. 예컨대 폐암 환자의 CT 자료를 보고 싶다면 암 진단 데이터 파일에서 찾을 수 있다. 하반기 중 병명으로 데이터를 검색할 수 있게 시스템을 고도화할 계획이다. 

안심존 온라인 홈페이지와는 별개로 오프라인 안심존도 마련한다. 서울 신촌 세브란스 병원과 강남 성모병원 등에 안심존이 마련된다. 헬스케어 데이터를 필요로 하는 이가 이곳에 방문하면 내부에 마련된 컴퓨팅 시스템을 통해 AI 학습을 받고 알고리즘을 받아 갈 수 있다.

정부는 '이루다 사태'를 반면교사로 삼고 개인정보 침해 소지가 있거나 혐오, 편향 표현이 있는 데이터를 걸러내는 데도 주력했다. 헬스케어 데이터의 경우 실제 환자의 기록이므로 개인정보 비식별조치를 일일이 거쳤다. 온라인 안심존에서는 워터마크가 찍힌 이미지만 육안으로 확인할 수 있다.

AI 학습용 데이터는 대한민국 국민 누구나 활용할 수 있다. AI 허브 홈페이지 회원가입 후 휴대폰 본인인증을 거치면 데이터 다운로드가 가능하다. 과기부는 외국인에게까지 정보를 공개할지는 향후 논의를 통해 결정하겠다고 밝혔다.

과기부 관계자는 "대규모 데이터셋을 정부 주도로 구축해 개방하는 것은 글로벌 최초의 사례"라며 "자체 학습용 데이터를 구축하기 어려워했던 헬스케어, 자율주행 분야 스타트업들이 인공지능 유효성을 높이는 데 활발히 사용할 것으로 기대된다"고 말했다.

naver daum
SNS 로그인
naver
facebook
google