데이터는 인공지능(AI) 발전에 중요한 역할을 한다. 그동안에는 방대한 데이터와 이를 활용하는 빅데이터가 주목 받았다. 하지만 최근 들어 규제나 환경 문제 등 빅데이터의 한계가 부각되면서 스몰데이터가 대안으로 떠오르고 있다. 스몰데이터란 개인의 취향이나 라이프스타일 등 사소한 행동 등에서 나오는 개인화된 데이터를 말한다.
5일 정보통신산업진흥원(NIPA)의 글로벌 ICT 주간동향리포트(인공지능 미래트렌드 주목받는 '스몰데이터')에 따르면 최근 구글의 '스위치 트랜스포머', 마이크로소프트(MS)와 엔비디아의 'MT-NLG', 베이징즈쥐안연구소의 '우다오 2.0' 등 데이터 학습 속도를 획기적으로 높인 초거대 AI 기술 경쟁이 심화하면서 빅데이터에 대한 관심이 고조됐다.
업계 전문가들은 지금까지 빅데이터가 비약적인 발전을 이루기는 했으나 이처럼 확장된 접근 방식은 데이터가 충분히 방대하지 않은 전통 산업 또는 신흥 산업에는 적합하지 않다고 지적한다. 방대한 사용자 데이터를 확보할 수 있는 인터넷 기업과 달리 AI 훈련을 지원하기 위한 방대한 데이터를 수집하기 어렵기 때문이다.
여기에 최근 개인정보 등 데이터에 대한 보호 규정이 국가마다 강화되면서 AI 기술에 활용할 수 있는 데이터도 제한되기 시작했다. 시장조사기관 가트너는 오는 2025년까지 조직의 70%가 빅데이터에서 스몰데이터로 초점을 전환해 AI 분석을 수행할 것으로 전망했다.
현재의 빅데이터 기반 AI 산업은 에너지 소비가 높아 환경 문제를 야기한다는 지적도 받고 있다. 이에 환경적 측면에서도 방대한 빅데이터를 활용하기보다 데이터 양이 작지만 품질 높은 스몰데이터 활용도를 높이는 것이 유리할 것이라는 전망이 나온다.
디지털 산업의 공해 문제를 고발한 '월드와이드웨이스트' 저자인 제리 맥거번은 "AI는 에너지 집약적인 기술이며 AI에 대한 수요가 높아질수록 전력 사용량도 증가하게 될 것"이라고 우려했다. 그는 "2035년까지 인간이 2000제라바이트의 데이터를 생성할 것"이라며 "여기에 소비되는 에너지는 천문학적 수준에 달할 것"이라고 경고했다.
스몰데이터의 장점은 크게 4가지 측면에서 살펴볼 수 있다. 먼저 조직 간의 AI 능력 격차가 축소된다는 점이다. AI 산업에서도 데이터를 수집하고 저장, 처리하는 다양한 조직 간의 능력차로 인한 '빈부격차'가 발생하고 있으며 그 격차는 점차 확대되는 추세다. 스몰데이터를 활용해 AI 시스템을 구축할 경우 중소기업의 AI 진입 장벽을 낮추고 기존 기업 프로젝트의 연구개발에 드는 시간과 비용을 절감할 수 있다.
데이터가 부족한 산업의 발전이 촉진된다는 것도 장점이다. 스몰데이터가 부족한 데이터를 보완할 수 있는 해결 방식이 될 수 있기 때문이다. 스몰데이터는 유의미한 데이터를 중심으로 시뮬레이션을 구축하거나 구조적 가설을 코딩함으로써 원하는 분석 결과를 도출할 수 있다.
불필요한 데이터도 감소한다. 기존의 빅데이터는 불필요한 데이터를 분류하고 삭제하는 데 많은 인력과 리소스가 필요했다. 하지만 스몰데이터는 전이학습(Transfer Learning), 베이지안 신경망(Bayesian Neural Network) 등 기술을 적용해 불필요한 데이터 양을 크게 줄일 수 있다.
마지막으로 개인정보 수집량이 감소한다는 점이다. 세계적으로 개인정보 보호를 위한 정책과 규정이 잇달아 발표되고 있는 만큼 스몰데이터 방식을 채택하면 정보 수집 행위 자체를 크게 줄일 수 있다.
보고서는 전문가들의 말을 인용해 "분석에 요구되는 데이터 양을 줄이거나 구조화되지 않은 다양한 데이터 소스에서 더 많은 가치를 추출함으로써 적합한 데이터를 더 효과적으로 사용할 수 있다"며 "스몰데이터, 와이드데이터 등 새로운 분석 기술로의 전환이 필요하다"고 말했다.