AI가 악용된다면?…네이버, 대응체계 발표

김동훈 기자 99re@bizwatch.co.kr
2024.06.17(월) 10:32

통제력상실·악용위험 차단
문화적 다양성도 반영 예정

네이버가 인공지능(AI)의 잠재적 위험에 대응하는 체계를 수립했다.

네이버는 17일 자체 기술 채널 '채널 테크'를 통해 'AI 세이프티 프레임워크(이하 ASF)'를 발표했다. AI 시스템이 초래할 수 있는 위험을 각각 '통제력 상실 위험'과 '악용 위험'으로 정의하고, 이에 대응하기 위한 방법을 고안했다.

우선 통제력 상실 위험을 완화하기 위해 'AI 위험 평가 스케일'을 통해 AI 시스템의 위험을 주기적으로 평가하고 관리할 계획이다. 특히 현존 최고 성능의 AI 시스템을 '프런티어(frontier) AI'로 정의하고, 이 기술 수준에 해당하는 AI 시스템에 대해서는 3개월마다 위험 평가를 수행할 방침이다.

또한 시스템의 능력이 기존보다 6배 이상 급격히 증가한 경우에는 그 시점에 추가 평가가 이뤄진다.

AI 시스템의 악용 가능성에는 'AI 위험 평가 매트릭스'를 적용해 대응한다. 사용 목적과 안전 조치의 필요성 정도에 따라 각각 다른 방법으로 위험을 관리하는 방식이다.

예를 들어 생화학 물질 개발과 같이 특수한 목적으로 사용되는 AI 시스템은 특별한 자격이 있는 사용자에게만 제공해 위험을 완화한다. 또한 사용 목적과 관계없이 안전 조치의 필요성이 높은 AI 시스템이라면 추가적인 기술적·정책적 조치를 통해 위험이 완화될 때까지는 배포하지 않기로 했다.

네이버는 각국의 문화적 다양성과 지정학적 특성 등을 반영해 ASF를 더욱 고도화한다는 계획이다.

한국 외 다른 지역의 정부·기업과 '소버린(Sovereign) AI'를 공동 개발하며 특정 문화권에서 성립될 수 있는 AI 시스템의 위험을 식별하고, 위험의 정도를 측정하는 등 문화권의 특성을 반영하겠다는 구상이다.

실제로 네이버는 한국어를 기준으로 구축한 AI 안전성 강화 학습 데이터셋을 글로벌로 확장한 경험이 있다.

네이버는 지난해 세계 최고 권위 자연어처리 학회 중 하나인 'ACL 2023'에서 종교, 도덕 등 사회적으로 첨예한 이슈에 대해 AI가 편향적으로 발화하는 문제를 완화하기 위한 새로운 대량의 한국어 데이터셋을 제안한 연구를 발표한 바 있다.

최수연 네이버 대표는 "한국에서 '하이퍼클로바X'라는 소버린 AI를 개발한 경험을 통해, 문화적·지정학적 상황과 지역적 이해가 AI의 성능뿐만 아니라 안전성에도 영향을 미친다는 점을 실증했다"며 "다양한 지역 문화와 가치를 반영하는 다수의 AI 모델이 안전하게 사용될 수 있도록 적극적으로 기여할 것"이라고 말했다.