대학생 1000명 가운데 가족의 연소득이 10억원 이상인 비율이 1%라고 하면, 각 학생 가족의 소득을 구체적으로 알 수 없을 것이다. 익명성이 있는 가운데 통계 정보가 생산됐다고 볼 수 있다. 하지만 홍길동이라는 학생 1명이 퇴학한 이후 통계가 1%보다 낮게 발표되면 개인정보보호 수준이 완전히 달라진다. 홍길동이 퇴학했다는 사실을 아는 사람은 그의 가족 소득을 추정할 수 있기 때문이다.
개인정보보호위원회가 16일 서울 중구 서울중앙우체국에서 개최한 제5차 개인정보 미래포럼에선 이같은 빅데이터 분석 과정에서 발생하는 개인정보보호의 맹점을 막는 기술 '차분 프라이버시'(Differential Privacy)가 논의됐다.
이날 발제에 나선 정성규 서울대 통계학과 교수는 "차등정보보호로도 불리는 이 기술은 데이터 처리 기업의 정보보호 정도를 측정하는 기준이면서, 이러한 기준을 만족시키는 기법 등을 통칭한다"며 "이를 통해 통계와 트렌드를 파악하면서 개인정보는 보호할 수 있는 것"이라고 설명했다.
정 교수에 따르면 차분 프라이버시를 구현하는 방법은 '잡음'을 추가하는 것이 대표적이다.
앞서 언급된 대학생 가족소득 분석에서 1000명이란 분석 대상이 되는 숫자를 바꾸는 방식 등을 통해 통계를 살펴보는 것이다. 이렇게 하면 큰 틀의 통계를 파악하는데 지장이 없으면서, 특정 학생 가족의 소득을 파악할 수도 없도록 할 수 있다는 설명이다. 물론 이런 잡음의 정도가 너무 지나치면 통계의 가치가 떨어지므로 정교하게 구성할 필요가 있다는 조언이다.
이와 함께 데이터를 저장한 서버가 공격당할 가능성이 없도록 해야 한다. 개인정보는 퇴학생 한 명을 제외한 데이터와 이전 데이터를 교차 분석하는 방식을 동원할 때 더욱 쉽게 노출되는 특징이 있기 때문이다.
이런 차분 프라이버시 방식은 이미 구글, 링크드인, 마이크로소프트 등 미국 대형 정보기술(IT) 기업들이 구사하고 있다고 정 교수는 소개했다. 이를 통해 환경·쇼핑·인종 비율·프로그램 사용 시간 등 유용한 정보를 파악하고 사업에 활용하고 있는 것으로 알려졌다.
정성규 교수는 "차분 프라이버시는 개인정보보호와 정밀한 분석 간의 균형을 맞추는 중요한 기술"이라며 "앞으로 더욱 정교한 알고리즘, 데이터 유용성을 보장하는 연구가 진행되면서, 개인정보와 보안을 모두 고려한 맞춤형 솔루션도 등장할 것으로 예상된다"고 말했다.