• 검색

빅데이터란 무엇일까-프롤로그①

  • 2013.12.02(월) 14:32

바쁜 한 주 였다. 남캘리포니아의 로스엔젤레스에서 북캘리포니아의 산호세까지는 약 340마일. 빅데이터 관련 미팅을 위해 547Km 거리를 6시간이나 운전해 산호세에 도착했다.

 

산호세는 세계 IT 산업의 성지로 불린다. 전세계 기업과 우수 인력들이 새로운 기술을 개발하고 투자를 유치하느라 여념이 없다. 도시 곳곳에서는 명성에 걸맞는 풍경을 엿볼 수 있다.

구글과 페이스북을 비롯해 마이크로소프트, 삼성과 같은 글로벌 IT 기업들의 브랜드들이 넘쳐난다. 프리웨이(*미국의 고속도로를 부르는 명칭이며 사용료가 없다)를 달리다 보면 '빅데이터'라고 써있는 거대한 광고 간판들을 만날 수 있다. 컴퓨터 경영정보학에 몸담고 있는 필자와 같은 사람들에겐 흥분감마저 느껴진다

장시간의 운전으로 몸이 뻐근했지만 산호세에 도착하자마자 H호텔에 묵고 있던 후배 B대표를 찾았다. 서울에서 만난지 두어달 만인지라 반갑게 인사를 하며 오늘 C사를 만나 어떤 이야기를 할 지 등을 논의했다. C사는 빅데이터를 선도하는 빅2 업체중 하나다. H사와 함께 빅데이터에서, 특히 하둡(Hadoop)과 생태계 시스템(ecosystems)으로 불리는 관련 기술들을 통합하는 시스템을 개발, 교육과 R&D, 컨설팅서비스 등을 종합적으로 제공하는 기업이다.

이들과 논의할 주제는 '빅데이터'. 한국이나 미국에 있는 필자의 지인들은 요즘 뉴스 등을 통해 자주 접하는 빅데이터에 대해 늘 궁금해 한다. 빅데이터의 개념과 실체가 도대체 뭐냐는 것이다. 빅데이터는 말 그대로 테라-바이트, 페타-바이트 등의 큰 데이터를 말한다. 큰 데이터란 의미 뿐 아니라 큰 데이터를 저장•처리할 수 있는 시스템을 말하며 보통은 하둡시스템을 지칭하기도 한다.

큰 데이터들로 인한 기술적인 문제를 처음 인지한 곳은 당연히 구글이다. 데이터의 기본은 저장과 처리인데 기존의 시스템에서 큰 데이터를 저장하려면 시스템이 엄청나게 비싸진다. 전세계의 데이터를 수집하는 구글의 입장에서 매일같이 늘어나는 이런 엄청나게 큰 데이터를 비싼 장비로 수집할 수는 없었다. 그래서, 구글만의 분산 파일Ï 저장 시스템을 만들어서 GFS, 즉 구글 파일 시스템이라고 이름지었다. 그리고 2003년도에 구글의 GFS 개발자들이 논문을 발표하여 GFS에 관한 자세한 정보를 제공했다.

또한 GFS에 저장된 데이터들을 처리하기 위해서는 분산병렬시스템, 즉 슈퍼컴퓨터가 필요한데 인공지능에서 흔히 쓰이던 맵리듀스 (MapReduce) 방식을 이용한 분산병렬시스템을 구현하고 2004년에 관련 논문을 발표해 구글 맵리듀스 연산 기술을 소개했다. 저장된 데이터들을» 분석하기 위한 빅테이블 (BigTable) 기술도 개발해 2006년도 논문에 제공했다.

구글의 GFS, 맵리듀스, 빅테이블 기술은 각각 이 아파치 프로젝트인 하둡 분산파일시스템(HDFS), 하둡, NoSQL(노시이퀄) 데이터베이스 프로젝트가 시작되는 계기를 마련했다. 이 하둡시스템은 우리가 쓰고 있는 컴퓨터를 네트워크로 연결, 분산병렬시스템으로 데이터를 저장하고 처리하는 것이다.

이를 통해 일반 기업들이 오픈소스인 하둡 시스템을 설치함으로써 싸게 슈퍼컴퓨터를 구축하고 데이터를 저장•처리할 수 있는 시대가 열리게 됐다. 쉽게 말하자면 50만원짜리 컴퓨터 100대를 네트워크로 연결돼 하둡시스템을 설치•구현하면 5000만원짜리 슈퍼컴퓨터를 가질 수 있는 시대가 막을 올린 것이다.

빅데이터 기술을 선도하고 있는 미국에서는 고객 관리분석, 소셜미디어 분석, 의료데이터 분석 등에 이미 많은 회사들이 이 기술을 이용하고 있다. 한국에서도 많은 고객정보를 보유하고 있는 통신사, 온라인게임 업체, 삼성•현대자동차•LG 같은 대기업에서 빅데이터 기술 및 서비스에 관심을 갖고 투자를 하고 있다. 하지만 숙련된 소트트웨어 기술인력 및 경험자들이 부족하다는 점이 애로로 작용하고 있다.

빅데이터 사업을 하려고 로스앤젤레스와 서울, 그리고 덴버에서 날아온 우리는 새로운 사업에 대한 기대와 희망을 가지고 산호세에서 미팅을 하게 됐다. C사의 M씨를 후배에게 소개시켜 주고 C사의 선도기술을 대한민국의 기술과 결합하려는 구상이다. 참고로 M씨는 콜로라도 주 덴버에서 재택근무를 하고 있고 한달에 한 번 정도 산호세에 있는 C사 본사를 방문하고 있다. 다음 편에서 M씨와의 만남과 빅데이터를 접하게 된 이야기를 소개한다.

naver daum
SNS 로그인
naver
facebook
google