지난번에 약속한대로 빅데이터와 M씨를 알게 된 계기를 말하려면 씨티서치(CitySearch)에서 검색 및 데이터 통합·공유 프로젝트를 하며 빅데이터를 접했던 이야기부터 먼저 시작해야 할 듯하다.
2006년 말경 O씨로부터 citysearch.com에서 같이 일할 생각이 없냐는 연락이 왔다. O씨는 필자가 워너브라더스 영화사 IT 부서에서 연구개발(R&D) 컨설팅을 하고 있을때 부사장으로 있던 이집트 출신의 간부인데 엔지니어들에게 악명이 자자했다.
미국 IT업계에선 각 소프트엔지니어들의 업무가 늦어도 1,2주전에는 정해져 있어서 각자 자기 스타일대로 계획을 짜서 업무를 완수한다. 그런데 O씨는 갑자기 엔지니어에게 새 업무를 배당해 몇시까지 결과를 달라고 하는 등 업무배정이 무척 자의적이어서 종종 원성을 사곤했다.
한번은 O씨가 고위급 간부들간의 회의에서 보여줘야 할 데이터 발생 프로그램을 인도계 엔지니어가 차일피일 미루다 끝내지 못한 일이 발생했다. 다음주 월요일이 미팅인데 이미 금요일이라 O씨에겐 아주 난감한 상황이었고 내게 그 일을 해 줄 수 있느냐는 부탁이 들어왔다.
주말에 일하는걸 좋아하지 않는 나로서는 별로 들어주고 싶지 않은 요구였지만, 결국 하게 되었고 다행히도 일요일엔 그 프로그램을 완성해 데이터를 보여줄 수 있었다. 그 일로 인해 O씨에게서 깊은 신뢰를 얻었고 이번에 씨티서치에서 CTO(최고기술경영자)를 맡아 새로운 검색 프로젝트를 하게 됐으니 같이 일하자는 이야기를 들었다. 마침 그때 새로운 프로젝트를 하고 싶었고 또한 검색엔진 관련 프로젝트라 더욱 관심이 갔다. 내겐 당연히 좋은 기회였음으로 O씨의 제안을 받아들여 씨티서치에서 검색관련 R&D를 담당하게 되었다.
씨티서치는 미국내에서 식당 등 사업체를 검색하고, 이를 이용한 사람들이 별점 및 사용후기를 올려 다른 사람들에게 그 사업체의 이용 여부를 결정할 수 있도록 정보를 제공하는 사업체 검색 사이트다. 이곳에서는 usadata.com으로부터 미국 전체의 사업체 데이터를 사서 데이터베이스에 올리고 패스트(FAST) 검색엔진으로 사업체 검색서비스를 제공한다. 전미의 사업체만 해도 1백만개 이상이었고 각종 이벤트 정보도 제공하였으므로 정말 큰 데이터 정보를 제공하는 곳이었다.
필자가 담당한 프로젝트는 검색엔진을 유료의 패스트 검색엔진에서 오픈소스인 아파치 솔라(Solr)엔진으로 바꾸어 기존의 검색 서비스를 그대로 제공하되, 연간 사용료 없이 무료로 솔라 검색엔진을 사용하는 것이었다.
재미있는 것은 미국의 사용자들은 아마도 초등학교 때부터 글쓰기 교육이 중점학습이라 그런지 식당 등을 이용하고 나면 사용후기를 성실하게 잘 남긴다는 것이다. 결국 이 사용후기가 씨티서치 입장에서는 일종의 자산이 됐다. 필자의 또 다른 프로젝트는 사업체 정보 및 사용후기를 XML 문서 데이터로 바꿔서 AOL(America Online) 및 Yahoo 등에 파는 것이었다. 그 XML 데이터를 AOL 등의 회사들은 자체 데이터베이스 형식으로 변환·저장하고 자체 검색엔진으로 사업체 검색서비스를 제공한다.
이때 사용된 XML 데이터에는 씨티서치의 트랙킹 데이터가 있다. 예를 들면, 씨티서치에서 식당 A와 그 사용후기 데이터를 AOL에 제공했고, 만약 사용자가 구글 검색을 하였는데 AOL 사이트에서 식당 A를 보여주는 결과과 나와서 그 링크를 클릭하면 씨티서치와 AOL에 동시에 그 사용자 클릭 정보가 저장되어 사용자들의 클릭횟수에 따라 AOL은 씨티서치에 보상을 해야 한다. 씨티서치에서는 이러한 사용자 후기 정보를 공유하거나 광고 등으로 사업을 운영하고 있다.
하지만 백만개가 넘는 사업체 데이터를 XML데이터로 바꾸거나 검색엔진에 이 데이터들을 등록시키는 프로그램은 2007년 당시 컴퓨터로 몇시간을 돌려야지만 가능한 일이었다. 이때 어디서인지 모르지만 빅데이터라는 개념과 하둡 시스템 및 맵리듀스(MapReduce) 계산 방식에 관한 이야기들이 떠돌기 시작하였다.
검색 및 데이터 공유·통합에 전문가가 되었다는 생각에 슬슬 이쪽일이 지겨워지던 필자에게 빅데이터라는 새로운 개념은 정말 단비와도 같았다. 이때부터 필자는 빅데이터와 하둡 맵리듀스 시스템 관련 문서들을 찾아 공부하기 시작했고, 톰 화이트(Tom White)라는 엔지니어를 발견하였다. 톰 화이트는 아파치 하둡 프로젝트에 초창기부터 관련돼 하둡블로그(http://www.tom-e-white.com)를 운영하며 책까지 낸 인물이다.
다음회에 톰 화이트, 메릴랜드 대학의 지미 린(Jimmy Lin) 교수와 M씨에 관한 이야기를 계속한다.