2007년경에 빅데이터를 처음 접하게 되었을때 무슨 말인지 굉장히 의아했다. 빅데이터, 큰 데이터…. 데이터가 크다는건 알겠는데 현재 시스템을 이용할 때 뭐가 문제인지, 새로이 뭘 해야 하는 건지 명확하지가 않았다.
그 당시에 빅데이터 저장 및 처리의 선두 주자는 당연히 구글이였다. 따라서, 구글의 파일시스템과 맵리듀스를 참고로 하여 만든 아파치 하둡 프로젝트가 이미 엔지니어들에게 알려지기 시작했다.
필자 또한 하둡 프로젝트에 관해 연구하기 시작했고 또한 톰 화이트(Tom White, 톰 화이트는 하둡 프로젝트를 구축하는 커미터로서 하둡 프로젝트의 원년 멤버이며 하둡 책의 저자로 유명하다)의 블로그와 책을 필독하며 하둡 예제들을 실행했다. 또한 매릴랜드 대학 (University of Maryland, College Park)의 지미 린(Jimmy Lin) 교수가 시작한 하둡 맵리듀스 강의 노트 및 예제 프로그램들을 공부했다. 동시에 로스앤젤레스 지역에서 연구 개발자들에게 새로운 기술을 무료로 강의하고 친목을 도모하는 하둡, 빅데이터 관련 모임도 열심히 다녔다.
이러한 노력의 결과 빅데이터를 해결하기 위해 가장 널리 쓰이는 솔루션인 하둡 시스템을 이해하게 됐고, 하둡 맵리듀스 알고리즘을 개발해 관련 논문도 몇개 낼 수 있게 되었다.
그러자 필자의 학교에서 빅데이터 관련 과목을 개설해야 겠다는 욕심이 생겼다. 지금도 마찬가지이지만 이 당시 하둡 및 그 생태계 시스템을 통합관리하는 시스템을 구축한 회사는 C사와 H사였다. 통합관리시스템은 하둡과 그 생태계 시스템을 몇십 또는 몇백개의 컴퓨터에 동시에 설치하게 해 주는 시스템이며 또한 설치후 사용자 인터페이스를 제공하여 생태계 시스템을 쉽게 관리하고 이용할 수 있게 해준다. 이 두 회사는 하둡관련 교육 시스템도 제공한다.
때마침 2011년 여름의 MUCMD 학회에서 C사의 수석과학자 제프 해머바커(Jeff Hammerbacher)를 만나서 필자의 아이디어를 이야기 하자 1편에서 언급한 C사의 교육담당자 M씨를 소개해 주었다. 다행히 M씨도 필자의 아이디어에 동감했다. 누이좋고 매부좋은 일이었다. 대학에서 C사의 교육자료를 가지고 하둡 및 생태계 시스템을 가르치면 필자의 입장에서는 하둡 기술을 선도하는 C사의 양질의 교육재료를 학생들에게 전파할 수 있게 되고, C사 입장에서는 향후 C사 기반의 시스템을 구축할 인재를 양성하는 것 뿐 아니라 선전효과까지 누릴 수 있기 때문이다.
M씨와 필자는 1년간의 준비끝에 C사의 교육시스템을 필자의 대학교에 접목시키는 계약을 맺었다. 그후 주립대학교 특유의 느린 행정을 극복하고 2013년 봄 학기에 마침내 하둡 빅데이터 과목을 학부/대학원 통합과목으로 가르치게 됐다. 강의는 매우 성공적이었다. 학생들은 산업계에서 가장 뜨거운 개념을 실습과 함께 배운다는 점을 무척 좋아했다. 특히 대학원생들로부터는 거의 만점의 강의 평가를 받았다. 이후 M씨는 대학과 하는 이 교육 프로그램을 확장해 C사의 정규 프로그램으로 만들었다.
2013년 여름 방학때에는 정부 초청으로 서울에 있는 중견기업인 I사의 보안데이터를 빅데이터 기술로 분석하는 프로젝트에 참여해 3개월반 정도 서울에 머무르게 됐다. 2012년 초에 빅데이터 세미나를 할 때와는 달리 대한민국에서도 빅데이터를 좀 더 심각하게 생각하는 분위기였고 대부분의 사람들이 상식적으로 빅데이터 개념을 알고 있었다. 물론 어떤 기술을, 어느 곳에 써야 하는지 모두에게 확실히 와 닿는 것 같진 않았다. 미국의 H사가 서울에 지점을 만들어 빅데이터 교육 및 구축에 애쓰는 모습도 보였다.
필자 또한 C사를 서울에 들여오자는 욕심이 생기기 시작했고 마침 USC(미국 남캘리포니아대학)에서 같은 랩을 나온 Y선배 및 그 후배인 B대표를 만나게 되었다. 우리 셋은 C사와 협력하여 빅데이터 교육 및 기반기술을 가져오자는 결의를 했다. 그리고 이번 가을에 C사의 M씨와 통화해 B대표와의 미팅을 주선했다. 1편에서 이야기한 대로 필자는 산호세에 도착, 서울에서 온 B대표를 데리고 M씨와 만나게 된 것이다.