지난해 10월15일 경기도 성남 판교 데이터센터 화재로 발생한 카카오톡 '먹통사태'가 1년이 지났다. 카카오는 데이터센터 추가 건립을 비롯해 인프라(기반시설) 다중화를 통해 지난해와 같은 사고가 재발하지 않기 위한 노력을 이어가고 있다.
카카오는 지난달 26일 데이터센터 다중화를 위해 경기도 안산 한양대학교 에리카 캠퍼스 내에 첫 자체 데이터센터인 '카카오 데이터센터 안산'을 완공했다.
카카오는 데이터센터 안산에 화재와 지진, 홍수를 비롯한 자연재해를 대비하기 위한 시스템을 갖췄다고 설명했다. 데이터센터 안산에는 대규모 화재에 대비한 4단계 화재 대응 시스템과 내진 설계, 홍수나 해일, 태풍, 지진 등에 대비한 전력·냉방·통신의 이중화가 적용됐다. 데이터센터는 내년 1분기 중 가동될 계획이다.
카카오는 데이터센터 안산 외에도 추가적인 데이터센터를 건립할 예정이다. 홍은택 카카오 대표는 지난해 10월 열린 기자회견에서 "경기도 시흥에도 2024년 데이터센터의 착공을 목표하고 있다"며 "이번과 같이 데이터센터 한 곳이 완전히 멈추더라도 원활하게 서비스를 제공할 수 있는 수준의 인프라를 구축하겠다"고 말하기도 했다.
카카오가 데이터센터 건립에 집중하는 이유는 판교 데이터센터에서 발생한 화재 당시 카카오의 데이터센터 이중화가 이뤄지지 않았다는 지적을 받아서다. 당시 화재로 인해 카카오톡, 카카오T를 비롯한 카카오의 주요 서비스가 멈췄고 서비스 정상화까지는 5일이 걸렸다.
이러한 지적에 대해 홍 대표는 "서비스의 주요 데이터와 서비스 응용 프로그램에 대한 이중화 조치는 됐으나 개발자의 주요 작업과 운영 도구가 이중화되지 못했다"고 설명했다.
홍 대표가 말한 '주요 작업과 운영 도구'의 이중화는 크게 권한 관리 도구와 소스(자원) 관리 도구로 나뉜다. 권한 관리 도구는 카카오 사내에서 쓰는 계정 인증과 권한을 관리하는 것을 뜻한다. 소스 관리 도구는 개발자가 개발한 코드를 비롯한 결과물을 관리한다. 이 중 소스 관리 도구의 이중화를 마치지 않은 상태에서 화재가 발생해 서비스 복구 시간이 오래 걸린 것이다.
카카오는 서비스 오류 발생 시 빠른 복구를 위해 운영 도구를 비롯해 데이터센터 내 모니터링(감시) 시스템, 데이터, 백본(기간망) 등을 삼중화 처리했다. 평소 구동 중이던 데이터센터가 멈췄을 때 대기 중이던 다른 데이터센터 2개가 서비스를 이어서 진행하고, 고장 난 데이터센터는 복구하는 방식이다. 마치 3인 1조와 같은 형태다.
조직체계도 재정비했다. 컨트롤타워의 부재를 복구 지연의 원인 중 하나로 꼽은 카카오는 정보기술(IT) 엔지니어링 전담조직을 대표 직할 부문으로 확대 편성했다. 또 대표를 위원장으로 하는 비상대책위원회를 구성하며 비상 대응 조직을 격상시켰다.
카카오 관계자는 "기술적 조치뿐만 아니라 BCP(비상대응계획) 종합 상황실 등을 별도로 구성해 신속한 재난 재해 대응이 가능한 조직 체계도 갖췄다"며 "다양한 모니터링 시스템, 오류를 빠르게 극복하기 위한 기술과 장비의 고도화 등 더욱 안정적인 서비스를 조성하기 위해 노력하겠다"고 말했다.