• 검색

카카오의 고백…"끊긴 다리와 같았다"

  • 2022.12.07(수) 16:46

개발자 콘퍼런스서 장애 원인·재발 방지책 공개
"향후 5년간 서비스 안정화에 3배 이상 투자"

"섬과 섬 사이에 다리를 만들 때 처음부터 끝까지 연결돼 있지 않다면 우리는 그것을 다리라고 부를 수 없습니다. 끝까지 완성되지 않은 다리는 건널 수 없기 때문입니다. 우리의 이중화도 바로 완성되지 않은 다리와 같았습니다."

남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장이 7일 개발자 컨퍼런스 '이프 카카오 데브 2022'에서 지난 10월 발생한 서비스 장애 원인과 재발 방지책에 대해 설명하고 있다./사진=이프 카카오 캡처

남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장은 7일 개발자 컨퍼런스 '이프 카카오 데브 2022'에서 이같이 말했다. 지난 10월 발생한 서비스 장애의 주요 원인으로 이중화 조치 미흡을 꼽은 것이다.

카카오는 재발 방지를 위해 하드웨어 설비부터 서비스 애플리케이션에 이르기까지 시스템 전체의 철저한 이중화를 적용키로 했다. 앞으로 5년간 서비스 안정화에 종전대비 3배 이상의 금액을 투자하고 전담 조직도 신설키로 했다.

외부 인사로서 비상대책위원회 재발방지대책 공동 소위원장을 맡은 이확영 그렙 최고경영자(CEO)는 서비스 장애 복구까지 오랜 시간이 걸린 데 대해 "이중화와 위기 대응 과정에서 미흡함이 있었다"고 지적했다.

이 소위원장은 과거 카카오톡 개발 등에 참여했던 인물이다. 그는 "카카오의 서비스와 인프라에 대한 경험을 기반으로 카카오의 현재 상황을 비교적 빠르게 파악할 수 있었다. 제삼자의 관점에서 객관적으로, 면밀히 분석하고자 노력했다"고 전했다.

그도 데이터센터 간 이중화에 주목했다. 데이터센터에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠른 복구가 가능했을 텐데 일부 시스템이 판교 데이터센터 안에서만 이중화돼 있어 장애 복구가 늦어졌다는 설명이다.

이 소위원장은 "서로 다른 데이터센터에 이중화가 돼 있어도 하나의 데이터센터에서 장애가 발생하면 다른 데이터센터로 자동 전환해주는 시스템이 작동해야 하는데 이 시스템마저 판교 데이터센터에만 설치돼 있었다"며 "이에 따라 수동으로 전환 작업이 진행돼 복구가 지연됐다"고 했다.

또 다른 원인으로는 서비스 개발·관리를 위한 운영관리 도구의 이중화가 미흡했다는 점을 꼽았다. 그는 "컨테이너 이미지를 저장하고 관리하는 시스템이나 일부 모니터링 도구 등을 화재 여파로 사용할 수 없게 됐다"며 "이로 인해 복구에 상당한 어려움을 겪었다"고 했다.

이중화 전환 후 가용자원도 부족했다. 판교 데이터센터가 마비된 만큼 이를 대신할 만큼의 가용자원이 확보돼 있어야 했는데 그렇지 않아 판교 데이터센터에 전원이 들어와 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다는 설명이다.

이 소위원장은 "개별 부서나 시스템마다 문제가 생기지 않도록 회사 차원에서 체계적인 이중화를 준비했어야 한다"고 지적했다.

이 소위원장은 "저는 제삼자로서 이번 카카오 서비스 장애의 원인을 분석하고 진단할 수 있을 뿐 실제로 같은 문제가 재발하지 않도록 대책을 세우고 행동에 옮기는 것은 카카오의 역할과 책임"이라며 "카카오는 많은 이들의 아픈 경험으로부터 알게 된 것을 진중하게 받아들여야 한다"고 조언했다.

카카오는 재발 방지를 위해 우선 데이터센터를 '삼중화+∝' 구조로 개선하기로 했다. 3개의 데이터센터 가운데 하나가 무력화되는 상황에서도 이중화를 담보하기 위한 조치다. 주요 서비스는 멀티클라우드를 활용해 서비스 연속성을 더욱 강화한다.

서비스 안정화 투자도 확대한다. 고우찬 재발방지대책 공동 소위원장은 "개선 사항들은 초기 투자비를 제외하고도 연간 운용비만 몇백억 혹은 몇천억 단위의 과감한 투자 결정이 있어야 하는 것들이 대부분"이라며 "향후 5년간은 지난 5년간 투자금액에 약 3배 이상 규모로 투자를 확대하겠다"고 했다.

이와 함께 인프라 조직을 재구성한다. 서비스 안정성을 보장하기 위해 IT 엔지니어링 전문가들로 구성된 전담 조직을 만들 방침이다. 해당 조직은 기존 개발 조직에서 분리돼 별도의 상위 조직으로 격상된다. 카카오 엔터프라이즈 고우찬 부사장이 해당 조직을 이끌어갈 예정이다.

남궁 소위원장은 "재발 방지대책을 세우면서 이랬더라면 이런 불상사가 일어나지 않았을 텐데라는 생각을 여러번 했다. 늦었지만 지금이라도 반성하고 미래에는 이런 사고가 발생하지 않도록 최선을 다할 것"이라며 "앞으로도 카카오의 서비스 안정화가 최우선 과제이며 사회적 책임이라는 것을 항상 명심하겠다"고 했다.

naver daum
SNS 로그인
naver
facebook
google