= 카카오 제공
= 카카오 제공

[이코리아] 카카오는 14일 안정적이고 신뢰할 수 있는 IT 서비스를 제공하기 위한 대책과 실천 과제 등을 담은 ‘카카오 안정성 보고서’를 발간했다.

이번 보고서는 카카오의 ▲모니터링 시스템 ▲체계적 장애 대응 ▲장애 모의훈련 ▲정보 보호 실천 ▲다중화 시스템 ▲BCP(Business Continuity Plan) 및 신규 데이터센터 관련 내용을 차례대로 담고 있다. 카카오페이, 카카오엔터테인먼트, 카카오모빌리티, 카카오뱅크 등 주요 공동체의 정보 보호 관리 체계와 안정적인 서비스 운영을 위한 다중화 시스템 등의 노력도 같이 소개했다. 

카카오는 모니터링 시스템을 구축하고 실시간 점검 및 장애 확산을 최소화하기 위해 노력하고 있다. 카카오톡을 지속적으로 개선하고 서비스 안정성을 확보하기 위해 실시간 서비스 대시보드(모니터링 도구)를 활용해 복합적인 모니터링을 진행하고 있다. 체계적인 장애 대응을 위해 정기 훈련과 함께 다양한 상황을 가정하고 진행하는 비정기 훈련도 실시한다.  

서비스 안정성을 강화하기 위한 투자도 늘렸다. 카카오의 정보보호 투자액은 2023년 기준 209억 이상으로 전년 대비 약 48.8% 증가했으며, 정보보호전담 인력 또한 61명에서 103명으로 전년대비 68.9% 증가했다.

다양한 기술 인증을 획득하며 보안 부문의 역량도 인정받았다. 카카오는 ISO 27001(정보보호 관리체계에 대한 국제 표준 검증), ISO 27701(개인정보 관리체계에 대한 국제 표준 검증), ISO 27017(클라우드 서비스 인증)과 함께 ISMS-P(국내 정보보호 및 개인정보보호 관리체계 인증) 인증을 획득했다. 

= 뉴시스
= 뉴시스

카카오는 이번 보고서에서 데이터센터 장애가 발생할 때를 대비한 기술적 조치를 강조했다. 지난해 10월 경기 판교 데이터센터에 발생한 화재의 영향으로 카카오톡, 카카오T, 카카오맵, 카카오뱅크 등 전반적인 서비스에 장애가 발생하면서 이용자들의 불편이 잇따랐는데, 이와 같은 먹통사태가 재발하는 것을 방지하겠다는 것이다.

당시 카카오는 먹통사태 직후 기자회견을 통해 자체 데이터센터를 비롯해 인프라 투자를 크게 확대하고, 데이터센터 한 곳이 완전히 멈추더라도 원활하게 서비스를 제공할 수 있는 수준의 인프라를 구축하겠다고 밝힌 바 있다. 

또 12월에는 연례 개발자 콘퍼런스 ‘이프 카카오 데브 2022’를 열어 서비스 장애의 구체적 원인으로 데이터센터와 운영관리 도구의 이중화가 미흡했으며, 가용 자원 역시 부족했던 것을 꼽았다. 또 이에 따라 재발 방지 대책으로 시스템 전체를 철처히 다중화하고 데이터센터와 IT 엔지니어링에 대대적인 투자를 약속했다.

당시 이채영 재발방지 대책 소위원회 부위원장은 데이터센터, 데이터와 서비스, 플랫폼과 운영도구 등 인프라에서부터 서비스 애플리케이션에 이르기까지 시스템 전체에 철처한 이중화를 적용하겠다고 밝혔으며, 모니터링 시스템을 다중화하고 운영관리 도구 역시 삼중화 하는 등의 개선 사항을 제시했다.

또 4600억 원의 예산을 투입해 안산 데이터센터의 운영 안정성을 위한 IT 엔지니어링 전담 조직과 인재를 확보하고 재해와 사고 피해 최소화를 위한 비상대응계획과 데이터센터 DR 체계 구축 등을 약속했다.

= 카카오 안정성 보고서 갈무리
​= 카카오 안정성 보고서 갈무리​= 카카오 안정성 보고서 갈무리

그렇다면 이번 보고서에 카카오가 약속했던 장애 재발 방지책은 얼마나 반영되어 있을까. 카카오는 모니터링 부분에서는 서비스 상태 대시보드를 통해 여러 데이터센터에서 운영하는 서비스의 상태를 실시간으로 파악하고 있으며, 이상 상황이 발생할 경우 알림을 발송하는 모니터링 및 알림 플랫폼도 운영하고 있다고 밝혔다.

장애 대응 체계에 대해서도 설명했다. 카카오는 장애 대응 조직을 구분하고 업무의 책임과 권한을 명확히 하여 대응 과정에서 혼선을 최소화할 수 있도록 했다고 밝혔다. 또 장애 상황을 트래픽 예측이 가능한 이벤트, 트래픽 예측이 불가능한 이벤트, 데이터센터 이벤트로 구분해 각 상황에 따른 대응책을 수립했다. 

또 장애의 등급을 3단계로 구분했다. 3등급 장애는 이용자가 직접 체감할 수 없는 수준의 장애 혹은 사전에 공지된 서비스 보수작업의 경우다. 2등급 장애는 일부 이용자가 체감할 수 있는 수준의 장애로 발생 빈도가 가장 높으며, 1등급 장애는 서비스가 정상적으로 작동하지 않아 다수의 이용자가 서비스에 접근할 수 없는 상태를 의미한다.

= 카카오 안정성 보고서 갈무리
= 카카오 안정성 보고서 갈무리

장애에 대응하는 업무는 크게 컨트롤타워, 오퍼레이터, 커뮤니케이터, 운영책임자 네 가지 역할로 나누어졌다. 컨트롤타워는 장애가 서비스에 미치는 영향과 장애 범위에 따라 장애의 등급을 결정해 외부 커뮤니케이션을 담당하는 운영책임자에게는 장애 등급 및 서비스 상태 정보를 공유하며 장애 처리 업무를 수행하는 오퍼레이터에게는 구체적 작업 내용을 지시한다. 

오퍼레이터는 컨트롤타워를 중심으로 장애 처리 업무를 수행하며, 커뮤니케이터는 컨트롤타워와 오퍼레이터가 장애 대응에 집중할 수 있도록 조직 내 상황을 정확하게 파악하고 소통 채널에 공유하며, 대시보드에 대응 이력과 이벤트를 실시간으로 정리한다. 

장애 대응 과정은 크게 ①장애 감지, ②장애 선언, ③장애 처리, ④장애 종료, ⑤후속 대응의 5단계로 구성된다. 서비스 장애 발생을 인지한 카카오 구성원이 카카오톡이나 다른 메신저 서비스의 보조 소통 채널을 통해 장애 현황을 공유하고 담당 개발자가 장애 발생을 확인하면 장애 상황이 선언된다.

이후, 보조 소통 채널을 통해서 각 부서에 장애 관련 내용이 전파되면  각 서비스 기획팀이 대시보드를 생성하고, 개발팀은 대시보드에 개발팀 수행 내역, 운영팀 수행 내역을 시간대별로 기록한다. 장애를 처리하는 중에는 장애 상황을 해결하는 오퍼레이터가 메신저 서비스나 화상회의 서비스를 사용해 소통하며 장애를 처리한다. 장애가 종료되면 개발자가 장애 종료를 선언하고, 후속 대응으로 잔여 이슈 등 장애 여파 후속 처리와 회고를 진행한다. 

카카오는 커뮤니케이션 과정에서의 혼선을 줄이기 위해 노력하고 있으며, 연간 2~3회의 비정기 훈련을 통해 매뉴얼에 따라 각 역할이 잘 수행되고 있는지 확인하는 등 장애 대응 업무 체계를 개선해나가고 있다고 밝혔다.

= 카카오 안정성 보고서 갈무리
= 카카오 안정성 보고서 갈무리

카카오는 2024년 1분기부터, 첫 자체 데이터센터인 ‘카카오 데이터센터 안산’을 본격적으로 운영할 예정이며, 이를 시작으로 신규 데이터센터를 꾸준히 확충할 계획이다. 안산 데이터센터는 하이퍼스케일(10만대 이상의 서버를 운영할 수 있는 초대형 데이터 센터) 데이터센터로, 최대 12만대의 서버를 운영할 수 있으며 저장 가능한 데이터량은 6EB(엑사바이트)에 달한다. 24시간 무중단 운영을 위한 무정전 전력망을 갖추고 있으며 전력, 냉방, 통신 등 주요 인프라를 이중화했다. 또 화재, 침수, 해일, 강풍, 지진 등 재난 재해 설비를 완비했다.

카카오 홍은택 대표이사는 “카카오는 언제나 만약의 상황까지 가정해 준비하고 있으며, 그럼에도 발생한 예상치 못한 장애는 빠르게 대처해 이용자의 평범한 일상을 유지하는 것을 기본원칙으로 삼고 있다. 일상의 당연한 연결이 안전하고 편리하게 유지될 수 있도록 최선을 다할 것”이라고 말했다.

저작권자 © 이코리아 무단전재 및 재배포 금지