CJ 온스타일 아키텍처팀의 전영배 엔지니어는 실시간 모니터링과 긴급 대응 시스템 구축 사례를 발표했습니다.

도전과제: 미디어 커머스 특성상 라이브 방송 중 장애는 고객 경험과 매출에 직결됩니다. 그러나 기존에는 알림 채널이 메일, 문자, 카카오톡 등으로 분산되어 있어 이슈 인지가 늦어지고, 야간이나 이동 중 대응을 위해 항상 노트북을 들고 다녀야 하는 불편이 있었습니다.

솔루션: “태룡봇”이라는 Slack 전용 IT 장애 봇을 개발했습니다. 분산된 알림을 Slack으로 통합하고 위험도별 채널을 분리했으며, Datadog 알림 시 자동 점검이 시작되어 에러 발생 지점을 탐색하고 스레드 리포트로 공유합니다. 슬래시 커맨드로 DB CPU 긴급 스케일업, 라이브 상품 체크, 그래프 조회 등을 즉시 실행할 수 있습니다.

더 자세한 내용은 세션 다시보기를 통해서 확인해주세요.