공식 참고 자료: Get Started · CLI Commands · Sub-agents · Skills
왜 지표 규율이 중요한가
지표 규율이 없으면 복원력 작업은 경험담 수준에 머뭅니다. 팀은 어디에 투자할지 판단할 수 있는 측정 신호가 필요합니다.
핵심 지표 모델
| 지표 | 의사결정 활용 | 데이터 소스 |
|---|---|---|
| MTTD | 알림 품질/라우팅 점검 | 모니터링 타임라인 |
| MTTC | 완화 의사결정 속도 | 사고 의사결정 로그 |
| MTTR | 서비스 복구 효율 | 배포 + 검증 출력 |
| Evidence freshness | 종료 신뢰도 품질 | 명령 근거 아카이브 |
| Follow-up burn-down | 하드닝 실행 건전성 | 액션 백로그 |
심각도별 SLO 목표
- SEV-1: 엄격한 대응 시간 내 격리 및 롤백 경로 활성화
- SEV-2: 주요 성능/품질 저하를 합의된 시간 내 안정화
- SEV-3: 표준 사이클 내 계획된 보정 릴리스 완료
숫자 목표를 사용하고 주간 편차를 검토하세요.
데이터 품질 프로토콜
필수 타임스탬프 5개를 수집합니다.
- 사고 시작
- 최초 탐지
- 최초 완화 의사결정
- 안정 상태 검증
- 종료
타임스탬프 누락은 프로세스 결함으로 간주해야 합니다.
주간 복원력 리뷰 주기
- 목표 대비 위반 점검
- 반복되는 tail-latency 사고 분석
- 실패를 통제 백로그 카테고리로 매핑
- 상위 회귀 항목 오너/기한 지정
임계값-에스컬레이션 정책
지표마다:
- green: 정상
- yellow: 관찰
- red: 즉시 에스컬레이션
red 상태는 명명된 오너 경로를 자동 생성해야 합니다.
대시보드 규칙
- 평균만이 아니라 추세와 분위수 표시
- 심각도 레인 분리
- 분모/문맥 표시
- 모든 스파이크를 사고 기록에 연결
분기별 SLO 보정
분기마다:
- 안정적 달성 후에만 SLO 조정
- 의사결정에 쓰이지 않는 지표 제거
- 새 실패 클래스용 지표 1개 추가
고급 안티패턴
지표는 많고 액션은 적음
지표가 액션으로 이어지지 않으면 노이즈입니다.
SLO 오너십 미지정
오너 없는 SLO는 조용히 붕괴합니다.
오래된 근거로 종료 선언
오래된 근거는 현재 상태 신뢰도를 보장하지 못합니다.
빠른 체크리스트
월간 신뢰성 협의체 전:
- 지표 정의 최신화
- 심각도별 SLO 공개
- red/yellow 위반 항목 오너 지정
- follow-up burn-down 추세 점검
Gemini CLI는 실행 속도를 올립니다. 지표는 신뢰성 책임을 유지시킵니다.
지표 사전 템플릿 (필수 필드)
각 지표를 동일 스키마로 정의하세요.
### Metric Definition
- Name:
- Purpose:
- Formula:
- Data source:
- Collection cadence:
- Owner:
- Red threshold:
- Yellow threshold:
- Expected action on breach:정의가 모호하면 사고 중 해석 논쟁이 반복됩니다.
Error-budget형 SLO 정책
심각도 클래스마다 운영 예산을 설정합니다.
- 분기당 허용 breach 횟수
- 의무 에스컬레이션 임계값
- 예산 소진 시 freeze 규칙
예시 정책
- SEV-1: containment window 미달 0회 허용
- SEV-2: 분기 2회 breach 초과 시 통제 리뷰 필수
- SEV-3: 즉시 동결 대신 추세 관리
주간 리뷰 질문 세트
- 기준선 대비 가장 크게 움직인 지표는?
- 샘플 수 기준으로 signal인가 noise인가?
- 이번 주 action owner는 누구인가?
- 어느 통제 포트폴리오 버킷에 반영할 것인가?
- 다음 리뷰까지 기대되는 관측 변화는?
에스컬레이션 매핑 테이블
| breach 유형 | 1차 오너 | 2차 오너 | 응답 SLA |
|---|---|---|---|
| MTTD red | observability owner | incident commander | 24h |
| MTTC red | incident commander | release owner | same day |
| MTTR red | platform owner | service owner | 24h |
| freshness breach | verifier owner | commander | same day |
| follow-up closure breach | reliability owner | team lead | 72h |
월간 요약 템플릿
### Monthly Resilience Summary
- Top improving metric:
- Top regressing metric:
- Repeated breach classes:
- Controls added this month:
- Controls retired this month:
- Ownership risks:
- Next-month focus:짧고 의사결정 중심으로 유지하세요.
데이터 품질 체크
대시보드를 신뢰하기 전 아래를 확인합니다.
- 누락 타임스탬프 비율
- 중복 incident ID
- 심각도 라벨 불일치
- 데이터 소스 갱신 지연
잘못된 데이터 위의 정밀 지표는 여전히 오해를 만듭니다.
안티-게이밍 규칙
- 단일 지표 순위로 팀 평가 금지
- 지표 개선 주장 시 근거 링크 의무화
- 평균 개선 전 tail percentile 우선 확인
- 보상은 1주 스파이크가 아니라 지속 추세 기준
이 규칙이 조직 압박 속에서도 지표 무결성을 지킵니다.
지표 리뷰 보드 운영 규칙
월간 신뢰성 보드 출력은 3개만 허용합니다.
- keep — 여전히 액션을 유도함
- change — 정의/임계값 수정 필요
- remove — 의사결정 가치 없음
이 규칙이 대시보드 비대화를 막습니다.
tail-risk 추적
평균 외에 반드시 추적:
- MTTD/MTTR의 p90/p95/p99
- 가장 오래 열린 follow-up 나이
- 최악 심각도 breach 재발 간격
tail 지표가 진짜 사고 리스크를 보여줍니다.
SLO breach 플레이북
breach 발생 시:
- same day breach 기록 생성
- owner + verifier 지정
- 교정 통제 후보 정의
- 7일 내 리뷰 체크포인트 지정
통제 효과 근거 없이는 breach 기록을 닫지 않습니다.
지표 폐기 기준
아래를 모두 만족할 때 폐기:
- 2분기 동안 액션 유도 없음
- 다른 지표와 중복 강함
- 이해관계자가 활용 방식을 설명 못함
조용히 삭제하지 말고 폐기 노트를 남기세요.
지표-액션 계약
모든 지표는 사전 정의된 액션 경로를 가져야 합니다.
| 지표 상태 | 필수 액션 | 오너 |
|---|---|---|
| Green stable | 모니터링 유지 | metric owner |
| Yellow drift | 조사 노트 오픈 | reliability owner |
| Red breach | 에스컬레이션 플레이북 실행 | commander + service owner |
액션 계약 없는 지표는 장식용입니다.
SLO 협상 루브릭
SLO 목표 충돌 시 아래로 합의합니다.
- 고객 영향 심각도
- 현재 시스템 역량 기준선
- 해당 도메인 실패의 가역성
- 더 엄격한 목표 달성 비용
낙관이 아닌 리스크 경제성으로 SLO를 정하세요.
대시보드 데이터 신뢰성 체크
측정 시스템 자체를 주간 점검:
- 타임스탬프 완결률
- 심각도 라벨 일관성
- 중복 incident 레코드 비율
- 소스 갱신 지연
성숙한 팀은 서비스 신뢰성과 지표 신뢰성을 함께 측정합니다.
경영진 내러티브 템플릿
월간 지표를 액션과 연결해 보고합니다.
- 무엇이 악화됐는가
- 어떤 통제를 추가했는가
- 통제 후 무엇이 개선됐는가
- 무엇이 여전히 고위험인가
- 다음 교정 오너는 누구인가
이 체인이 있어야 올바른 개선에 투자됩니다.
지표 오너십 순환 정책
분기마다 보조 오너를 순환하고, 주 오너 1명은 유지합니다.
- 주 오너: 연속성 유지
- 순환 보조 오너: 신선한 관점과 맹점 탐지
이 구조가 지표 정체를 막습니다.
복원력 추세 기반 예측
월간 보고에 예측 섹션을 추가하세요.
- 다음 달 MTTD/MTTR 예상 밴드
- 심각도별 최고 breach 리스크
- 예측 신뢰도
- 예측에 영향 줄 통제 계획
예측을 넣으면 지표가 보고에서 계획으로 전환됩니다.
Alert-to-metric 정합 점검
주간 점검 항목:
- 경보는 울렸지만 incident로 매핑되지 않은 건
- incident는 있었지만 경보가 없던 건
- breach인데 대시보드에 반영되지 않은 건
이 간극은 모니터링 모델 드리프트 신호입니다.