공식 참고 자료: Best Practices · Hooks · Security · GitHub Actions
왜 복원력 지표가 중요한가
드릴과 런북은 필요하지만 그것만으로는 충분하지 않습니다. 지표가 없으면 복원력이 개선되는지 악화되는지 판단할 수 없습니다.
핵심 복원력 지표 스택
| 지표 | 측정 대상 | 대표 소스 |
|---|---|---|
| MTTD | 탐지 지연 | 알림 타임라인 |
| MTTC | 격리/완화 의사결정까지의 시간 | 사고 의사결정 로그 |
| MTTR | 안정 상태 복구까지의 시간 | 배포 + 검증 로그 |
| Verification freshness | 종료 직전 최종 근거의 최신성 | 명령 근거 기록 |
| Follow-up closure rate | 기한 내 하드닝 후속 항목 종료율 | 하드닝 백로그 |
심각도별 SLO 모델
- SEV-1: 엄격한 시간 예산 내 격리 의사결정 및 롤백 경로 트리거
- SEV-2: 사용자 영향 저하를 팀 합의 시간 내 안정화
- SEV-3: 계획된 사이클 내 보정 릴리스 완료
SLO는 형용사가 아니라 숫자로 명시하세요.
데이터 수집 프로토콜
모든 사고에서 아래를 기록합니다.
- 시작 시각
- 첫 알림 시각
- 첫 완화 의사결정 시각
- 안정 상태 확인 시각
- 종료 시각
타임스탬프가 비면 추세 분석이 무효화됩니다.
주간 복원력 리뷰
매주:
- MTTD/MTTR 이상치 점검
- 누락/지연된 후속 작업 확인
- 실패를 통제 백로그 버킷에 매핑
- 상위 회귀 항목 오너/기한 지정
임계값 기반 에스컬레이션 규칙
지표별 red/yellow/green 임계값을 정의하세요. red 도달 시:
- 즉시 에스컬레이션 오픈
- reliability owner 지정
- 다음 주 재검증 강제
대시보드 설계 규칙
- 최신값만이 아니라 추세를 표시
- 심각도 클래스를 분리
- 분모/문맥을 함께 제공
- 스파이크를 사고 기록과 연결
문맥 없는 지표는 잘못된 내러티브를 만듭니다.
분기별 보정
분기마다:
- 안정 달성 후에만 SLO 상향
- 의사결정에 기여하지 않는 지표 폐기
- 신규 실패 클래스용 지표 1개 추가
무시되는 큰 대시보드보다 작고 유용한 대시보드가 낫습니다.
고급 안티패턴
평균값만 보고
평균은 tail-risk를 숨깁니다.
오너 없는 SLO
오너십 없는 SLO는 장식용 숫자가 됩니다.
freshness 검증 없는 사고 종료
오래된 근거로는 현재 종료 신뢰도를 뒷받침할 수 없습니다.
빠른 체크리스트
월간 신뢰성 리뷰 전:
- 지표 정의 문서화
- 심각도별 SLO 가시화
- 임계값 위반 항목 오너 매핑
- 후속 종료율 추세 점검
Claude는 팀의 속도를 높여줍니다. 지표는 그 속도가 안전하게 개선되도록 만듭니다.
지표 사전 템플릿 (필수 필드)
각 지표를 동일 스키마로 정의하세요.
### Metric Definition
- Name:
- Purpose:
- Formula:
- Data source:
- Collection cadence:
- Owner:
- Red threshold:
- Yellow threshold:
- Expected action on breach:정의가 모호하면 사고 중 해석 논쟁이 반복됩니다.
Error-budget형 SLO 정책
심각도 클래스마다 운영 예산을 설정합니다.
- 분기당 허용 breach 횟수
- 의무 에스컬레이션 임계값
- 예산 소진 시 freeze 규칙
예시 정책
- SEV-1: containment window 미달 0회 허용
- SEV-2: 분기 2회 breach 초과 시 통제 리뷰 필수
- SEV-3: 즉시 동결 대신 추세 관리
주간 리뷰 질문 세트
- 기준선 대비 가장 크게 움직인 지표는?
- 샘플 수 기준으로 signal인가 noise인가?
- 이번 주 action owner는 누구인가?
- 어느 통제 포트폴리오 버킷에 반영할 것인가?
- 다음 리뷰까지 기대되는 관측 변화는?
에스컬레이션 매핑 테이블
| breach 유형 | 1차 오너 | 2차 오너 | 응답 SLA |
|---|---|---|---|
| MTTD red | observability owner | incident commander | 24h |
| MTTC red | incident commander | release owner | same day |
| MTTR red | platform owner | service owner | 24h |
| freshness breach | verifier owner | commander | same day |
| follow-up closure breach | reliability owner | team lead | 72h |
월간 요약 템플릿
### Monthly Resilience Summary
- Top improving metric:
- Top regressing metric:
- Repeated breach classes:
- Controls added this month:
- Controls retired this month:
- Ownership risks:
- Next-month focus:짧고 의사결정 중심으로 유지하세요.
데이터 품질 체크
대시보드를 신뢰하기 전 아래를 확인합니다.
- 누락 타임스탬프 비율
- 중복 incident ID
- 심각도 라벨 불일치
- 데이터 소스 갱신 지연
잘못된 데이터 위의 정밀 지표는 여전히 오해를 만듭니다.
안티-게이밍 규칙
- 단일 지표 순위로 팀 평가 금지
- 지표 개선 주장 시 근거 링크 의무화
- 평균 개선 전 tail percentile 우선 확인
- 보상은 1주 스파이크가 아니라 지속 추세 기준
이 규칙이 조직 압박 속에서도 지표 무결성을 지킵니다.
지표 리뷰 보드 운영 규칙
월간 신뢰성 보드 출력은 3개만 허용합니다.
- keep — 여전히 액션을 유도함
- change — 정의/임계값 수정 필요
- remove — 의사결정 가치 없음
이 규칙이 대시보드 비대화를 막습니다.
tail-risk 추적
평균 외에 반드시 추적:
- MTTD/MTTR의 p90/p95/p99
- 가장 오래 열린 follow-up 나이
- 최악 심각도 breach 재발 간격
tail 지표가 진짜 사고 리스크를 보여줍니다.
SLO breach 플레이북
breach 발생 시:
- same day breach 기록 생성
- owner + verifier 지정
- 교정 통제 후보 정의
- 7일 내 리뷰 체크포인트 지정
통제 효과 근거 없이는 breach 기록을 닫지 않습니다.
지표 폐기 기준
아래를 모두 만족할 때 폐기:
- 2분기 동안 액션 유도 없음
- 다른 지표와 중복 강함
- 이해관계자가 활용 방식을 설명 못함
조용히 삭제하지 말고 폐기 노트를 남기세요.
지표-액션 계약
모든 지표는 사전 정의된 액션 경로를 가져야 합니다.
| 지표 상태 | 필수 액션 | 오너 |
|---|---|---|
| Green stable | 모니터링 유지 | metric owner |
| Yellow drift | 조사 노트 오픈 | reliability owner |
| Red breach | 에스컬레이션 플레이북 실행 | commander + service owner |
액션 계약 없는 지표는 장식용입니다.
SLO 협상 루브릭
SLO 목표 충돌 시 아래로 합의합니다.
- 고객 영향 심각도
- 현재 시스템 역량 기준선
- 해당 도메인 실패의 가역성
- 더 엄격한 목표 달성 비용
낙관이 아닌 리스크 경제성으로 SLO를 정하세요.
대시보드 데이터 신뢰성 체크
측정 시스템 자체를 주간 점검:
- 타임스탬프 완결률
- 심각도 라벨 일관성
- 중복 incident 레코드 비율
- 소스 갱신 지연
성숙한 팀은 서비스 신뢰성과 지표 신뢰성을 함께 측정합니다.
경영진 내러티브 템플릿
월간 지표를 액션과 연결해 보고합니다.
- 무엇이 악화됐는가
- 어떤 통제를 추가했는가
- 통제 후 무엇이 개선됐는가
- 무엇이 여전히 고위험인가
- 다음 교정 오너는 누구인가
이 체인이 있어야 올바른 개선에 투자됩니다.
지표 오너십 순환 정책
분기마다 보조 오너를 순환하고, 주 오너 1명은 유지합니다.
- 주 오너: 연속성 유지
- 순환 보조 오너: 신선한 관점과 맹점 탐지
이 구조가 지표 정체를 막습니다.
복원력 추세 기반 예측
월간 보고에 예측 섹션을 추가하세요.
- 다음 달 MTTD/MTTR 예상 밴드
- 심각도별 최고 breach 리스크
- 예측 신뢰도
- 예측에 영향 줄 통제 계획
예측을 넣으면 지표가 보고에서 계획으로 전환됩니다.
Alert-to-metric 정합 점검
주간 점검 항목:
- 경보는 울렸지만 incident로 매핑되지 않은 건
- incident는 있었지만 경보가 없던 건
- breach인데 대시보드에 반영되지 않은 건
이 간극은 모니터링 모델 드리프트 신호입니다.