Claude Code로 돌아가기
Claude Code고급11분 소요

Claude 복원력 지표와 SLO

Claude 팀이 신뢰성 드리프트를 추적하고 사고 SLO를 설정하며 근거 기반으로 복원력 의사결정을 수행하기 위한 고급 지표 프레임워크.

advancedoperationsreliabilitymetrics

공식 참고 자료: Best Practices · Hooks · Security · GitHub Actions

왜 복원력 지표가 중요한가

드릴과 런북은 필요하지만 그것만으로는 충분하지 않습니다. 지표가 없으면 복원력이 개선되는지 악화되는지 판단할 수 없습니다.

핵심 복원력 지표 스택

지표 측정 대상 대표 소스
MTTD 탐지 지연 알림 타임라인
MTTC 격리/완화 의사결정까지의 시간 사고 의사결정 로그
MTTR 안정 상태 복구까지의 시간 배포 + 검증 로그
Verification freshness 종료 직전 최종 근거의 최신성 명령 근거 기록
Follow-up closure rate 기한 내 하드닝 후속 항목 종료율 하드닝 백로그

심각도별 SLO 모델

  • SEV-1: 엄격한 시간 예산 내 격리 의사결정 및 롤백 경로 트리거
  • SEV-2: 사용자 영향 저하를 팀 합의 시간 내 안정화
  • SEV-3: 계획된 사이클 내 보정 릴리스 완료

SLO는 형용사가 아니라 숫자로 명시하세요.

데이터 수집 프로토콜

모든 사고에서 아래를 기록합니다.

  • 시작 시각
  • 첫 알림 시각
  • 첫 완화 의사결정 시각
  • 안정 상태 확인 시각
  • 종료 시각

타임스탬프가 비면 추세 분석이 무효화됩니다.

주간 복원력 리뷰

매주:

  1. MTTD/MTTR 이상치 점검
  2. 누락/지연된 후속 작업 확인
  3. 실패를 통제 백로그 버킷에 매핑
  4. 상위 회귀 항목 오너/기한 지정

임계값 기반 에스컬레이션 규칙

지표별 red/yellow/green 임계값을 정의하세요. red 도달 시:

  • 즉시 에스컬레이션 오픈
  • reliability owner 지정
  • 다음 주 재검증 강제

대시보드 설계 규칙

  • 최신값만이 아니라 추세를 표시
  • 심각도 클래스를 분리
  • 분모/문맥을 함께 제공
  • 스파이크를 사고 기록과 연결

문맥 없는 지표는 잘못된 내러티브를 만듭니다.

분기별 보정

분기마다:

  • 안정 달성 후에만 SLO 상향
  • 의사결정에 기여하지 않는 지표 폐기
  • 신규 실패 클래스용 지표 1개 추가

무시되는 큰 대시보드보다 작고 유용한 대시보드가 낫습니다.

고급 안티패턴

평균값만 보고

평균은 tail-risk를 숨깁니다.

오너 없는 SLO

오너십 없는 SLO는 장식용 숫자가 됩니다.

freshness 검증 없는 사고 종료

오래된 근거로는 현재 종료 신뢰도를 뒷받침할 수 없습니다.

빠른 체크리스트

월간 신뢰성 리뷰 전:

  • 지표 정의 문서화
  • 심각도별 SLO 가시화
  • 임계값 위반 항목 오너 매핑
  • 후속 종료율 추세 점검

Claude는 팀의 속도를 높여줍니다. 지표는 그 속도가 안전하게 개선되도록 만듭니다.

지표 사전 템플릿 (필수 필드)

각 지표를 동일 스키마로 정의하세요.

### Metric Definition
- Name:
- Purpose:
- Formula:
- Data source:
- Collection cadence:
- Owner:
- Red threshold:
- Yellow threshold:
- Expected action on breach:

정의가 모호하면 사고 중 해석 논쟁이 반복됩니다.

Error-budget형 SLO 정책

심각도 클래스마다 운영 예산을 설정합니다.

  • 분기당 허용 breach 횟수
  • 의무 에스컬레이션 임계값
  • 예산 소진 시 freeze 규칙

예시 정책

  • SEV-1: containment window 미달 0회 허용
  • SEV-2: 분기 2회 breach 초과 시 통제 리뷰 필수
  • SEV-3: 즉시 동결 대신 추세 관리

주간 리뷰 질문 세트

  1. 기준선 대비 가장 크게 움직인 지표는?
  2. 샘플 수 기준으로 signal인가 noise인가?
  3. 이번 주 action owner는 누구인가?
  4. 어느 통제 포트폴리오 버킷에 반영할 것인가?
  5. 다음 리뷰까지 기대되는 관측 변화는?

에스컬레이션 매핑 테이블

breach 유형 1차 오너 2차 오너 응답 SLA
MTTD red observability owner incident commander 24h
MTTC red incident commander release owner same day
MTTR red platform owner service owner 24h
freshness breach verifier owner commander same day
follow-up closure breach reliability owner team lead 72h

월간 요약 템플릿

### Monthly Resilience Summary
- Top improving metric:
- Top regressing metric:
- Repeated breach classes:
- Controls added this month:
- Controls retired this month:
- Ownership risks:
- Next-month focus:

짧고 의사결정 중심으로 유지하세요.

데이터 품질 체크

대시보드를 신뢰하기 전 아래를 확인합니다.

  • 누락 타임스탬프 비율
  • 중복 incident ID
  • 심각도 라벨 불일치
  • 데이터 소스 갱신 지연

잘못된 데이터 위의 정밀 지표는 여전히 오해를 만듭니다.

안티-게이밍 규칙

  • 단일 지표 순위로 팀 평가 금지
  • 지표 개선 주장 시 근거 링크 의무화
  • 평균 개선 전 tail percentile 우선 확인
  • 보상은 1주 스파이크가 아니라 지속 추세 기준

이 규칙이 조직 압박 속에서도 지표 무결성을 지킵니다.

지표 리뷰 보드 운영 규칙

월간 신뢰성 보드 출력은 3개만 허용합니다.

  1. keep — 여전히 액션을 유도함
  2. change — 정의/임계값 수정 필요
  3. remove — 의사결정 가치 없음

이 규칙이 대시보드 비대화를 막습니다.

tail-risk 추적

평균 외에 반드시 추적:

  • MTTD/MTTR의 p90/p95/p99
  • 가장 오래 열린 follow-up 나이
  • 최악 심각도 breach 재발 간격

tail 지표가 진짜 사고 리스크를 보여줍니다.

SLO breach 플레이북

breach 발생 시:

  • same day breach 기록 생성
  • owner + verifier 지정
  • 교정 통제 후보 정의
  • 7일 내 리뷰 체크포인트 지정

통제 효과 근거 없이는 breach 기록을 닫지 않습니다.

지표 폐기 기준

아래를 모두 만족할 때 폐기:

  • 2분기 동안 액션 유도 없음
  • 다른 지표와 중복 강함
  • 이해관계자가 활용 방식을 설명 못함

조용히 삭제하지 말고 폐기 노트를 남기세요.

지표-액션 계약

모든 지표는 사전 정의된 액션 경로를 가져야 합니다.

지표 상태 필수 액션 오너
Green stable 모니터링 유지 metric owner
Yellow drift 조사 노트 오픈 reliability owner
Red breach 에스컬레이션 플레이북 실행 commander + service owner

액션 계약 없는 지표는 장식용입니다.

SLO 협상 루브릭

SLO 목표 충돌 시 아래로 합의합니다.

  1. 고객 영향 심각도
  2. 현재 시스템 역량 기준선
  3. 해당 도메인 실패의 가역성
  4. 더 엄격한 목표 달성 비용

낙관이 아닌 리스크 경제성으로 SLO를 정하세요.

대시보드 데이터 신뢰성 체크

측정 시스템 자체를 주간 점검:

  • 타임스탬프 완결률
  • 심각도 라벨 일관성
  • 중복 incident 레코드 비율
  • 소스 갱신 지연

성숙한 팀은 서비스 신뢰성과 지표 신뢰성을 함께 측정합니다.

경영진 내러티브 템플릿

월간 지표를 액션과 연결해 보고합니다.

  • 무엇이 악화됐는가
  • 어떤 통제를 추가했는가
  • 통제 후 무엇이 개선됐는가
  • 무엇이 여전히 고위험인가
  • 다음 교정 오너는 누구인가

이 체인이 있어야 올바른 개선에 투자됩니다.

지표 오너십 순환 정책

분기마다 보조 오너를 순환하고, 주 오너 1명은 유지합니다.

  • 주 오너: 연속성 유지
  • 순환 보조 오너: 신선한 관점과 맹점 탐지

이 구조가 지표 정체를 막습니다.

복원력 추세 기반 예측

월간 보고에 예측 섹션을 추가하세요.

  • 다음 달 MTTD/MTTR 예상 밴드
  • 심각도별 최고 breach 리스크
  • 예측 신뢰도
  • 예측에 영향 줄 통제 계획

예측을 넣으면 지표가 보고에서 계획으로 전환됩니다.

Alert-to-metric 정합 점검

주간 점검 항목:

  1. 경보는 울렸지만 incident로 매핑되지 않은 건
  2. incident는 있었지만 경보가 없던 건
  3. breach인데 대시보드에 반영되지 않은 건

이 간극은 모니터링 모델 드리프트 신호입니다.

연결된 가이드