공식 참고 자료: Best Practices · Hooks · Security · GitHub Actions
왜 고급 단계에서 드릴이 필수인가
한 번도 실행되지 않은 런북은 문서에 가깝습니다.
복원력 드릴은 문서 정책을 검증된 팀 행동으로 바꿉니다.
드릴 티어 모델
| 티어 | 범위 | 주기 | 성공 신호 |
|---|---|---|---|
| 테이블탑 | 의사결정 흐름 + 오너십 | 매주 | 모든 오너가 올바르게 핸드오프 수행 |
| 부분 시뮬레이션 | 단일 레인/서브시스템 | 격주 | 합의된 시간 내 목표 SLO 복구 |
| 전체 시뮬레이션 | 크로스 레인 종단 복구 | 매월 | 복구+커뮤니케이션+후속 조치 완료 |
사전 드릴 설계 패킷
드릴 전 아래를 준비합니다.
- 시나리오 선언문
- 예상 실패 시그니처
- 영향 반경 경계
- 중단 조건
- 옵저버와 스코어 오너
설계 패킷이 없으면 드릴 간 비교가 불가능합니다.
실행 레인 분할
- Failure injection 레인: 시나리오를 안전하게 트리거
- Response 레인: 격리/완화 실행
- Verification 레인: 검증과 근거 수집
- Comms 레인: 타임라인 업데이트 및 에스컬레이션 공지
레인별 오너 1명 + 전체 드릴 커맨더 1명을 지정하세요.
복원력 스코어카드
드릴마다 0/1로 채점합니다.
- 목표 시간 내 탐지 완료
- 오너십 핸드오프가 명시적으로 유지됨
- 완화 의사결정이 가역적이었음
- 검증 근거가 최신이었음
- 드릴 후속 작업 오너 배정됨
4/5 미만이면 범위를 좁혀 재시도하세요.
의사결정 체크포인트 프로토콜
각 체크포인트에서 명확한 선택을 강제합니다.
- 완화 계속
- 안정 상태로 롤백
- 에스컬레이션 후 롤아웃 일시 중지
명시되지 않은 결정은 숨은 리스크입니다.
실패 처리 규칙
드릴 실행이 시나리오 가정과 달라지면:
- 시뮬레이션 중단
- 편차 기록
- 다음 드릴 입력으로 편차 전환
예상 밖 동작을 덮어두면 안 됩니다.
분기별 복원력 프로그램
분기마다:
- 최소 1회 전체 범위 드릴 실행
- 드릴 커맨더 역할 순환
- 반복 저점 항목 리뷰
- 신뢰성 개선에 기여하지 않는 통제 폐기
복원력은 드릴 횟수가 아니라 반복 품질로 개선됩니다.
고급 안티패턴
드릴이 퍼포먼스 쇼로 변질
보여주기 최적화가 시작되면 신뢰성 신호가 붕괴합니다.
동일 시나리오 반복
팀이 적응력을 키우지 못하고 한 경로만 암기합니다.
오너 없는 후속 조치 트래킹
오너 없는 액션은 신뢰성 부채가 됩니다.
빠른 체크리스트
드릴 사이클 종료 전:
- 스코어카드 기록
- 의사결정 체크포인트 로그
- 후속 오너 배정
- 다음 시나리오 초안 작성
Claude는 대응 속도를 올려줍니다. 드릴은 대응 정확도를 증명합니다.
드릴 시나리오 카탈로그 (스타터 세트)
암기형 대응을 막기 위해 시나리오를 순환합니다.
신뢰성 시나리오 세트
- 의존성 타임아웃 폭증 — 핵심 API 지연이 SLO 초과
- 설정 드리프트 배포 — 한 환경만 오래된 flag 값 적용
- 큐 백로그 포화 — 처리 지연이 연쇄 장애 유발
- 관측 공백 — 사고 중 핵심 대시보드 패널 장애
- 오너 부재 — 첫 체크포인트에서 주 오너 부재
매 사이클마다 기술 실패 1개 + 협업 실패 1개를 결합하세요.
옵저버 채점 팩
옵저버는 사람 평가가 아니라 행동 평가를 수행합니다.
| 항목 | 관측 포인트 |
|---|---|
| 탐지 품질 | 첫 신호를 올바르게 triage 했는가 |
| 의사결정 품질 | 가역적 결정을 빠르게 내렸는가 |
| 오너십 명확성 | 모든 체크포인트에 next owner가 있는가 |
| 근거 품질 | 체크포인트마다 명령/로그가 남았는가 |
| 커뮤니케이션 주기 | 약속한 주기로 업데이트했는가 |
모든 점수에 근거 링크를 붙이세요.
45분 드릴 타임라인 템플릿
- 00:00–05:00 시나리오 브리프 + 성공 기준
- 05:00–15:00 첫 신호 + triage 결정
- 15:00–30:00 완화 경로 실행
- 30:00–40:00 검증 및 안정성 체크
- 40:00–45:00 디브리프 기록 + 후속 배정
타임라인이 밀리면 원인을 프로세스 부채로 기록합니다.
압박 순간 커뮤니케이션 스크립트
첫 5분 업데이트
Incident drill started at <time>
Observed signal: <summary>
Current branch: triage/mitigate/rollback
Next checkpoint: <time>
Commander: <name>에스컬레이션 체크포인트 업데이트
Escalation reason: <threshold breach>
Decision: continue | rollback | pause
Immediate owner: <name>
Verification owner: <name>
Next update at: <time>디브리프 의사결정 매트릭스
드릴 후 모든 발견 사항을 분류하세요.
- 즉시 수정 (고위험 + 저비용)
- 다음 사이클 배치 (고위험 + 중간 비용)
- 관찰 유지 (영향 불명, 데이터 추가 수집)
- 폐기 (측정 가능한 가치 없음)
미분류 항목을 남기지 마세요.
다음 사이클 변이 설계
다음 드릴은 최소 1개 요소를 의도적으로 변이합니다.
- 실패 시작 시점 변경
- 의존성 실패 유형 변경
- 커뮤니케이션 지연 가정 추가
- 백업 오너가 리드
변이 이유를 기록해야 점수 변화 해석이 가능합니다.
드릴 완료 게이트
아래를 모두 만족해야 사이클 종료:
- 스코어카드 + 근거 링크 보관
- 후속 액션 최소 1개 오너 배정
- 다음 변이 시나리오 초안 작성
- 커맨더 의사결정 품질 코멘트 승인
게이트가 없으면 드릴은 이벤트성으로 끝납니다.
드릴 점수 정규화 규칙
주간 드릴 비교를 위해 점수를 정규화합니다.
- SEV-1형 시나리오는 detection/decision 가중치 상향
- 이해관계자 다수 시나리오는 comms 가중치 상향
- raw score + weighted score를 함께 공개
예시 가중치
- detection quality: 30%
- decision quality: 25%
- ownership clarity: 20%
- evidence quality: 15%
- communication cadence: 10%
시나리오별 변경 시 근거를 문서화하세요.
정체 드릴 대응 커맨더 규칙
5분 이상 결정이 멈추면:
- 추가 토론 중단
- 분기 선택 강제(continue/rollback/escalate)
- 실행 오너 즉시 지정
- 5분 뒤 체크포인트 예약
리허설 단계에서 분석 마비를 끊어냅니다.
디브리프 전환 규칙
모든 디브리프 결과는 반드시 아래 중 하나가 되어야 합니다.
- 머지된 통제
- 오너/기한 있는 예정 통제
- 사유가 기록된 기각
고아 상태 발견사항을 남기지 마세요.
분기별 드릴 캠페인 구조
단발 이벤트가 아니라 캠페인으로 운영하세요.
- 1개월차: 대응 속도 중심(탐지+의사결정 지연)
- 2개월차: 협업 품질 중심(핸드오프+커뮤니케이션 무결성)
- 3개월차: 복구 품질 중심(검증 깊이+후속 종료율)
캠페인 설계가 점수 추세 해석을 가능하게 만듭니다.
현실성 강화를 위한 스트레스 모디파이어
드릴마다 아래 중 1개를 추가하세요.
- 신호 가시성 지연
- 핵심 오너 부분 부재
- 이해관계자 상충 요청
- 관측 채널 일부 저하
클린 시뮬레이션에서는 안 보이는 취약점을 드러냅니다.
드릴 근거 최소 기준
각 드릴 산출물에 반드시 포함:
- 의사결정 타임스탬프 포함 타임라인
- 명령 수준 검증 스니펫
- 오너 핸드오프 체인
- 약속 대비 실제 comms 업데이트
- 후속 액션 매핑
없으면 스코어카드는 스토리텔링에 그칩니다.
3회 드릴마다 보정 리뷰
세 번째 드릴마다 보정 실행:
- 가중치 점수 추세 비교
- 과대가중 항목 식별
- 사유 포함 가중치 조정
- 다음 사이클 전에 루브릭 공개
투명한 보정이 지표 게임화를 줄입니다.
다팀 연합 드릴 모델
조직 규모가 크면 연합 방식으로 운영합니다.
- 플랫폼팀: 공통 인프라 시나리오 담당
- 제품팀: 고객 경로 시나리오 담당
- 보안팀: 신뢰 경계 실패 주입
연합 드릴이 팀 간 결합 리스크를 조기에 드러냅니다.
드릴 품질 KPI
개별 점수보다 프로그램 품질을 측정하세요.
- 완전 근거 번들 포함 드릴 비율
- 기한 내 후속 액션 종료율
- 첫 명시 결정까지의 중앙값 시간
- 동일 실패 모드 반복 발견율
KPI가 나빠지면 시나리오 범위를 줄이고 규율을 회복하세요.
옵저버 편향 통제
채점 편향을 줄이기 위한 규칙:
- 사이클마다 옵저버 순환
- 극단 점수에 근거 링크 의무화
- 가능하면 1명은 팀명 블라인드 채점
채점 품질이 좋아야 하드닝 의사결정 품질도 올라갑니다.