Official References: Best Practices · Review · Worktrees · Automations
왜 팀 스케일에서 복원력 드릴이 필수인가
사고 계획은 의도를 증명합니다. 드릴은 역량을 증명합니다.
압박 상황 리허설이 없으면 복구 품질은 추측에 가깝습니다.
드릴 성숙도 티어
| 티어 | 범위 | 주기 | 통과 기준 |
|---|---|---|---|
| 의사결정 테이블탑 | 오너십 + 분기 로직 | 매주 | 모호한 의사결정 오너 없음 |
| 서비스 시뮬레이션 | 단일 시스템/레인 | 격주 | 근거 포함 목표 복구 시간 달성 |
| 고충실도 시뮬레이션 | 다중 레인 협업 복구 | 매월 | 완화+검증+커뮤니케이션+후속조치 완료 |
시나리오 설계 패킷
모든 드릴은 아래로 시작합니다.
- 시나리오 가설
- 트리거 메커니즘
- 영향 반경 경계
- 중단 기준
- 커맨더와 스코어 오너
패킷 항목이 비면 결과 노이즈가 커집니다.
레인 오케스트레이션
- Injection 레인: 통제된 실패 트리거
- Response 레인: 완화 의사결정 실행
- Verification 레인: 복구 동작 검증
- Comms 레인: 타임라인/에스컬레이션 업데이트
체크포인트 타이밍은 단일 드릴 커맨더가 엄격히 관리합니다.
복원력 스코어카드
항목별 이진 점수:
- 탐지 지연이 목표 이내
- 오너십이 끝까지 명시적 유지
- 완화가 가역적으로 유지
- 검증 근거가 최신
- 후속 오너/기한 배정 완료
최소 통과 점수는 4/5입니다.
체크포인트 의사결정 규율
각 체크포인트마다 아래 중 하나를 명시합니다.
- 완화 계속
- 안정 리비전으로 롤백
- 에스컬레이션 후 롤아웃 중지
암묵적 의사결정은 숨은 실패 경로를 만듭니다.
시나리오 변이 정책
동일 시뮬레이션 반복을 금지합니다.
매 사이클마다 최소 1개 변수 변이:
- 장애 타이밍
- 의존성 클래스
- 오너 가용성
- 커뮤니케이션 제약
변이는 적응형 복원력을 만듭니다.
분기별 드릴 프로그램
- 최소 1회 고충실도 시뮬레이션 실행
- 커맨더/옵저버 역할 순환
- 반복 저점 항목 리뷰
- 점수 추세에 기여하지 않는 통제 폐기
양보다 질 높은 드릴이 중요합니다.
고급 안티패턴
근거 없는 점수 부풀리기
증거 없는 지표 최적화는 거짓 확신을 만듭니다.
커맨더의 레인 겸임 과부하
한 사람이 모든 신호를 잡으면 결정 품질이 떨어집니다.
기한 없는 후속 조치 로그
기한 없는 작업은 잠재적 사고 리스크입니다.
빠른 체크리스트
드릴 사이클 종료 전:
- 스코어카드 보관
- 체크포인트 의사결정 기록
- 시나리오 변이 문서화
- 후속 오너/기한 배정
Codex는 대응 실행 속도를 올립니다. 드릴은 대응 신뢰성을 검증합니다.
드릴 시나리오 카탈로그 (스타터 세트)
암기형 대응을 막기 위해 시나리오를 순환합니다.
신뢰성 시나리오 세트
- 의존성 타임아웃 폭증 — 핵심 API 지연이 SLO 초과
- 설정 드리프트 배포 — 한 환경만 오래된 flag 값 적용
- 큐 백로그 포화 — 처리 지연이 연쇄 장애 유발
- 관측 공백 — 사고 중 핵심 대시보드 패널 장애
- 오너 부재 — 첫 체크포인트에서 주 오너 부재
매 사이클마다 기술 실패 1개 + 협업 실패 1개를 결합하세요.
옵저버 채점 팩
옵저버는 사람 평가가 아니라 행동 평가를 수행합니다.
| 항목 | 관측 포인트 |
|---|---|
| 탐지 품질 | 첫 신호를 올바르게 triage 했는가 |
| 의사결정 품질 | 가역적 결정을 빠르게 내렸는가 |
| 오너십 명확성 | 모든 체크포인트에 next owner가 있는가 |
| 근거 품질 | 체크포인트마다 명령/로그가 남았는가 |
| 커뮤니케이션 주기 | 약속한 주기로 업데이트했는가 |
모든 점수에 근거 링크를 붙이세요.
45분 드릴 타임라인 템플릿
- 00:00–05:00 시나리오 브리프 + 성공 기준
- 05:00–15:00 첫 신호 + triage 결정
- 15:00–30:00 완화 경로 실행
- 30:00–40:00 검증 및 안정성 체크
- 40:00–45:00 디브리프 기록 + 후속 배정
타임라인이 밀리면 원인을 프로세스 부채로 기록합니다.
압박 순간 커뮤니케이션 스크립트
첫 5분 업데이트
Incident drill started at <time>
Observed signal: <summary>
Current branch: triage/mitigate/rollback
Next checkpoint: <time>
Commander: <name>에스컬레이션 체크포인트 업데이트
Escalation reason: <threshold breach>
Decision: continue | rollback | pause
Immediate owner: <name>
Verification owner: <name>
Next update at: <time>디브리프 의사결정 매트릭스
드릴 후 모든 발견 사항을 분류하세요.
- 즉시 수정 (고위험 + 저비용)
- 다음 사이클 배치 (고위험 + 중간 비용)
- 관찰 유지 (영향 불명, 데이터 추가 수집)
- 폐기 (측정 가능한 가치 없음)
미분류 항목을 남기지 마세요.
다음 사이클 변이 설계
다음 드릴은 최소 1개 요소를 의도적으로 변이합니다.
- 실패 시작 시점 변경
- 의존성 실패 유형 변경
- 커뮤니케이션 지연 가정 추가
- 백업 오너가 리드
변이 이유를 기록해야 점수 변화 해석이 가능합니다.
드릴 완료 게이트
아래를 모두 만족해야 사이클 종료:
- 스코어카드 + 근거 링크 보관
- 후속 액션 최소 1개 오너 배정
- 다음 변이 시나리오 초안 작성
- 커맨더 의사결정 품질 코멘트 승인
게이트가 없으면 드릴은 이벤트성으로 끝납니다.
드릴 점수 정규화 규칙
주간 드릴 비교를 위해 점수를 정규화합니다.
- SEV-1형 시나리오는 detection/decision 가중치 상향
- 이해관계자 다수 시나리오는 comms 가중치 상향
- raw score + weighted score를 함께 공개
예시 가중치
- detection quality: 30%
- decision quality: 25%
- ownership clarity: 20%
- evidence quality: 15%
- communication cadence: 10%
시나리오별 변경 시 근거를 문서화하세요.
정체 드릴 대응 커맨더 규칙
5분 이상 결정이 멈추면:
- 추가 토론 중단
- 분기 선택 강제(continue/rollback/escalate)
- 실행 오너 즉시 지정
- 5분 뒤 체크포인트 예약
리허설 단계에서 분석 마비를 끊어냅니다.
디브리프 전환 규칙
모든 디브리프 결과는 반드시 아래 중 하나가 되어야 합니다.
- 머지된 통제
- 오너/기한 있는 예정 통제
- 사유가 기록된 기각
고아 상태 발견사항을 남기지 마세요.
분기별 드릴 캠페인 구조
단발 이벤트가 아니라 캠페인으로 운영하세요.
- 1개월차: 대응 속도 중심(탐지+의사결정 지연)
- 2개월차: 협업 품질 중심(핸드오프+커뮤니케이션 무결성)
- 3개월차: 복구 품질 중심(검증 깊이+후속 종료율)
캠페인 설계가 점수 추세 해석을 가능하게 만듭니다.
현실성 강화를 위한 스트레스 모디파이어
드릴마다 아래 중 1개를 추가하세요.
- 신호 가시성 지연
- 핵심 오너 부분 부재
- 이해관계자 상충 요청
- 관측 채널 일부 저하
클린 시뮬레이션에서는 안 보이는 취약점을 드러냅니다.
드릴 근거 최소 기준
각 드릴 산출물에 반드시 포함:
- 의사결정 타임스탬프 포함 타임라인
- 명령 수준 검증 스니펫
- 오너 핸드오프 체인
- 약속 대비 실제 comms 업데이트
- 후속 액션 매핑
없으면 스코어카드는 스토리텔링에 그칩니다.
3회 드릴마다 보정 리뷰
세 번째 드릴마다 보정 실행:
- 가중치 점수 추세 비교
- 과대가중 항목 식별
- 사유 포함 가중치 조정
- 다음 사이클 전에 루브릭 공개
투명한 보정이 지표 게임화를 줄입니다.
다팀 연합 드릴 모델
조직 규모가 크면 연합 방식으로 운영합니다.
- 플랫폼팀: 공통 인프라 시나리오 담당
- 제품팀: 고객 경로 시나리오 담당
- 보안팀: 신뢰 경계 실패 주입
연합 드릴이 팀 간 결합 리스크를 조기에 드러냅니다.
드릴 품질 KPI
개별 점수보다 프로그램 품질을 측정하세요.
- 완전 근거 번들 포함 드릴 비율
- 기한 내 후속 액션 종료율
- 첫 명시 결정까지의 중앙값 시간
- 동일 실패 모드 반복 발견율
KPI가 나빠지면 시나리오 범위를 줄이고 규율을 회복하세요.
옵저버 편향 통제
채점 편향을 줄이기 위한 규칙:
- 사이클마다 옵저버 순환
- 극단 점수에 근거 링크 의무화
- 가능하면 1명은 팀명 블라인드 채점
채점 품질이 좋아야 하드닝 의사결정 품질도 올라갑니다.