공식 참고 자료: Get Started · CLI Commands · Sub-agents · Skills
왜 Gemini 팀에 복원력 드릴이 필요한가
리허설 없는 하드닝 계획은 빠르게 무력화됩니다.
드릴은 팀이 프로세스를 설명하는지, 실제 압박에서 실행하는지 구분해줍니다.
드릴 티어
| 티어 | 범위 | 주기 | 종료 신호 |
|---|---|---|---|
| 의사결정 테이블탑 | 오너십/분기 의사결정 | 매주 | 모호한 오너 핸드오프 없음 |
| 서비스 단위 시뮬레이션 | 단일 워크플로우/표면 | 격주 | 근거 포함 목표 복구 달성 |
| 전체 운영 시뮬레이션 | 다중 레인 협업 복구 | 매월 | 대응+커뮤니케이션+후속조치 완료 |
드릴 셋업 패킷
시작 전 정의 항목:
- 시나리오와 트리거
- 예상 탐지 신호
- 격리 경계
- 중단 조건
- 스코어 오너
셋업 품질이 낮으면 드릴 지표가 노이즈화됩니다.
레인 역할
- Injection 레인: 장애를 안전하게 시뮬레이션
- Response 레인: 완화안 선택 및 적용
- Verification 레인: 복구 상태 증명
- Communication 레인: 타임라인 업데이트 유지
체크포인트 규율은 단일 커맨더가 강제해야 합니다.
신뢰성 스코어카드 (0/1)
- 탐지 지연이 목표 이내
- 오너십이 명시적으로 유지됨
- 완화가 가역적으로 유지됨
- 검증 근거가 최신임
- 후속 작업 오너가 배정됨
4/5 미만은 재실행 대상입니다.
체크포인트 의사결정 프로토콜
주요 체크포인트마다 명시 선택:
- 완화 계속
- 롤백
- 에스컬레이션 후 일시 중지
지연된 의사결정은 숨은 불안정성입니다.
시나리오 변이 규칙
동일 드릴을 반복 실행하지 마세요.
매 사이클마다 최소 1개 변수 변경:
- 타이밍
- 의존성 실패 유형
- 오너 가용성
- 커뮤니케이션 채널 제약
변이가 없으면 거짓 확신이 생깁니다.
분기별 신뢰성 리뷰
- 최소 1회 전체 시뮬레이션 실행
- 커맨더/옵저버 역할 순환
- 반복 저점 항목 식별
- 신뢰성 개선 없는 통제 폐기
고급 안티패턴
근거 링크 없는 점수 기록
근거 없는 숫자는 실행 개선으로 이어지지 않습니다.
커맨더가 모든 레인까지 겸임
독립 신호가 붕괴하고 의사결정 과부하가 발생합니다.
기한 없는 후속 작업
기한 없는 액션은 지연된 리스크입니다.
빠른 체크리스트
드릴 사이클 종료 전:
- 스코어카드 저장
- 체크포인트 의사결정 로그
- 시나리오 변이 기록
- 후속 오너 배정
Gemini CLI는 실행 속도를 올립니다. 드릴은 신뢰성이 그 속도를 따라가게 만듭니다.
드릴 시나리오 카탈로그 (스타터 세트)
암기형 대응을 막기 위해 시나리오를 순환합니다.
신뢰성 시나리오 세트
- 의존성 타임아웃 폭증 — 핵심 API 지연이 SLO 초과
- 설정 드리프트 배포 — 한 환경만 오래된 flag 값 적용
- 큐 백로그 포화 — 처리 지연이 연쇄 장애 유발
- 관측 공백 — 사고 중 핵심 대시보드 패널 장애
- 오너 부재 — 첫 체크포인트에서 주 오너 부재
매 사이클마다 기술 실패 1개 + 협업 실패 1개를 결합하세요.
옵저버 채점 팩
옵저버는 사람 평가가 아니라 행동 평가를 수행합니다.
| 항목 | 관측 포인트 |
|---|---|
| 탐지 품질 | 첫 신호를 올바르게 triage 했는가 |
| 의사결정 품질 | 가역적 결정을 빠르게 내렸는가 |
| 오너십 명확성 | 모든 체크포인트에 next owner가 있는가 |
| 근거 품질 | 체크포인트마다 명령/로그가 남았는가 |
| 커뮤니케이션 주기 | 약속한 주기로 업데이트했는가 |
모든 점수에 근거 링크를 붙이세요.
45분 드릴 타임라인 템플릿
- 00:00–05:00 시나리오 브리프 + 성공 기준
- 05:00–15:00 첫 신호 + triage 결정
- 15:00–30:00 완화 경로 실행
- 30:00–40:00 검증 및 안정성 체크
- 40:00–45:00 디브리프 기록 + 후속 배정
타임라인이 밀리면 원인을 프로세스 부채로 기록합니다.
압박 순간 커뮤니케이션 스크립트
첫 5분 업데이트
Incident drill started at <time>
Observed signal: <summary>
Current branch: triage/mitigate/rollback
Next checkpoint: <time>
Commander: <name>에스컬레이션 체크포인트 업데이트
Escalation reason: <threshold breach>
Decision: continue | rollback | pause
Immediate owner: <name>
Verification owner: <name>
Next update at: <time>디브리프 의사결정 매트릭스
드릴 후 모든 발견 사항을 분류하세요.
- 즉시 수정 (고위험 + 저비용)
- 다음 사이클 배치 (고위험 + 중간 비용)
- 관찰 유지 (영향 불명, 데이터 추가 수집)
- 폐기 (측정 가능한 가치 없음)
미분류 항목을 남기지 마세요.
다음 사이클 변이 설계
다음 드릴은 최소 1개 요소를 의도적으로 변이합니다.
- 실패 시작 시점 변경
- 의존성 실패 유형 변경
- 커뮤니케이션 지연 가정 추가
- 백업 오너가 리드
변이 이유를 기록해야 점수 변화 해석이 가능합니다.
드릴 완료 게이트
아래를 모두 만족해야 사이클 종료:
- 스코어카드 + 근거 링크 보관
- 후속 액션 최소 1개 오너 배정
- 다음 변이 시나리오 초안 작성
- 커맨더 의사결정 품질 코멘트 승인
게이트가 없으면 드릴은 이벤트성으로 끝납니다.
드릴 점수 정규화 규칙
주간 드릴 비교를 위해 점수를 정규화합니다.
- SEV-1형 시나리오는 detection/decision 가중치 상향
- 이해관계자 다수 시나리오는 comms 가중치 상향
- raw score + weighted score를 함께 공개
예시 가중치
- detection quality: 30%
- decision quality: 25%
- ownership clarity: 20%
- evidence quality: 15%
- communication cadence: 10%
시나리오별 변경 시 근거를 문서화하세요.
정체 드릴 대응 커맨더 규칙
5분 이상 결정이 멈추면:
- 추가 토론 중단
- 분기 선택 강제(continue/rollback/escalate)
- 실행 오너 즉시 지정
- 5분 뒤 체크포인트 예약
리허설 단계에서 분석 마비를 끊어냅니다.
디브리프 전환 규칙
모든 디브리프 결과는 반드시 아래 중 하나가 되어야 합니다.
- 머지된 통제
- 오너/기한 있는 예정 통제
- 사유가 기록된 기각
고아 상태 발견사항을 남기지 마세요.
분기별 드릴 캠페인 구조
단발 이벤트가 아니라 캠페인으로 운영하세요.
- 1개월차: 대응 속도 중심(탐지+의사결정 지연)
- 2개월차: 협업 품질 중심(핸드오프+커뮤니케이션 무결성)
- 3개월차: 복구 품질 중심(검증 깊이+후속 종료율)
캠페인 설계가 점수 추세 해석을 가능하게 만듭니다.
현실성 강화를 위한 스트레스 모디파이어
드릴마다 아래 중 1개를 추가하세요.
- 신호 가시성 지연
- 핵심 오너 부분 부재
- 이해관계자 상충 요청
- 관측 채널 일부 저하
클린 시뮬레이션에서는 안 보이는 취약점을 드러냅니다.
드릴 근거 최소 기준
각 드릴 산출물에 반드시 포함:
- 의사결정 타임스탬프 포함 타임라인
- 명령 수준 검증 스니펫
- 오너 핸드오프 체인
- 약속 대비 실제 comms 업데이트
- 후속 액션 매핑
없으면 스코어카드는 스토리텔링에 그칩니다.
3회 드릴마다 보정 리뷰
세 번째 드릴마다 보정 실행:
- 가중치 점수 추세 비교
- 과대가중 항목 식별
- 사유 포함 가중치 조정
- 다음 사이클 전에 루브릭 공개
투명한 보정이 지표 게임화를 줄입니다.
다팀 연합 드릴 모델
조직 규모가 크면 연합 방식으로 운영합니다.
- 플랫폼팀: 공통 인프라 시나리오 담당
- 제품팀: 고객 경로 시나리오 담당
- 보안팀: 신뢰 경계 실패 주입
연합 드릴이 팀 간 결합 리스크를 조기에 드러냅니다.
드릴 품질 KPI
개별 점수보다 프로그램 품질을 측정하세요.
- 완전 근거 번들 포함 드릴 비율
- 기한 내 후속 액션 종료율
- 첫 명시 결정까지의 중앙값 시간
- 동일 실패 모드 반복 발견율
KPI가 나빠지면 시나리오 범위를 줄이고 규율을 회복하세요.
옵저버 편향 통제
채점 편향을 줄이기 위한 규칙:
- 사이클마다 옵저버 순환
- 극단 점수에 근거 링크 의무화
- 가능하면 1명은 팀명 블라인드 채점
채점 품질이 좋아야 하드닝 의사결정 품질도 올라갑니다.