Official References: Best Practices · Review · Worktrees · Automations
Por qué los simulacros de resiliencia son obligatorios a escala
Los planes de incidente prueban intención. Los simulacros prueban capacidad.
Sin ensayo bajo presión, la calidad de recuperación es una suposición.
Tiers de madurez de simulacro
| Tier | Alcance | Cadencia | Criterio de aprobación |
|---|---|---|---|
| Tabletop de decisiones | ownership y lógica de bifurcación | semanal | sin ownership ambiguo en decisiones |
| Simulación de servicio | un sistema o lane | quincenal | ventana objetivo de recuperación cumplida con evidencia |
| Simulación de alta fidelidad | recuperación multi-lane coordinada | mensual | mitigación+verificación+comms+seguimiento completos |
Paquete de diseño de escenario
Todo simulacro inicia con:
- hipótesis de escenario
- mecanismo de trigger
- límite de radio de impacto
- criterios de abortar
- comandante y owner del score
Campos ausentes generan resultados ruidosos.
Orquestación por lanes
- Lane de inyección: activar fallo controlado
- Lane de respuesta: ejecutar decisión de mitigación
- Lane de verificación: validar comportamiento restaurado
- Lane de comunicación: gestionar timeline y escalaciones
Un único comandante debe mantener disciplina de checkpoints.
Scorecard de resiliencia
Score binario por fila:
- latencia de detección en objetivo
- ownership explícito durante todo el flujo
- mitigación reversible
- evidencia fresca de verificación
- owners de seguimiento con fecha asignada
Puntaje mínimo de aprobación: 4/5.
Disciplina de decisiones por checkpoint
En cada checkpoint exige una decisión explícita:
- continuar mitigación
- rollback a revisión estable
- escalar y pausar rollout
Decisiones implícitas crean rutas de fallo ocultas.
Política de mutación de escenarios
No repitas simulaciones idénticas.
Mutar al menos una variable por ciclo:
- timing de falla
- clase de dependencia
- disponibilidad de owners
- restricciones de comunicación
La mutación desarrolla resiliencia adaptativa.
Programa trimestral de simulacros
- ejecutar mínimo una simulación de alta fidelidad
- rotar comandante y observadores
- revisar dimensiones con score bajo repetido
- retirar controles que no mejoren la tendencia de score
Simulacros de alta calidad superan volumen sin señal.
Anti-patrones avanzados
Inflar score sin evidencia
Optimizar métricas sin prueba produce confianza falsa.
Comandante sobrecargado con ownership de lanes
Una sola persona no debe sostener todas las señales.
Seguimientos logueados sin fecha límite
Trabajo sin fecha es riesgo latente de incidente.
Checklist rápido
Antes de cerrar ciclo de simulacro:
- scorecard archivado
- decisiones por checkpoint registradas
- mutación de escenario documentada
- owners y fechas de seguimiento asignados
Codex acelera la ejecución de respuesta. Los simulacros validan la confiabilidad de esa respuesta.
Catálogo de escenarios de simulacro
Rota escenarios para evitar respuestas memorizadas.
Set de confiabilidad
- Tormenta de timeout en dependencia — latencia API principal fuera de SLO.
- Release con drift de configuración — un entorno usa flags desactualizados.
- Saturación de backlog de colas — retraso de procesamiento en cascada.
- Apagón de observabilidad — panel crítico cae durante incidente.
- Owner no disponible — on-call principal ausente en primer checkpoint.
Combina 1 fallo técnico + 1 fallo de coordinación por ciclo.
Paquete de scoring para observadores
Evalúa comportamiento, no carisma.
| Dimensión | Observación |
|---|---|
| Detección | ¿se reconoció y clasificó bien la primera señal? |
| Decisión | ¿se tomó una decisión reversible a tiempo? |
| Ownership | ¿cada checkpoint tuvo next owner explícito? |
| Evidencia | ¿hubo comandos/logs por checkpoint? |
| Cadencia de comunicación | ¿se cumplieron tiempos prometidos? |
Incluye enlaces de evidencia por score.
Plantilla de timeline (45 min)
- 00:00–05:00 briefing + criterios de éxito
- 05:00–15:00 primera señal + decisión de triage
- 15:00–30:00 ejecución de mitigación
- 30:00–40:00 verificación de estabilidad
- 40:00–45:00 debrief + asignación de seguimiento
Si se excede tiempo, registra causa como deuda de proceso.
Scripts de comunicación bajo presión
Update de primeros 5 minutos
Incident drill started at <time>
Observed signal: <summary>
Current branch: triage/mitigate/rollback
Next checkpoint: <time>
Commander: <name>Update de checkpoint de escalación
Escalation reason: <threshold breach>
Decision: continue | rollback | pause
Immediate owner: <name>
Verification owner: <name>
Next update at: <time>Matriz de decisiones de debrief
Clasifica hallazgos en:
- Fix now (alto riesgo + bajo esfuerzo)
- Next cycle (alto riesgo + esfuerzo medio)
- Observe (impacto incierto)
- Drop (sin valor medible)
No dejes hallazgos sin categoría.
Política de mutación de escenarios
Mutar al menos una variable por ciclo:
- timing del fallo
- tipo de dependencia que falla
- disponibilidad de owners
- restricción de canal de comunicación
Documenta el porqué de la mutación para interpretar cambios de score.
Gate de cierre del ciclo
Cierra ciclo solo cuando:
- scorecard + evidencia archivados
- al menos una acción con owner asignado
- próximo escenario mutado borrador listo
- comandante firma notas de calidad de decisiones
Sin gate, los simulacros se vuelven eventos aislados.
Normalización de score de simulacros
Para comparar semanas, normaliza score:
- en escenarios estilo SEV-1 pondera más detección y decisión
- en escenarios multi-stakeholder pondera más comms
- publica score crudo y score ponderado
Ponderación ejemplo
- detection quality: 30%
- decision quality: 25%
- ownership clarity: 20%
- evidence quality: 15%
- communication cadence: 10%
Si cambias pesos, documenta el motivo.
Regla del commander para simulacro estancado
Si pasan >5 minutos sin decisión:
- detener debate adicional
- forzar rama explícita (continue/rollback/escalate)
- asignar owner de ejecución
- fijar checkpoint en 5 minutos
Esto evita parálisis analítica.
Regla de conversión de debrief
Todo hallazgo debe terminar como:
- control mergeado
- control planificado con owner/fecha
- rechazo documentado con razón
No dejes hallazgos huérfanos.
Estructura de campaña trimestral
Ejecuta campañas, no eventos sueltos.
- Mes 1: foco en velocidad de respuesta (detección + decisión)
- Mes 2: foco en coordinación (handoff + integridad de comunicación)
- Mes 3: foco en calidad de recuperación (verificación + follow-up)
Así la tendencia de score se vuelve interpretable.
Modificadores de estrés
Añade uno por simulacro:
- visibilidad de señal retrasada
- disponibilidad parcial de owners
- pedidos conflictivos de stakeholders
- degradación de canal de observabilidad
Estos modificadores exponen fragilidad real.
Evidencia mínima por simulacro
Toda salida debe incluir:
- timeline con timestamps de decisión
- snippets de verificación a nivel comando
- cadena de handoffs de ownership
- updates enviados vs prometidos
- mapeo de acciones de seguimiento
Sin esto, el scorecard es solo narrativa.
Recalibración cada 3 simulacros
Después de cada tercer simulacro:
- comparar tendencia de score ponderado
- detectar dimensiones sobre-ponderadas
- ajustar pesos con justificación
- publicar rúbrica antes del siguiente ciclo
La recalibración transparente reduce gaming.
Modelo federado de simulacros multi-equipo
Para organizaciones grandes, usa federación:
- plataforma: escenarios de infraestructura compartida
- producto: escenarios de rutas de cliente
- seguridad: inyección de fallos en límites de confianza
La federación revela acoplamientos entre equipos antes del incidente real.
KPI de calidad del programa
Mide calidad del programa, no solo score puntual:
- % de simulacros con bundle de evidencia completo
- % de follow-up cerrado en fecha
- mediana de tiempo hasta primer checkpoint explícito
- tasa de recurrencia del mismo hallazgo
Si la tendencia empeora, reduce alcance y recupera rigor.
Controles de sesgo para observadores
Para reducir sesgo:
- rotar observadores cada ciclo
- exigir evidencia para scores extremos
- cuando sea posible, cegado parcial por equipo
Mejor scoring produce mejores decisiones de hardening.