Simulacros de Resiliencia Caótica en Codex — Ensayar Fallos Antes de Recibirlos

Official References: Best Practices · Review · Worktrees · Automations

Por qué los simulacros de resiliencia son obligatorios a escala

Los planes de incidente prueban intención. Los simulacros prueban capacidad.

Sin ensayo bajo presión, la calidad de recuperación es una suposición.

Tiers de madurez de simulacro

Tier	Alcance	Cadencia	Criterio de aprobación
Tabletop de decisiones	ownership y lógica de bifurcación	semanal	sin ownership ambiguo en decisiones
Simulación de servicio	un sistema o lane	quincenal	ventana objetivo de recuperación cumplida con evidencia
Simulación de alta fidelidad	recuperación multi-lane coordinada	mensual	mitigación+verificación+comms+seguimiento completos

Paquete de diseño de escenario

Todo simulacro inicia con:

hipótesis de escenario
mecanismo de trigger
límite de radio de impacto
criterios de abortar
comandante y owner del score

Campos ausentes generan resultados ruidosos.

Orquestación por lanes

Lane de inyección: activar fallo controlado
Lane de respuesta: ejecutar decisión de mitigación
Lane de verificación: validar comportamiento restaurado
Lane de comunicación: gestionar timeline y escalaciones

Un único comandante debe mantener disciplina de checkpoints.

Scorecard de resiliencia

Score binario por fila:

latencia de detección en objetivo
ownership explícito durante todo el flujo
mitigación reversible
evidencia fresca de verificación
owners de seguimiento con fecha asignada

Puntaje mínimo de aprobación: 4/5.

Disciplina de decisiones por checkpoint

En cada checkpoint exige una decisión explícita:

continuar mitigación
rollback a revisión estable
escalar y pausar rollout

Decisiones implícitas crean rutas de fallo ocultas.

Política de mutación de escenarios

No repitas simulaciones idénticas.

Mutar al menos una variable por ciclo:

timing de falla
clase de dependencia
disponibilidad de owners
restricciones de comunicación

La mutación desarrolla resiliencia adaptativa.

Programa trimestral de simulacros

ejecutar mínimo una simulación de alta fidelidad
rotar comandante y observadores
revisar dimensiones con score bajo repetido
retirar controles que no mejoren la tendencia de score

Simulacros de alta calidad superan volumen sin señal.

Anti-patrones avanzados

Inflar score sin evidencia

Optimizar métricas sin prueba produce confianza falsa.

Comandante sobrecargado con ownership de lanes

Una sola persona no debe sostener todas las señales.

Seguimientos logueados sin fecha límite

Trabajo sin fecha es riesgo latente de incidente.

Checklist rápido

Antes de cerrar ciclo de simulacro:

scorecard archivado
decisiones por checkpoint registradas
mutación de escenario documentada
owners y fechas de seguimiento asignados

Codex acelera la ejecución de respuesta. Los simulacros validan la confiabilidad de esa respuesta.

Catálogo de escenarios de simulacro

Rota escenarios para evitar respuestas memorizadas.

Set de confiabilidad

Tormenta de timeout en dependencia — latencia API principal fuera de SLO.
Release con drift de configuración — un entorno usa flags desactualizados.
Saturación de backlog de colas — retraso de procesamiento en cascada.
Apagón de observabilidad — panel crítico cae durante incidente.
Owner no disponible — on-call principal ausente en primer checkpoint.

Combina 1 fallo técnico + 1 fallo de coordinación por ciclo.

Paquete de scoring para observadores

Evalúa comportamiento, no carisma.

Dimensión	Observación
Detección	¿se reconoció y clasificó bien la primera señal?
Decisión	¿se tomó una decisión reversible a tiempo?
Ownership	¿cada checkpoint tuvo next owner explícito?
Evidencia	¿hubo comandos/logs por checkpoint?
Cadencia de comunicación	¿se cumplieron tiempos prometidos?

Incluye enlaces de evidencia por score.

Plantilla de timeline (45 min)

00:00–05:00 briefing + criterios de éxito
05:00–15:00 primera señal + decisión de triage
15:00–30:00 ejecución de mitigación
30:00–40:00 verificación de estabilidad
40:00–45:00 debrief + asignación de seguimiento

Si se excede tiempo, registra causa como deuda de proceso.

Scripts de comunicación bajo presión

Update de primeros 5 minutos

Incident drill started at <time>
Observed signal: <summary>
Current branch: triage/mitigate/rollback
Next checkpoint: <time>
Commander: <name>

Update de checkpoint de escalación

Escalation reason: <threshold breach>
Decision: continue | rollback | pause
Immediate owner: <name>
Verification owner: <name>
Next update at: <time>

Matriz de decisiones de debrief

Clasifica hallazgos en:

Fix now (alto riesgo + bajo esfuerzo)
Next cycle (alto riesgo + esfuerzo medio)
Observe (impacto incierto)
Drop (sin valor medible)

No dejes hallazgos sin categoría.

Política de mutación de escenarios

Mutar al menos una variable por ciclo:

timing del fallo
tipo de dependencia que falla
disponibilidad de owners
restricción de canal de comunicación

Documenta el porqué de la mutación para interpretar cambios de score.

Gate de cierre del ciclo

Cierra ciclo solo cuando:

scorecard + evidencia archivados
al menos una acción con owner asignado
próximo escenario mutado borrador listo
comandante firma notas de calidad de decisiones

Sin gate, los simulacros se vuelven eventos aislados.

Normalización de score de simulacros

Para comparar semanas, normaliza score:

en escenarios estilo SEV-1 pondera más detección y decisión
en escenarios multi-stakeholder pondera más comms
publica score crudo y score ponderado

Ponderación ejemplo

detection quality: 30%
decision quality: 25%
ownership clarity: 20%
evidence quality: 15%
communication cadence: 10%

Si cambias pesos, documenta el motivo.

Regla del commander para simulacro estancado

Si pasan >5 minutos sin decisión:

detener debate adicional
forzar rama explícita (continue/rollback/escalate)
asignar owner de ejecución
fijar checkpoint en 5 minutos

Esto evita parálisis analítica.

Regla de conversión de debrief

Todo hallazgo debe terminar como:

control mergeado
control planificado con owner/fecha
rechazo documentado con razón

No dejes hallazgos huérfanos.

Estructura de campaña trimestral

Ejecuta campañas, no eventos sueltos.

Mes 1: foco en velocidad de respuesta (detección + decisión)
Mes 2: foco en coordinación (handoff + integridad de comunicación)
Mes 3: foco en calidad de recuperación (verificación + follow-up)

Así la tendencia de score se vuelve interpretable.

Modificadores de estrés

Añade uno por simulacro:

visibilidad de señal retrasada
disponibilidad parcial de owners
pedidos conflictivos de stakeholders
degradación de canal de observabilidad

Estos modificadores exponen fragilidad real.

Evidencia mínima por simulacro

Toda salida debe incluir:

timeline con timestamps de decisión
snippets de verificación a nivel comando
cadena de handoffs de ownership
updates enviados vs prometidos
mapeo de acciones de seguimiento

Sin esto, el scorecard es solo narrativa.

Recalibración cada 3 simulacros

Después de cada tercer simulacro:

comparar tendencia de score ponderado
detectar dimensiones sobre-ponderadas
ajustar pesos con justificación
publicar rúbrica antes del siguiente ciclo

La recalibración transparente reduce gaming.

Modelo federado de simulacros multi-equipo

Para organizaciones grandes, usa federación:

plataforma: escenarios de infraestructura compartida
producto: escenarios de rutas de cliente
seguridad: inyección de fallos en límites de confianza

La federación revela acoplamientos entre equipos antes del incidente real.

KPI de calidad del programa

Mide calidad del programa, no solo score puntual:

% de simulacros con bundle de evidencia completo
% de follow-up cerrado en fecha
mediana de tiempo hasta primer checkpoint explícito
tasa de recurrencia del mismo hallazgo

Si la tendencia empeora, reduce alcance y recupera rigor.

Controles de sesgo para observadores

Para reducir sesgo:

rotar observadores cada ciclo
exigir evidencia para scores extremos
cuando sea posible, cegado parcial por equipo

Mejor scoring produce mejores decisiones de hardening.

Guías Conectadas