Métricas de Resiliencia y SLO en Codex — Medir Confiabilidad Antes del Fallo

Official References: Best Practices · Review · Worktrees · Automations

Por qué medir es un control de resiliencia

La confiabilidad deriva gradualmente antes de romperse de forma visible. Las métricas son el sistema de alerta temprana para esa deriva.

Set central de métricas

Métrica	Pregunta de decisión	Fuente típica
MTTD	¿detectamos suficientemente rápido?	timeline de alertas
MTTC	¿las decisiones se demoran?	log de comando de incidente
MTTR	¿qué tan rápido restauramos estado estable?	timeline de deploy/verificación
Evidence freshness	¿la prueba de cierre es actual?	log de artefactos de verificación
Follow-up closure rate	¿se cierran realmente los compromisos de hardening?	backlog post-incidente

Diseño de SLO por severidad

SEV-1: ventana estricta de contención + activación de rollback
SEV-2: ventana de estabilización para degradación mayor
SEV-3: ventana de cierre para release correctivo planificado

Los SLO deben ser numéricos y con owner asignado.

Protocolo de medición

Registra estos timestamps en cada incidente:

inicio de incidente
primera detección
primera decisión de mitigación
confirmación de estado estable
cierre

Cadenas incompletas de timestamps reducen credibilidad analítica.

Revisión operativa semanal

revisar breaches de umbral
inspeccionar outliers de cola
mapear misses a buckets de control
asignar owner + fecha para regresiones de mayor impacto

Modelo de escalación por umbral

Define límites green/yellow/red por métrica. Si se toca red, exige:

registro inmediato de escalación
owner de confiabilidad nombrado
re-check forzado en el siguiente ciclo

Reglas de calidad de dashboard

mostrar tendencia y bandas percentiles
separar clases de severidad
incluir denominador y tamaño de muestra
enlazar cada pico a notas de incidente

Bucle trimestral de calibración

Cada trimestre:

elevar SLO solo tras logro sostenido
retirar métricas no accionables
agregar una métrica para nueva clase de fallo

El objetivo es calidad de decisión, no tamaño de dashboard.

Anti-patrones avanzados

Promediar el riesgo de cola

Los promedios ocultan eventos que causan incidentes.

SLO sin owner responsable

Un SLO sin owner deriva en teatro de estado.

Cierre con evidencia obsoleta

Pruebas antiguas no justifican confianza del estado actual.

Checklist rápido

Antes de revisión mensual de resiliencia:

definiciones de métricas vigentes
SLO por severidad publicados y con owner
breaches red/yellow asignados explícitamente
tendencia de cierre de follow-up revisada

Codex acelera ejecución. Las métricas protegen integridad de confiabilidad.

Diccionario de métricas (campos obligatorios)

Define cada métrica con esquema único:

### Metric Definition
- Name:
- Purpose:
- Formula:
- Data source:
- Collection cadence:
- Owner:
- Red threshold:
- Yellow threshold:
- Expected action on breach:

Definiciones ambiguas generan discusiones interminables en incidentes.

Política SLO tipo error budget

Define por severidad:

número de breaches permitidos por trimestre
umbral de escalación obligatoria
regla de freeze al agotar presupuesto

Ejemplo

SEV-1: cero tolerancia a incumplir ventana de contención
SEV-2: más de 2 breaches trimestrales obliga revisión de controles
SEV-3: seguimiento por tendencia

Preguntas de revisión semanal

¿Qué métrica se movió más vs baseline?
¿La variación es señal o ruido (muestra)?
¿Quién es el owner de acción esta semana?
¿En qué bucket de control cae la acción?
¿Qué cambio esperamos ver para la próxima revisión?

Tabla de mapeo de escalación

Tipo de breach	Owner inmediato	Owner secundario	SLA respuesta
MTTD red	observability owner	incident commander	24h
MTTC red	incident commander	release owner	mismo día
MTTR red	platform owner	service owner	24h
freshness breach	verifier owner	commander	mismo día
follow-up closure breach	reliability owner	team lead	72h

Formato de resumen ejecutivo mensual

### Monthly Resilience Summary
- Top improving metric:
- Top regressing metric:
- Repeated breach classes:
- Controls added this month:
- Controls retired this month:
- Ownership risks:
- Next-month focus:

Mantén el resumen corto y accionable.

Checks de calidad de datos

Antes de confiar en el dashboard:

ratio de timestamps faltantes
incident IDs duplicados
etiquetas de severidad inconsistentes
latencia de refresco de fuentes

Métrica precisa sobre datos rotos sigue siendo engañosa.

Reglas anti-gaming

no evaluar equipos por ranking de una sola métrica
exigir enlaces de evidencia para mejoras grandes
revisar percentiles de cola antes de celebrar promedios
premiar tendencia sostenida, no picos de una semana

Estas reglas preservan integridad de métricas bajo presión organizacional.

Regla operativa del board de métricas

El board mensual solo produce tres salidas:

keep — la métrica sigue guiando acción
change — requiere ajuste de definición/umbral
remove — no aporta valor de decisión

Así se evita crecimiento de dashboard sin valor.

Seguimiento de riesgo de cola

Además del promedio, rastrea:

p90 / p95 / p99 para MTTD y MTTR
edad del follow-up más antiguo abierto
intervalo de recurrencia del breach más severo

La cola muestra el riesgo real de incidente.

Playbook de breach SLO

Cuando ocurre breach:

abrir registro el mismo día
asignar owner y verifier
definir control correctivo candidato
fijar checkpoint de revisión en 7 días

Cierra solo con evidencia de efecto del control.

Criterios para retirar métricas

Retira una métrica cuando se cumpla todo:

2 trimestres sin acciones derivadas
solapamiento alto con otra métrica
stakeholders no explican uso práctico

Retira con nota explícita, no borrado silencioso.

Contrato métrica→acción

Cada métrica debe tener ruta de acción predefinida.

Estado de métrica	Acción obligatoria	Owner
Green stable	solo monitoreo	metric owner
Yellow drift	abrir nota de investigación	reliability owner
Red breach	ejecutar playbook de escalación	commander + service owner