Claude Métricas de Resiliencia y SLO

Referencias oficiales: Best Practices · Hooks · Security · GitHub Actions

Por qué importan estas métricas

Los simulacros y runbooks son necesarios, pero no suficientes. Sin métricas, no puedes saber si la resiliencia mejora o empeora.

Stack central de métricas de resiliencia

Métrica	Qué mide	Fuente típica
MTTD	latencia de detección	timeline de alertas
MTTC	tiempo hasta decisión de contención	log de decisiones
MTTR	tiempo para restaurar estado estable	logs de deploy + verificación
Verification freshness	antigüedad de la prueba final antes del cierre	registros de evidencia
Follow-up closure rate	% de hardening cerrado a tiempo	backlog de hardening

Modelo SLO por severidad

SEV-1: decisión de contención y activación de rollback bajo presupuesto estricto
SEV-2: degradación con impacto al usuario estabilizada en ventana definida
SEV-3: release correctivo completado en ciclo planificado

Define SLO en números explícitos, no en adjetivos.

Protocolo de recolección de datos

En cada incidente registra:

timestamp de inicio
timestamp de primera alerta
timestamp de primera decisión de mitigación
timestamp de confirmación de estado estable
timestamp de cierre

Sin timestamps completos, el análisis de tendencia se degrada.

Revisión semanal de resiliencia

Cada semana:

revisar outliers de MTTD/MTTR
inspeccionar seguimientos retrasados o perdidos
mapear fallos a buckets de control
asignar owner y fecha para regresiones prioritarias

Reglas de escalación por umbral

Define umbrales red/yellow/green por métrica. Cuando se alcance red:

abrir escalación de inmediato
asignar owner de confiabilidad
forzar re-check la semana siguiente

Reglas de diseño de dashboard

mostrar tendencia, no solo valor reciente
separar clases de severidad
incluir denominador y contexto
enlazar cada pico al incidente asociado

Métricas sin contexto crean narrativas falsas.

Calibración trimestral

Cada trimestre:

subir objetivos SLO solo tras estabilidad comprobada
retirar métricas que no influyen decisiones
añadir una métrica para la nueva clase de fallo observada

Un dashboard pequeño y útil supera uno grande ignorado.

Anti-patrones avanzados

Reportar solo promedios

Los promedios esconden comportamiento de cola.

SLO sin ownership

SLO sin owner termina como número decorativo.

Cerrar incidentes sin freshness check

Evidencia vieja no sostiene confianza de cierre actual.

Checklist rápido

Antes de revisión mensual de confiabilidad:

definiciones de métricas documentadas
SLO por severidad visibles
breaches de umbral mapeados a owners
tendencia de cierre de follow-up revisada

Claude acelera equipos. Las métricas aseguran mejora segura.

Diccionario de métricas (campos obligatorios)

Define cada métrica con esquema único:

### Metric Definition
- Name:
- Purpose:
- Formula:
- Data source:
- Collection cadence:
- Owner:
- Red threshold:
- Yellow threshold:
- Expected action on breach:

Definiciones ambiguas generan discusiones interminables en incidentes.

Política SLO tipo error budget

Define por severidad:

número de breaches permitidos por trimestre
umbral de escalación obligatoria
regla de freeze al agotar presupuesto

Ejemplo

SEV-1: cero tolerancia a incumplir ventana de contención
SEV-2: más de 2 breaches trimestrales obliga revisión de controles
SEV-3: seguimiento por tendencia

Preguntas de revisión semanal

¿Qué métrica se movió más vs baseline?
¿La variación es señal o ruido (muestra)?
¿Quién es el owner de acción esta semana?
¿En qué bucket de control cae la acción?
¿Qué cambio esperamos ver para la próxima revisión?

Tabla de mapeo de escalación

Tipo de breach	Owner inmediato	Owner secundario	SLA respuesta
MTTD red	observability owner	incident commander	24h
MTTC red	incident commander	release owner	mismo día
MTTR red	platform owner	service owner	24h
freshness breach	verifier owner	commander	mismo día
follow-up closure breach	reliability owner	team lead	72h

Formato de resumen ejecutivo mensual

### Monthly Resilience Summary
- Top improving metric:
- Top regressing metric:
- Repeated breach classes:
- Controls added this month:
- Controls retired this month:
- Ownership risks:
- Next-month focus:

Mantén el resumen corto y accionable.

Checks de calidad de datos

Antes de confiar en el dashboard:

ratio de timestamps faltantes
incident IDs duplicados
etiquetas de severidad inconsistentes
latencia de refresco de fuentes

Métrica precisa sobre datos rotos sigue siendo engañosa.

Reglas anti-gaming

no evaluar equipos por ranking de una sola métrica
exigir enlaces de evidencia para mejoras grandes
revisar percentiles de cola antes de celebrar promedios
premiar tendencia sostenida, no picos de una semana

Estas reglas preservan integridad de métricas bajo presión organizacional.

Regla operativa del board de métricas

El board mensual solo produce tres salidas:

keep — la métrica sigue guiando acción
change — requiere ajuste de definición/umbral
remove — no aporta valor de decisión

Así se evita crecimiento de dashboard sin valor.

Seguimiento de riesgo de cola

Además del promedio, rastrea:

p90 / p95 / p99 para MTTD y MTTR
edad del follow-up más antiguo abierto
intervalo de recurrencia del breach más severo

La cola muestra el riesgo real de incidente.

Playbook de breach SLO

Cuando ocurre breach:

abrir registro el mismo día
asignar owner y verifier
definir control correctivo candidato
fijar checkpoint de revisión en 7 días

Cierra solo con evidencia de efecto del control.

Criterios para retirar métricas

Retira una métrica cuando se cumpla todo:

2 trimestres sin acciones derivadas
solapamiento alto con otra métrica
stakeholders no explican uso práctico

Retira con nota explícita, no borrado silencioso.

Contrato métrica→acción

Cada métrica debe tener ruta de acción predefinida.

Estado de métrica	Acción obligatoria	Owner
Green stable	solo monitoreo	metric owner
Yellow drift	abrir nota de investigación	reliability owner
Red breach	ejecutar playbook de escalación	commander + service owner