Gemini Métricas de Resiliencia y SLO

Referencias oficiales: Get Started · CLI Commands · Sub-agents · Skills

Por qué importa la disciplina de métricas

Sin disciplina de métricas, la resiliencia se gestiona con anécdotas. Los equipos necesitan señales medibles para priorizar inversión.

Modelo central de métricas

Métrica	Uso de decisión	Fuente
MTTD	calidad de alertas y ruteo	timeline de monitoreo
MTTC	velocidad de decisión de mitigación	log de decisiones
MTTR	eficiencia de restauración	salida de deploy + verificación
Evidence freshness	calidad de confianza al cierre	archivo de evidencia
Follow-up burn-down	salud de ejecución de hardening	backlog de acciones

Objetivos SLO por severidad

SEV-1: contención + activación de rollback en ventana estricta
SEV-2: degradación mayor estabilizada en ventana acordada
SEV-3: release correctivo planificado en ciclo estándar

Usa objetivos numéricos y revisa variación semanal.

Protocolo de calidad de datos

Captura cinco timestamps obligatorios:

inicio del incidente
primera detección
primera decisión de mitigación
verificación de estado estable
cierre

Gaps de timestamps deben tratarse como defecto de proceso.

Cadencia semanal de revisión

revisar breaches vs objetivo
analizar incidentes de cola repetidos
mapear misses a categorías de control
asignar owner + fecha para regresiones críticas

Política umbral→escalación

Define por métrica:

green: normal
yellow: observar
red: escalación inmediata

Estado red debe abrir ruta con owner nombrado.

Reglas de dashboard

mostrar tendencia y percentiles, no solo promedio
separar lanes por severidad
mostrar denominador/contexto
enlazar cada pico al incidente correspondiente

Calibración trimestral de SLO

Cada trimestre:

ajustar SLO solo tras logro sostenido
eliminar métricas que no cambian decisiones
añadir una métrica para nueva clase de fallo

Anti-patrones avanzados

Muchas métricas, poca acción

Si no producen decisiones, son ruido.

SLO sin ownership

SLO sin owner se degrada silenciosamente.

Cierre con evidencia obsoleta

Evidencia vieja no justifica confianza de estado actual.

Checklist rápido

Antes del consejo mensual de confiabilidad:

definiciones de métricas actualizadas
SLO por severidad publicados
breaches red/yellow con owner
tendencia de follow-up burn-down revisada

Gemini CLI acelera ejecución. Las métricas mantienen la confiabilidad responsable.

Diccionario de métricas (campos obligatorios)

Define cada métrica con esquema único:

### Metric Definition
- Name:
- Purpose:
- Formula:
- Data source:
- Collection cadence:
- Owner:
- Red threshold:
- Yellow threshold:
- Expected action on breach:

Definiciones ambiguas generan discusiones interminables en incidentes.

Política SLO tipo error budget

Define por severidad:

número de breaches permitidos por trimestre
umbral de escalación obligatoria
regla de freeze al agotar presupuesto

Ejemplo

SEV-1: cero tolerancia a incumplir ventana de contención
SEV-2: más de 2 breaches trimestrales obliga revisión de controles
SEV-3: seguimiento por tendencia

Preguntas de revisión semanal

¿Qué métrica se movió más vs baseline?
¿La variación es señal o ruido (muestra)?
¿Quién es el owner de acción esta semana?
¿En qué bucket de control cae la acción?
¿Qué cambio esperamos ver para la próxima revisión?

Tabla de mapeo de escalación

Tipo de breach	Owner inmediato	Owner secundario	SLA respuesta
MTTD red	observability owner	incident commander	24h
MTTC red	incident commander	release owner	mismo día
MTTR red	platform owner	service owner	24h
freshness breach	verifier owner	commander	mismo día
follow-up closure breach	reliability owner	team lead	72h

Formato de resumen ejecutivo mensual

### Monthly Resilience Summary
- Top improving metric:
- Top regressing metric:
- Repeated breach classes:
- Controls added this month:
- Controls retired this month:
- Ownership risks:
- Next-month focus:

Mantén el resumen corto y accionable.

Checks de calidad de datos

Antes de confiar en el dashboard:

ratio de timestamps faltantes
incident IDs duplicados
etiquetas de severidad inconsistentes
latencia de refresco de fuentes

Métrica precisa sobre datos rotos sigue siendo engañosa.

Reglas anti-gaming

no evaluar equipos por ranking de una sola métrica
exigir enlaces de evidencia para mejoras grandes
revisar percentiles de cola antes de celebrar promedios
premiar tendencia sostenida, no picos de una semana

Estas reglas preservan integridad de métricas bajo presión organizacional.

Regla operativa del board de métricas

El board mensual solo produce tres salidas:

keep — la métrica sigue guiando acción
change — requiere ajuste de definición/umbral
remove — no aporta valor de decisión

Así se evita crecimiento de dashboard sin valor.

Seguimiento de riesgo de cola

Además del promedio, rastrea:

p90 / p95 / p99 para MTTD y MTTR
edad del follow-up más antiguo abierto
intervalo de recurrencia del breach más severo

La cola muestra el riesgo real de incidente.

Playbook de breach SLO

Cuando ocurre breach:

abrir registro el mismo día
asignar owner y verifier
definir control correctivo candidato
fijar checkpoint de revisión en 7 días

Cierra solo con evidencia de efecto del control.

Criterios para retirar métricas

Retira una métrica cuando se cumpla todo:

2 trimestres sin acciones derivadas
solapamiento alto con otra métrica
stakeholders no explican uso práctico

Retira con nota explícita, no borrado silencioso.

Contrato métrica→acción

Cada métrica debe tener ruta de acción predefinida.

Estado de métrica	Acción obligatoria	Owner
Green stable	solo monitoreo	metric owner
Yellow drift	abrir nota de investigación	reliability owner
Red breach	ejecutar playbook de escalación	commander + service owner