Referencias Oficiales: Best Practices · Review · Sandboxing
Ruta del currículo
- Primeros Pasos con Codex — Instalación, Primera Tarea y Checkpoints — primeros loops seguros
- Instrucciones de Codex — Cómo Hacer que AGENTS.md Sirva de Verdad — reglas del repo y defaults
- Sandboxing en Codex — Permisos, Approvals y Entornos Cloud — permisos y límites
- Diseño de Tareas en Codex — Escribe Prompts Como Issues, No Como Deseos — dar buena forma al trabajo
- Skills de Codex — Convierte Prompts Repetidos en Workflows Reutilizables — convertir trabajo repetido en activos reutilizables
- Subagentes de Codex — Ejecución Paralela y Patrones de Delegación — ejecución paralela y delegación
- MCP en Codex — Conecta Contexto Externo en Vez de Copiarlo y Pegar — conectar sistemas externos
- Reviews y Automatizaciones con Codex — /review, Worktrees e Ingeniería Repetible — ejecutar workflows estables una y otra vez
- Codex Worktrees — Ejecución Paralela Aislada Sin Caos de Branches
- Handoffs en Codex — Convertir Lanes Paralelos en Resultados Listos para Merge
- Loops de Verificación en Codex — Demostrar que Funciona Antes del Merge ← Estás aquí
- Release Readiness en Codex — Gates Finales Antes de Producción
- Codex Loop Seguro del Primer Día — Flujo Inicial para Evitar Errores Tempranos
- Playbook de Entrega de Equipo en Codex — Operación Intermedia por Lanes
- Gobernanza de Cambios de Alto Riesgo en Codex — Controles Avanzados para Releases Críticas
- Manual Operativo de Codex — Ritmo Diario, Semanal y de Release para Equipos
- Playbook de Recuperación de Incidentes en Codex — Respuesta Determinista Bajo Presión
- Bucle de Hardening Post-Incidente en Codex — De la Recuperación a Controles Duraderos
- Simulacros de Resiliencia Caótica en Codex — Ensayar Fallos Antes de Recibirlos
- Métricas de Resiliencia y SLO en Codex — Medir Confiabilidad Antes del Fallo
- Loops de Persistencia Ralph en Codex — Llevar Tareas Largas a Cierre Verificado
Documentación oficial usada en esta guía
- Task framing con done criteria explícitos — Best Practices
- Checkpoints de review por alcance de diff — Review
- Límites de permisos y expectativas de ejecución segura — Sandboxing
Por qué importan los loops de verificación
Codex genera output rápido. Los loops de verificación determinan si ese output es confiable.
Sin loop explícito, los equipos terminan desplegando con lenguaje de confianza:
- "se ve bien"
- "debería pasar"
- "probablemente es seguro"
Eso no es evidencia.
Contrato de done: claim -> command -> output
Cada claim de completitud debe mapear a una verificación concreta.
- Claim: qué afirmas como verdadero
- Command: qué lo demuestra
- Output: qué evidencia viste realmente
Si falta un eslabón, el claim está incompleto.
Profundidad de verificación por nivel de riesgo
| Nivel de riesgo | Cambio típico | Loop mínimo | Loop recomendado |
|---|---|---|---|
| Bajo | microcambio de copy/docs/UI | lint + check puntual | lint + build + snapshot rápido de review |
| Medio | refactor + cambios de lógica | lint + tests + build | lint + tests + build + pase de reviewer |
| Alto | auth/billing/seguridad/migración | lint + suite completa + build | lint + suite completa + build + lane verifier + prueba de rollback |
La profundidad de verificación debe escalar con blast radius, no con confianza subjetiva.
Paquete base de comandos (ejemplo)
npm run lint
npm run test
npm run buildAñade checks de dominio para tu stack (tests de migración, smoke scripts, contract tests). El paquete base es piso, no techo.
Reglas de frescura de evidencia
Salida vieja de tests no sirve como evidencia de cambios nuevos.
Usa estas reglas:
- Re-ejecutar checks tras el último cambio relevante.
- Adjuntar salida ligada al diff actual.
- Declarar checks omitidos y su motivo.
- Re-ejecutar checks críticos tras resolver conflictos.
Evidencia fresca reduce falsa confianza.
Plantilla de handoff de verificación
### Verification Summary
- Scope: <qué se verificó>
- Commands run:
- <command>: <pass/fail>
- Key outputs:
- <líneas de resultado clave>
- Skipped checks:
- <none o motivo>
- Residual risks:
- <none o lista>
- Verdict:
- pass | rework requiredDebe ser breve, nunca ambigua.
Lanes paralelos de verificación
Para trabajo de riesgo medio/alto, separa implementación de verificación:
- Lane de implementación: escribe código
- Lane de verificación: re-ejecuta checks, audita diff, cuestiona supuestos
- Lane de review: decide merge readiness
Así evitas que un mismo lane se califique a sí mismo.
Protocolo de triaje de fallos
Cuando fallan checks:
- clasificar fallo: preexistente vs regresión
- adjuntar salida del comando fallido
- aislar fix mínimo
- re-ejecutar checks rápidos relevantes
- re-ejecutar gate completo antes de merge
Loops rápidos sí; saltar el gate final no.
Checklist de prueba pre-merge
Antes de merge, confirma:
- comandos de verificación ejecutados sobre el diff actual
- fallos resueltos o explícitamente aceptados
- review scope coincide con el alcance declarado
- riesgos residuales documentados
- existe rollback para cambios no triviales
Anti-patrones a evitar
Tomar lint pass como prueba total de calidad
Lint es necesario, nunca suficiente.
Reusar salida de CI de commits viejos
La evidencia debe corresponder al estado actual.
Ocultar checks omitidos
Omitir checks solo es aceptable si se declara con motivo.
Merge sin owner de veredicto final
Si nadie es dueño del veredicto final de verificación, el sistema ya falló.
Checklist rápido
Antes del handoff:
- cadena claim-command-output completa
- evidencia fresca
- checks omitidos declarados
Antes del merge:
- comandos gate en verde
- veredicto reviewer/verifier registrado
- riesgos residuales + rollback documentados
La velocidad de Codex ayuda a moverte rápido. Los loops de verificación te ayudan a moverte seguro. Luego continúa con Release Readiness en Codex para cerrar la decisión final de producción.