¿Qué secreto vive dentro del sandbox de tu agente?
La misma semana que Anthropic documentó cómo aísla a Claude, Microsoft Copilot Cowork exfiltraba ficheros. La diferencia no fue el modelo.
Un agente que ejecuta código es una computadora a la que tú le das una tarea en lenguaje natural y un atacante le da otra por debajo, escondida en un issue o una web. Lo que decide si te roba los datos no es lo listo que sea el modelo: son las fronteras que pusiste alrededor.
Anthropic publicó su stack de containment. Leído junto al agujero de Copilot, salen cuatro fronteras concretas:
✅ Las credenciales nunca entran al sandbox. Si el secreto no está al alcance del proceso, no se filtra, lo convenzan de lo que lo convenzan.
✅ Controla el egress, no solo lo que entra. El exfil de Copilot salió por un email y una imagen renderizada. Allowlist de dominios de salida por defecto.
✅ Acota el filesystem a la tarea, no montes el repo entero.
✅ Aísla por radio de daño: sandbox de proceso para texto, VM completa para código no confiable.
El hilo común: ninguna confía en que el modelo se porte bien. Un guardrail que depende de que el modelo decida bien no es un guardrail, es una esperanza.
¿Qué secreto vive ahora mismo dentro del sandbox de tu agente que no haría falta que estuviera ahí?
Post completo: https://santiagomansilla.com/es/blog/cuatro-fronteras-agente-ejecuta-codigo/
La misma semana de mayo Anthropic documentó cómo aísla a Claude y Copilot Cowork exfiltraba ficheros. La diferencia no es el modelo: son las fronteras.
- Las credenciales nunca entran al sandbox. Si el secreto no está al alcance del proceso que controla el modelo, no se filtra, lo convenzan de lo que lo convenzan. — Leer más
- El exfil de Copilot salió, no entró. El agente mandó un email al inbox del usuario y una imagen renderizada filtró un link pre-autenticado de OneDrive. La lethal trifecta en acción. — Fuente
- Controla el egress (el tráfico de salida), no solo lo que entra. Allowlist de dominios de salida por defecto; el agente que "solo lee código" pero puede hacer un POST a cualquier URL no está contenido. — Leer más
- Aísla por radio de daño. Anthropic usa gVisor, Seatbelt/Bubblewrap o una VM completa según cuánto daño puede hacer cada producto. Más autonomía, más aislamiento. — Cómo contiene Claude
- Por qué importa ahora: Cognition reporta que el 80% de sus commits los hace Devin en su propia máquina. Cuando el agente trabaja en background, la frontera se pone de antemano, no se vigila a mano. — The Age of Async Agents
Un guardrail que depende de que el modelo decida bien no es un guardrail; es una esperanza. ¿Cuál de tus cuatro fronteras falta?