IA hace 13 d

Cómo contener a Claude en productos

La empresa Anthropic ha publicado un informe detallado sobre cómo utiliza técnicas de sandboxing para contener a su modelo de lenguaje Claude en diferentes productos.

Entre los métodos utilizados se encuentran los sandbox de procesos, las máquinas virtuales, los límites del sistema de archivos y los controles de salida. El objetivo es establecer un límite claro sobre lo que Claude puede acceder. Por ejemplo, si las credenciales no entran en el sandbox, no pueden ser extraídas, independientemente de si el motivo es un usuario, un modelo que encuentra una ruta "creativa" o un atacante.

“Entre los métodos utilizados se encuentran los sandbox de procesos, las máquinas virtuales, los límites del sistema de archivos y los controles de salida”

Anthropic utiliza diferentes herramientas para sandboxing en cada uno de sus productos. Claude.ai utiliza gVisor, mientras que Claude Code, que se ejecuta localmente, utiliza Seatbelt en macOS y Bubblewrap en Linux. Por otro lado, Claude Cowork ejecuta una máquina virtual completa, utilizando el marco de virtualización de Apple en macOS y HCS en Windows.

La publicación de Anthropic también incluye historias de riesgos que se pasaron por alto, como el vector de exfiltración de archivos a través de la API. Esto destaca la importancia de la documentación detallada y la transparencia en la seguridad de los productos de inteligencia artificial.

Anthropic también ha desarrollado una herramienta de sandboxing de código abierto llamada Anthropic Sandbox Runtime, que puede ser utilizada por otros desarrolladores para mejorar la seguridad de sus propios modelos de lenguaje. La empresa busca establecer un estándar para la seguridad en la inteligencia artificial y ha encontrado un enfoque que funciona para sus productos, lo que puede ser útil para otros en el sector.

Etiquetas #anthropic #claude-ai #seguridad

Cómo contener a Claude en productos

Más sobre IA

Claude Fable 5: nuevo modelo seguro

Anthropic firmó acuerdos de alquiler de centros de datos con Google

Claude Code cuesta hasta $200 al mes

Anthropic niega preguntas sobre ciberseguridad, biología y química a su modelo Fable 5