IA hace 2 h

¿Qué pasó después de que 2,000 personas intentaron hackear mi asistente AI

Fernando Irarrázaval lanzó un desafío en hackmyclaw.com para determinar si alguien podía hacer que su asistente AI OpenClaw revelara secretos mediante correos electrónicos. Tras 6,000 intentos y gastos de $500 en tokens, nadie logró sacar información confidencial.

El modelo utilizado fue Opus 4.6 con reglas específicas para evitar la inyección de comandos basada en el contenido del correo electrónico. Estas reglas incluían no revelar secretos ni modificar archivos propios del sistema.

“Estas reglas incluían no revelar secretos ni modificar archivos propios del sistema”

Los laboratorios han estado trabajando en entrenar sus modelos avanzados para resistir ataques por inyección de prompts, lo que parece haber dificultado significativamente este tipo de amenazas. Sin embargo, Irarrázaval advierte que no se debería implementar un sistema de producción donde un ataque exitoso pudiera causar daños irreversibles.

El blog de The Hacker News publicó una discusión detallada sobre el experimento, llena de escepticismo bien fundado y respuestas constructivas desde Fernando.

Etiquetas #fernando-irarrazaval #hackmyclaw #opus-4.6