IA hace 1 h

Prompt Injection como Confusión de Roles

Investigadores presentan un estudio sobre cómo los modelos de inteligencia artificial pueden confundirse entre su propio texto y las entradas del usuario, lo que puede llevar a vulnerabilidades graves.

El trabajo de Charles Ye, Jasmine Cui y Dylan Hadfield-Menell aborda el problema conocido como "injection prompt", donde un modelo se ve engañado para ignorar sus directrices éticas. Los investigadores descubrieron que los modelos pueden confundir las entradas del usuario con su propio texto interno debido a similitudes en el estilo de escritura.

“La naturaleza continua de los límites entre roles abre la posibilidad de inyecciones diseñadas para cambiar el estado del modelo a través de texto aparentemente inofensivo”

Los expertos encontraron que la "desestilización", es decir, reescribir el texto para que parezca menos como las etiquetas de roles esperadas, reduce significativamente la eficacia de estas técnicas engañosas. Esto llevó a un descenso del 61% al 10% en los casos exitosos de inyección de prompts.

La confusión entre el texto interno y la entrada del usuario puede llevar a que los modelos ignoren sus directrices éticas, permitiendo solicitudes problemáticas como instrucciones para fabricar drogas. Los investigadores llaman a este fenómeno "confusión de roles".

Los hallazgos sugieren que las defensas contra la inyección de prompts pueden ser un problema continuo y difícil de abordar. La naturaleza continua de los límites entre roles abre la posibilidad de inyecciones diseñadas para cambiar el estado del modelo a través de texto aparentemente inofensivo.

Los investigadores destacan que, sin una percepción genuina de los roles por parte de los modelos, las defensas contra la inyección de prompts seguirán siendo un juego constante de intentar solucionar problemas emergentes.

Etiquetas #prompt-injection #privilegio-texto #modelos

Prompt Injection como Confusión de Roles

Más sobre IA

V2.1.173

Introducción de North Mini Code: El primer modelo para desarrolladores de Cohere

Evita entornos de RL de baja calidad

Json2vec: modelos con estructuras de datos anidadas