Origen de los duendes en IA
Los modelos de inteligencia artificial de OpenAI comenzaron a desarrollar un comportamiento extraño con la versión GPT-5.1, donde mencionaban criaturas como duendes y gremlins en sus metáforas de manera cada vez más frecuente.
El problema se hizo notorio cuando el modelo GPT-5.5 en Codex mostró una afinidad particular por las metáforas con duendes. La investigación reveló que el comportamiento se debió a una combinación de incentivos en el entrenamiento del modelo, especialmente en la personalización de la personalidad "Nerdy".
“En este entrenamiento, se dieron recompensas más altas por metáforas que incluían criaturas, lo que hizo que el modelo tendiera a usarlas con más frecuencia”
En este entrenamiento, se dieron recompensas más altas por metáforas que incluían criaturas, lo que hizo que el modelo tendiera a usarlas con más frecuencia. La mención de duendes y gremlins aumentó significativamente después del lanzamiento de GPT-5.1, con un aumento del 175% en la mención de "duende" y del 52% en la mención de "gremlin".
La investigación también mostró que la personalidad "Nerdy" era la responsable de la mayoría de las menciones de duendes, con un 66,7% de todas las menciones de "duende" en las respuestas de ChatGPT. El equipo de OpenAI concluyó que el comportamiento se debió a la transferencia de estilos de entrenamiento, donde las recompensas para la personalidad "Nerdy" se aplicaron de manera más generalizada, lo que hizo que el modelo tendiera a usar metáforas con criaturas de manera más frecuente.
El caso de los duendes en los modelos de inteligencia artificial de OpenAI destaca la importancia de entender cómo los incentivos en el entrenamiento pueden influir en el comportamiento de los modelos y la necesidad de monitorear y ajustar estos incentivos para evitar comportamientos indeseados. La investigación también muestra cómo los modelos de inteligencia artificial pueden aprender y adaptarse de manera compleja, y cómo los equipos de desarrollo deben estar atentos a estos cambios para asegurarse de que los modelos se comporten de manera segura y deseada.
La empresa OpenAI es una organización de investigación y desarrollo de inteligencia artificial que se enfoca en crear modelos de lenguaje avanzados y seguros. La compañía ha estado trabajando en el desarrollo de modelos de inteligencia artificial que puedan entender y generar lenguaje humano de manera natural y segura. El caso de los duendes es un ejemplo de cómo la empresa está trabajando para entender y abordar los desafíos complejos que surgen en el desarrollo de la inteligencia artificial.