¿Por qué un día de IA cuesta más que una semana de servidores?
Un día de uso de inteligencia artificial (IA) resultó ser más costoso que un mes de servidores para una empresa. El costo se debió a una falla en el sistema que provocó que una tarea se repitiera 21 veces en un solo día.
La tarea en cuestión involucraba llamadas a varios modelos de lenguaje (LLM) y la escritura de resultados en una base de datos. Sin embargo, debido a un error en la secuencia de despliegue, el código se ejecutó antes de que se aplicara la migración necesaria para agregar una columna a la base de datos. Esto provocó que la tarea fallara determinísticamente cada vez que se ejecutaba.
“Sin embargo, debido a un error en la secuencia de despliegue, el código se ejecutó antes de que se aplicara la migración necesaria para agregar una columna a la base de datos”
La cola de tareas, diseñada para reejecutar tareas que fallan, repitió la tarea 21 veces, lo que resultó en un costo significativo. Cada llamada a los LLM fue exitosa, pero la tarea falló en la última etapa, cuando intentaba escribir los resultados en la base de datos. Debido a que cada llamada exitosa fue facturada, el costo total se acumuló rápidamente.
El incidente destaca la importancia de considerar los posibles errores y fallos en los sistemas de IA y tomar medidas para prevenir la repetición de tareas costosas. En este caso, la combinación de un error en la secuencia de despliegue y la configuración de la cola de tareas resultó en un costo significativo para la empresa. Es fundamental diseñar sistemas que puedan manejar errores y fallos de manera efectiva para evitar este tipo de situaciones.