🔎
Más
Especiales
Filtros
IA hace 2 d

Google DeepMind lanza Gemma, modelo que hace 4 veces más rápido el AI local

Google DeepMind lanza Gemma, modelo que hace 4 veces más rápido el AI local

Google DeepMind ha lanzado DiffusionGemma, un nuevo modelo de inteligencia artificial que es cuatro veces más rápido en la generación de texto cuando se ejecuta en hardware local como GPUs de Nvidia.

DiffusionGemma utiliza una técnica diferente a los modelos autoregresivos tradicionales. En lugar de generar el texto token por token, este modelo produce bloques enteros de texto en paralelo. Esto lo hace más eficiente y rápido para tareas que requieren procesamiento local.

“El nuevo modelo tiene 26 mil millones de parámetros, pero solo utiliza 3,8 mil millones durante la inferencia, permitiéndole funcionar con hasta 18GB de memoria RAM en una GPU”

El nuevo modelo tiene 26 mil millones de parámetros, pero solo utiliza 3,8 mil millones durante la inferencia, permitiéndole funcionar con hasta 18GB de memoria RAM en una GPU. En pruebas con RTX 5090 y H100, DiffusionGemma generó alrededor de 700 tokens por segundo y más de 1,000 tokens por segundo respectivamente.

Esta nueva técnica cambia el punto crítico del rendimiento desde la banda ancha de memoria hasta el procesamiento. Esto mejora significativamente tareas no lineales como edición en línea, secuenciación molecular y graficación matemática.

Google ha experimentado con modelos de difusión para sus grandes modelos cloud Gemini pero encontró desventajas en entornos de producción debido a errores más altos y mala eficiencia para salidas cortas. Sin embargo, DiffusionGemma ofrece una clara ventaja para el procesamiento local.

El modelo está disponible bajo licencia Apache 2.0 y los pesos se pueden descargar desde Hugging Face. Google asegura que ha optimizado el rendimiento de DiffusionGemma en varias configuraciones de hardware, incluyendo RTX y sistemas empresariales como H100 o DGX Spark.

Este lanzamiento representa un paso importante hacia modelos más eficientes para procesamiento local de inteligencia artificial.

Más sobre IA