IA hace 3 d

NVIDIA optimiza modelo de Google DeepMind para generación rápida de texto

NVIDIA ha optimizado DiffusionGemma, un modelo experimental de Google DeepMind para la generación rápida de texto, para que funcione más velozmente en GPUs GeForce RTX y sistemas DGX Spark.

DiffusionGemma genera bloques completos de texto en paralelo, en lugar de hacerlo palabra por palabra. Esto permite una mayor eficiencia computacional al procesar hasta 256 tokens a la vez. El modelo está construido sobre la arquitectura Gemma 4 y cuenta con licencia Apache 2.0.

“La optimización de NVIDIA mejora el rendimiento del modelo en un factor de hasta cuatro veces, llegando a generar 1,000 tokens por segundo en una sola GPU H100 Tensor Core”

La optimización de NVIDIA mejora el rendimiento del modelo en un factor de hasta cuatro veces, llegando a generar 1,000 tokens por segundo en una sola GPU H100 Tensor Core. Además, funciona eficientemente tanto en equipos locales como en la nube sin costos adicionales.

El modelo ya está disponible para pruebas y prototipado mediante Hugging Face Transformers y vLLM, con soporte adicional a través de Unsloth y el marco NVIDIA NeMo. Esto permite a desarrolladores y investigadores aprovechar sus capacidades locales en sistemas como DGX Spark o RTX PRO 6000.

Esta mejora facilita la generación rápida de texto para aplicaciones interactivas, mejorando la eficiencia en tareas que requieren bajo retraso y alto rendimiento.

Etiquetas #google-deepmind #diffusiongemma #nvidia

NVIDIA optimiza modelo de Google DeepMind para generación rápida de texto

Más sobre IA

IPO: MANGOS lidera el mercado

Google DeepMind lanza Gemma, modelo que hace 4 veces más rápido el AI local

DiffusionGemma

Reino Unido convierte ambición de IA soberana en acción con tecnologías de NVIDIA