Acelerando el Fine-Tuning de Transformers con NeMo AutoModel
NVIDIA ha lanzado NeMo AutoModel, una biblioteca que acelera la fine-tuning de modelos Transformer basados en Mixture-of-Experts (MoE). La herramienta mejora significativamente el rendimiento del entrenamiento y reduce el uso de memoria.
NeMo AutoModel se integra con Transformers v5 de Hugging Face, añadiendo funcionalidades como Expert Parallelism y kernels personalizados. Esto permite un mayor aprovechamiento de los recursos GPU sin necesidad de cambios en la API existente.
“NeMo AutoModel es compatible con una variedad de arquitecturas populares como Qwen3 y Nemotron, ofreciendo implementaciones personalizadas para cada una”
La biblioteca proporciona hasta 3,7 veces más tasa de entrenamiento y un ahorro de memoria del 32% durante el fine-tuning de modelos MoE. Las mejoras se logran mediante técnicas como DeepEP y TransformerEngine kernels, que optimizan la comunicación entre GPUs.
NeMo AutoModel es compatible con una variedad de arquitecturas populares como Qwen3 y Nemotron, ofreciendo implementaciones personalizadas para cada una. Además, facilita el escalado a múltiples GPUs mediante la configuración del device_mesh.
La herramienta se presenta como un avance en la eficiencia del entrenamiento de modelos generativos basados en MoE, permitiendo a los desarrolladores aprovechar mejor las capacidades de hardware disponibles sin complicar la infraestructura existente.