Meituan abre fuentes modelo LongCat-2.0 de 1,6T parámetros
Meituan ha lanzado LongCat-2.0, un modelo de lenguaje con 1,6 billones de parámetros. La compañía china afirma que este modelo fue entrenado en un clúster de 50.000 chips de procesadores domésticos.
El modelo LongCat-2.0 es una versión mejorada del modelo anterior de la empresa y cuenta con una arquitectura de atención dispersa que permite un procesamiento eficiente de tokens con un contexto de 1 millón. La empresa ha decidido abrir el código fuente de este modelo, lo que permitirá a otros desarrolladores acceder y utilizar la tecnología.
“La empresa ha decidido abrir el código fuente de este modelo, lo que permitirá a otros desarrolladores acceder y utilizar la tecnología”
La capacidad de Meituan para entrenar un modelo de este tamaño en chips domésticos es un logro significativo, ya que la mayoría de los modelos de lenguaje de gran escala se entrenan en hardware de empresas como Nvidia. El uso de chips domésticos puede ser una ventaja para la empresa, ya que reduce su dependencia de proveedores extranjeros.
El lanzamiento de LongCat-2.0 es un paso importante para Meituan, que busca expandir su presencia en el mercado de la inteligencia artificial. La empresa ya es líder en el mercado de la entrega de comida en China, y ahora busca aprovechar su experiencia en tecnología para desarrollar soluciones de inteligencia artificial más avanzadas. La apertura del código fuente de LongCat-2.0 puede ayudar a impulsar el desarrollo de la inteligencia artificial en China y en otros lugares, ya que permitirá a otros investigadores y desarrolladores acceder y mejorar la tecnología.