🔎
Más
Especiales
Filtros

#sft-grpo

Todas las noticias etiquetadas como #sft-grpo en Pulso. Reescritas con asistencia de IA a partir de fuentes públicas.

VibeThinker: Modelo de 3B que supera a Opus 4.5 en razonamiento con SFT+GRPO vía arxiv.org
★ Destacada · Dev hace 3 h

VibeThinker: Modelo de 3B que supera a Opus 4.5 en razonamiento con SFT+GRPO

L1: VibeThinker presenta nuevo modelo de 3 billones de parámetros.