VibeThinker: Modelo de 3B que supera a Opus 4.5 en razonamiento con SFT+GRPO
Un equipo de investigadores ha desarrollado VibeThinker-3B, un modelo de lenguaje con 3 mil millones de parámetros que supera a otros sistemas más grandes en tareas de razonamiento verificable.
El modelo se construyó sobre el paradigma Spectrum-to-Signal y fue mejorado mediante técnicas como el ajuste por refuerzo multi-dominio, la distilación offline y el entrenamiento supervisado basado en currículo.
“También obtuvo una tasa de aceptación del 96,1% en recientes concursos de LeetCode no vistos previamente”
VibeThinker-3B alcanzó un puntaje de 94,3% en AIME26 y un 80,2% Pass@1 en LiveCodeBench v6. También obtuvo una tasa de aceptación del 96,1% en recientes concursos de LeetCode no vistos previamente.
Estas métricas lo sitúan en el nivel superior de los sistemas de razonamiento, superando a modelos más grandes como DeepSeek V3.2 y Gemini 3 Pro. Además, obtuvo un 93,4% en IFEval, demostrando que no compromete la capacidad de controlar instrucciones estrictas.
El estudio sugiere la hipótesis Parametric Compression-Coverage, según la cual el razonamiento verificable se puede comprimir en núcleos compactos, mientras que el conocimiento abierto y competencia general requieren una amplia cobertura de parámetros.
Estos hallazgos apuntan a que modelos compactos no son solo alternativas eficientes para despliegue, sino un camino complementario hacia rendimientos fronterizos en regímenes densamente parametrizados.