Dev hace 2 h

VibeThinker: Modelo de 3B que supera a Opus 4.5 en razonamiento con SFT+GRPO

Un equipo de investigadores ha desarrollado VibeThinker-3B, un modelo de lenguaje con 3 mil millones de parámetros que supera a otros sistemas más grandes en tareas de razonamiento verificable.

El modelo se construyó sobre el paradigma Spectrum-to-Signal y fue mejorado mediante técnicas como el ajuste por refuerzo multi-dominio, la distilación offline y el entrenamiento supervisado basado en currículo.

“También obtuvo una tasa de aceptación del 96,1% en recientes concursos de LeetCode no vistos previamente”

VibeThinker-3B alcanzó un puntaje de 94,3% en AIME26 y un 80,2% Pass@1 en LiveCodeBench v6. También obtuvo una tasa de aceptación del 96,1% en recientes concursos de LeetCode no vistos previamente.

Estas métricas lo sitúan en el nivel superior de los sistemas de razonamiento, superando a modelos más grandes como DeepSeek V3.2 y Gemini 3 Pro. Además, obtuvo un 93,4% en IFEval, demostrando que no compromete la capacidad de controlar instrucciones estrictas.

El estudio sugiere la hipótesis Parametric Compression-Coverage, según la cual el razonamiento verificable se puede comprimir en núcleos compactos, mientras que el conocimiento abierto y competencia general requieren una amplia cobertura de parámetros.

Estos hallazgos apuntan a que modelos compactos no son solo alternativas eficientes para despliegue, sino un camino complementario hacia rendimientos fronterizos en regímenes densamente parametrizados.

Etiquetas #vibethinker #modelos-de-inteligencia-artificial #sft-grpo