Aprendizaje continuo con auto-destilación
Investigadores han desarrollado un método llamado Auto-Destilación Fine-Tuning que permite a los modelos de aprendizaje continuo adquirir nuevas habilidades sin perder las capacidades existentes. Este enfoque utiliza un modelo condicionado por demostraciones como su propio maestro, generando señales de entrenamiento que preservan las capacidades anteriores.
El método Auto-Destilación Fine-Tuning se basa en el aprendizaje en contexto, lo que significa que el modelo puede aprender de las demostraciones y adaptarse a nuevas situaciones. Los investigadores han comparado este enfoque con el fine-tuning supervisado tradicional y han encontrado que el Auto-Destilación Fine-Tuning logra una mayor precisión en tareas nuevas y reduce la pérdida de capacidades existentes.
“El método Auto-Destilación Fine-Tuning se basa en el aprendizaje en contexto, lo que significa que el modelo puede aprender de las demostraciones y adaptarse a nuevas situaciones”
Los autores del estudio han realizado experimentos en tareas de aprendizaje de habilidades y adquisición de conocimientos, y han encontrado que el Auto-Destilación Fine-Tuning supera al fine-tuning supervisado en todos los casos. Además, han demostrado que este enfoque permite a un solo modelo acumular múltiples habilidades sobre el tiempo sin regresión en el rendimiento.
El aprendizaje continuo es un desafío fundamental en el desarrollo de modelos de aprendizaje automático, ya que requiere que los modelos puedan adaptarse a nuevas situaciones y aprender de las experiencias sin perder las capacidades existentes. El Auto-Destilación Fine-Tuning es un paso importante hacia la resolución de este desafío, y podría tener aplicaciones en una variedad de campos, desde la robótica hasta la atención médica.
Los investigadores involucrados en este estudio son Idan Shenfeld, Mehul Damani, Jonas Hübotter y Pulkit Agrawal, y han publicado sus resultados en la plataforma de acceso abierto arXiv. El estudio tiene un DOI asignado y puede ser citado como arXiv:2601.19897.