Fine-tuning

Un LLM base sabe de todo a nivel medio. Fine-tuning lo especializa: le enseñas miles de ejemplos de tu dominio (jerga médica, contratos legales, soporte técnico de tu producto) y ajusta sus pesos para responder mejor en ese contexto.

Variantes:
- Full fine-tuning: actualizas todos los pesos. Caro y necesita GPU grandes.
- LoRA / QLoRA: actualizas solo un pequeño adaptador (~1% de los pesos). Mucho más barato, calidad casi equivalente.
- RLHF (Reinforcement Learning from Human Feedback): además de ejemplos, usas preferencias humanas para guiar el comportamiento. Es lo que hace que ChatGPT/Claude no respondan barbaridades.
- DPO (Direct Preference Optimization): alternativa a RLHF, más simple y estable. Domina en 2025-26.

Cuándo NO: si tu problema se resuelve con un buen prompt + few-shot examples, no fine-tunees. Es la opción más cara y mantener un modelo propio tiene coste recurrente.