Embeddings

Si calculas el embedding de "perro" y de "gato", los vectores estarán cerca en el espacio multidimensional (ambos animales). El de "ordenador" estará lejos.

¿Para qué sirven? Búsqueda semántica (encuentra documentos parecidos en significado, no solo en palabras), deduplicación (Pulso usa embeddings para detectar que dos noticias de medios distintos cuentan lo mismo), clustering, recomendación, RAG.

Modelos típicos en 2026: BGE (open), nomic-embed-text (open), Voyage 3 (de pago), text-embedding-3-large (OpenAI).

Coste real: muy bajo. Generar embeddings es ~100-1000x más barato que generar texto con un LLM. Por eso los pipelines RAG usan embeddings para filtrar primero, y solo pasan al LLM lo relevante.