La distancia de Pekín a Shanghái: Vectorización de texto en modelos de lenguaje grandes y bases de datos vectoriales mejoradas con RAG

Siempre decimos que “los modelos de lenguaje grandes son muy inteligentes”.

Pueden escribir artículos, responder preguntas, programar e incluso realizar algunos razonamientos lógicos.

Pero, en realidad, el principio detrás de esto no es ningún misterio:

👉 Simplemente convierte un fragmento de texto en una serie de números,
👉 y luego “calcula la distancia” en un espacio de alta dimensión.

Esto puede sonar un poco abstracto, pero con un pequeño ejemplo, lo entenderás de inmediato 👇

I. El lenguaje también puede convertirse en “coordenadas”

Por ejemplo, esta frase:

¿Cómo murió Cao Cao?

El modelo no “entiende” esta frase como lo haría un humano, sino que primero la convierte en un vector de longitud fija, por ejemplo, en coordenadas de 1536 dimensiones:

[ 0.01234, -0.01891, 0.00023, …, 0.07112 ]

👉 No importa cuán larga sea la oración que ingreses, después de la conversión siempre serán 1536 números.

Esto significa que cada oración tiene una “dirección” en el espacio semántico.

Este paso se llama vectorización de texto (Text Embedding) y es el primer paso para que los modelos de lenguaje grandes modernos comprendan el lenguaje.

II. Un ejemplo con Pekín y Shanghái 🏙️

Imagina que la Tierra en la que vivimos es un plano bidimensional.

Cada ciudad tiene sus propias coordenadas de latitud y longitud.

Supongamos que las “coordenadas” de Pekín son (1, 1) y las de Shanghái son (4, 5).

Podemos usar la fórmula de la distancia euclidiana para calcular la “distancia” entre ellas 👇

(4 - 1)^2 + (5 - 1)^2
= 3^2 + 4^2
= 9 + 16
= 25
Raíz cuadrada(25) = 5

👉 Cuanto menor es la distancia, más similar es la semántica.
👉 Cuanto mayor es la distancia, mayor es la diferencia semántica.

Esta es la idea básica de la “distancia vectorial”.

Los modelos de lenguaje grandes reales usan 1536 dimensiones, pero el principio matemático es el mismo.

Es solo que el ejemplo bidimensional de “Pekín-Shanghái” es más fácil de entender intuitivamente.

III. RAG: Una “base de conocimientos” externa 🧠📚

Mucha gente cree erróneamente que:

Modelo grande = Base de conocimientos

¡Pero eso no es correcto!

Modelo de Lenguaje Grande: Responsable de comprender el lenguaje y generar respuestas.
Base de Datos Vectorial: Responsable de almacenar y recuperar información.

Por ejemplo, si preguntas:

¿Cómo murió Cao Cao?

El flujo de trabajo de la IA es en realidad:

Vectorizar tu pregunta.
Encontrar en la base de datos vectorial el contenido con la “distancia semántica” más cercana a esta pregunta (por ejemplo, “Cao Cao murió de enfermedad en Luoyang”).
Entregar esta información + tu pregunta al modelo grande.
El modelo grande genera una respuesta en lenguaje natural.

Esta técnica se llama RAG (Retrieval-Augmented Generation, Generación Aumentada por Recuperación), y su ventaja es que 👉 permite que la IA “conozca” tu conocimiento local sin necesidad de reentrenar el modelo.

Por ejemplo: bases de datos corporativas, documentos profesionales, archivos históricos, todo puede integrarse de esta manera.

IV. Transformer: La capa de “pensamiento” del modelo 🧮

Después de recibir la entrada, el interior de un modelo de lenguaje grande no es “magia”, sino que está compuesto por capas y capas de estructuras Transformer (generalmente más de 20).

Cada capa refina y abstrae la semántica, al igual que el cerebro humano procesa constantemente la información.

Finalmente, el modelo encontrará el “punto de conocimiento” más cercano a tu pregunta en el espacio semántico de 1536 dimensiones y lo convertirá en una salida de lenguaje natural.

V. ¿Por qué 1536 dimensiones? 🤔

Un espacio bidimensional puede representar la ubicación geográfica de Pekín y Shanghái;

pero el lenguaje es mucho más complejo que la información geográfica.

Un fragmento de texto puede contener simultáneamente:

Tiempo
Lugar
Sujeto
Emoción
Estructura gramatical
Relaciones implícitas

Dos dimensiones son simplemente insuficientes, por lo que el modelo elige un espacio de alta dimensión, como 1536 dimensiones.

De esta manera, se pueden describir las diferencias semánticas con mayor precisión.

Distancia más corta → Semántica más cercana
Distancia más larga → Mayor diferencia de significado

Esta es la esencia de la “incrustación semántica” (Semantic Embedding).

VI. Resumen 📝

🧭 El modelo primero convierte el texto en vectores.
📏 Similitud semántica = Distancia vectorial corta.
📚 La base de datos vectorial se encarga de la recuperación rápida.
🧠 La tecnología RAG le da al modelo una “base de conocimientos externa”.
🧮 Transformer es responsable de la comprensión y generación semántica.

📌 Por lo tanto, cuando chateas con una IA, esta está encontrando el “punto más cercano” a tu pregunta en un espacio de 1536 dimensiones y luego lo expresa en lenguaje natural.

I. El lenguaje también puede convertirse en “coordenadas”#

II. Un ejemplo con Pekín y Shanghái 🏙️#

III. RAG: Una “base de conocimientos” externa 🧠📚#

IV. Transformer: La capa de “pensamiento” del modelo 🧮#

V. ¿Por qué 1536 dimensiones? 🤔#

VI. Resumen 📝#