Cómo evaluar correctamente tu sistema RAG (y por qué la mayoría lo están haciendo mal)

Por Guillermo Frasquet · 14 de julio de 2025

1. Introducción: ¿Por qué importa evaluar bien un sistema RAG?

La recuperación aumentada por generación, más conocida como RAG (Retrieval-Augmented Generation), se ha convertido en la columna vertebral de muchas aplicaciones empresariales que integran modelos de lenguaje como GPT. Desde asistentes legales hasta buscadores internos, pasando por automatización de informes y soporte al cliente, RAG es la forma más eficiente de conectar tus datos con la inteligencia artificial.

Pero hay un problema: la mayoría de las empresas no saben si su sistema RAG está funcionando bien. ¿Por qué? Porque lo están evaluando mal. No es solo una cuestión de precisión o velocidad. Es una cuestión de entender cómo las partes del sistema —chunking, retrieval, prompts, contexto— interactúan entre sí, y cómo evaluarlas de forma realista.

En este artículo desmontamos las formas tradicionales de evaluar sistemas RAG y te damos una guía completa para entender, medir y mejorar tu pipeline RAG.

2. Qué es un sistema RAG y cómo funciona

Un sistema RAG está compuesto por dos partes principales:

Retriever: se encarga de buscar entre tus documentos aquellos fragmentos que pueden contener la respuesta a la consulta.
Generator: el modelo LLM (como GPT) que, utilizando esos fragmentos como contexto, genera una respuesta natural y relevante.

Este enfoque permite a los modelos generar respuestas personalizadas basadas en tu conocimiento empresarial, sin necesidad de hacer fine-tuning del modelo base. Además, te ofrece trazabilidad: sabes de dónde salió cada dato.

Para que este sistema funcione correctamente, se deben optimizar muchos elementos intermedios:

Cómo divides tus documentos (chunking)
Qué estrategia usas para la recuperación (retrieval)
Qué datos entregas al modelo (context window)
Cómo formateas el prompt

Y todo esto tiene que evaluarse en conjunto, no por separado.

3. El error común: evaluar partes aisladas del pipeline

Uno de los mayores errores que cometen las empresas al trabajar con RAG es evaluar cada componente de forma independiente. Se mide la calidad del retriever con una métrica, la calidad de generación con otra, y así sucesivamente.

Esto puede llevarte a conclusiones engañosas:

Tener un retriever “perfecto” que no mejora las respuestas generadas.
Obtener resultados brillantes en benchmarks, pero fallar ante preguntas reales.
Optimizar un modelo para documentos ideales… y fracasar con tus PDFs reales.

Un sistema RAG debe evaluarse como un todo. La pregunta real es: ¿el sistema responde correctamente a las preguntas que yo necesito responder?

4. Chunking: el arte infravalorado que puede romper tu sistema

El chunking, o segmentación de los documentos, es uno de los pasos más críticos —y menos valorados— en todo el pipeline.

Muchas empresas usan estrategias simplistas: dividir los textos cada X palabras, o por párrafos, sin más. Pero esto puede destrozar completamente la semántica del contenido.

Un error frecuente en sistemas RAG mal evaluados ocurre cuando los fragmentos de texto recuperados no contienen toda la información necesaria para generar una respuesta precisa. Por ejemplo, si una pregunta requiere una relación entre dos elementos (como una persona y una acción que realizó), pero el fragmento recuperado solo incluye uno de esos elementos —porque el chunking original dividió mal el contenido—, el modelo de lenguaje intentará completar la respuesta sin contexto suficiente. El resultado es una respuesta incorrecta o inventada, aunque el documento original sí contenga la información correcta, solo que mal segmentada o fuera de alcance. Esto demuestra cómo una segmentación pobre puede romper el rendimiento del sistema, incluso si el modelo y el retrieval parecen estar bien configurados.

El chunking debe estar alineado con las necesidades del sistema, preservando relaciones, contexto y referencias.

5. Benchmarks actuales: por qué están rotos

Muchos benchmarks populares para evaluar RAG están, literalmente, rotos. Se diseñaron para evaluar retrieval puro, o generación pura, pero no para medir cómo se comporta el sistema completo en tareas reales.

Errores frecuentes de los benchmarks actuales:

Usan fragmentos que no reflejan cómo está organizado un documento real.
Evalúan sobre datasets artificiales sin ruido.
Penalizan respuestas correctas que no coinciden textualmente con la referencia.
No tienen en cuenta la interacción entre los chunks recuperados y el modelo generador.

El resultado: sistemas que rinden bien en métricas, pero mal en la vida real.

6. Cómo deben ser los benchmarks de verdad

Un buen benchmark para RAG debería:

Usar documentos reales con estructura, ruido y referencias cruzadas.
Plantear preguntas reales, abiertas, no triviales.
Permitir respuestas múltiples o parciales correctas.
Medir la utilidad del contexto, no solo la precisión del retrieval.

Además, debería evaluar tareas específicas como:

Answer Accuracy: ¿La respuesta es correcta?
Support Validity: ¿Está respaldada por el contexto?
Answer in Context: ¿Se usó el contenido recuperado correctamente?

7. Ejemplos reales que lo demuestran: Seinfeld, Harry Potter y el Mundial

Durante el análisis de YAAP se evaluaron preguntas sobre temáticas muy distintas: episodios de Seinfeld, campeonatos de fútbol, libros de ficción como Harry Potter, etc.

En todos los casos, se vio que el chunking y el diseño del documento eran tan importantes como la capacidad del modelo.

Una pregunta como “¿Quién ganó el Mundial 2014?” podía fallar si el fragmento recuperado decía “final entre Alemania y Argentina” pero no mencionaba el ganador.

8. Consejos prácticos para mejorar tu pipeline RAG

✅ Cuida el chunking

No segmentes solo por longitud.
Preserva relaciones y contexto.
Usa herramientas como Alinear para hacer chunking con metadatos.

✅ Evalúa con preguntas reales

Usa preguntas reales de usuarios o clientes.
Evalúa la utilidad real de las respuestas.

✅ Introduce trazabilidad

Muestra el origen del contenido.
Estructura respuestas con formato JSON para validar fuentes.

✅ Usa tu propio benchmark

Crea datasets con tus propios documentos.
Mide calidad contextual, no solo recuperación.

9. ¿Está resuelto el problema del RAG? Spoiler: no

RAG aún está lejos de estar completamente resuelto. Aunque es potente, todavía requiere trabajo, validación y diseño inteligente de documentos.

Pero es el camino más viable hoy para conectar IA con conocimiento real de tu empresa, sin los costes y rigideces del fine-tuning.

10. Conclusión: cómo avanzar de verdad con RAG

Evaluar bien un sistema RAG no es cuestión de métricas aisladas ni de seguir recetas mágicas. Es un proceso integral, contextual y continuo.

RAG no es una moda: es la vía más realista para conectar la inteligencia artificial con los datos reales de tu empresa. Pero para que funcione, debes medirlo bien.

Y si necesitas ayuda para preparar tus documentos, estructurarlos y conectarlos con tus LLMs, herramientas como Alinear.app pueden ahorrarte meses de trabajo técnico.