Cómo evaluar correctamente tu sistema RAG (y por qué la mayoría lo están haciendo mal)

Por Guillermo Frasquet · 14 de julio de 2025

1. Introducción: ¿Por qué importa evaluar bien un sistema RAG?

La recuperación aumentada por generación, más conocida como RAG (Retrieval-Augmented Generation), se ha convertido en la columna vertebral de muchas aplicaciones empresariales que integran modelos de lenguaje como GPT. Desde asistentes legales hasta buscadores internos, pasando por automatización de informes y soporte al cliente, RAG es la forma más eficiente de conectar tus datos con la inteligencia artificial.

Pero hay un problema: la mayoría de las empresas no saben si su sistema RAG está funcionando bien. ¿Por qué? Porque lo están evaluando mal. No es solo una cuestión de precisión o velocidad. Es una cuestión de entender cómo las partes del sistema —chunking, retrieval, prompts, contexto— interactúan entre sí, y cómo evaluarlas de forma realista.

En este artículo desmontamos las formas tradicionales de evaluar sistemas RAG y te damos una guía completa para entender, medir y mejorar tu pipeline RAG.

2. Qué es un sistema RAG y cómo funciona

Un sistema RAG está compuesto por dos partes principales:

Este enfoque permite a los modelos generar respuestas personalizadas basadas en tu conocimiento empresarial, sin necesidad de hacer fine-tuning del modelo base. Además, te ofrece trazabilidad: sabes de dónde salió cada dato.

Para que este sistema funcione correctamente, se deben optimizar muchos elementos intermedios:

Y todo esto tiene que evaluarse en conjunto, no por separado.

3. El error común: evaluar partes aisladas del pipeline

Uno de los mayores errores que cometen las empresas al trabajar con RAG es evaluar cada componente de forma independiente. Se mide la calidad del retriever con una métrica, la calidad de generación con otra, y así sucesivamente.

Esto puede llevarte a conclusiones engañosas:

Un sistema RAG debe evaluarse como un todo. La pregunta real es: ¿el sistema responde correctamente a las preguntas que yo necesito responder?

4. Chunking: el arte infravalorado que puede romper tu sistema

El chunking, o segmentación de los documentos, es uno de los pasos más críticos —y menos valorados— en todo el pipeline.

Muchas empresas usan estrategias simplistas: dividir los textos cada X palabras, o por párrafos, sin más. Pero esto puede destrozar completamente la semántica del contenido.

Un error frecuente en sistemas RAG mal evaluados ocurre cuando los fragmentos de texto recuperados no contienen toda la información necesaria para generar una respuesta precisa. Por ejemplo, si una pregunta requiere una relación entre dos elementos (como una persona y una acción que realizó), pero el fragmento recuperado solo incluye uno de esos elementos —porque el chunking original dividió mal el contenido—, el modelo de lenguaje intentará completar la respuesta sin contexto suficiente. El resultado es una respuesta incorrecta o inventada, aunque el documento original sí contenga la información correcta, solo que mal segmentada o fuera de alcance. Esto demuestra cómo una segmentación pobre puede romper el rendimiento del sistema, incluso si el modelo y el retrieval parecen estar bien configurados.

El chunking debe estar alineado con las necesidades del sistema, preservando relaciones, contexto y referencias.

5. Benchmarks actuales: por qué están rotos

Muchos benchmarks populares para evaluar RAG están, literalmente, rotos. Se diseñaron para evaluar retrieval puro, o generación pura, pero no para medir cómo se comporta el sistema completo en tareas reales.

Errores frecuentes de los benchmarks actuales:

El resultado: sistemas que rinden bien en métricas, pero mal en la vida real.

6. Cómo deben ser los benchmarks de verdad

Un buen benchmark para RAG debería:

Además, debería evaluar tareas específicas como:

7. Ejemplos reales que lo demuestran: Seinfeld, Harry Potter y el Mundial

Durante el análisis de YAAP se evaluaron preguntas sobre temáticas muy distintas: episodios de Seinfeld, campeonatos de fútbol, libros de ficción como Harry Potter, etc.

En todos los casos, se vio que el chunking y el diseño del documento eran tan importantes como la capacidad del modelo.

Una pregunta como “¿Quién ganó el Mundial 2014?” podía fallar si el fragmento recuperado decía “final entre Alemania y Argentina” pero no mencionaba el ganador.

8. Consejos prácticos para mejorar tu pipeline RAG

✅ Cuida el chunking

✅ Evalúa con preguntas reales

✅ Introduce trazabilidad

✅ Usa tu propio benchmark

9. ¿Está resuelto el problema del RAG? Spoiler: no

RAG aún está lejos de estar completamente resuelto. Aunque es potente, todavía requiere trabajo, validación y diseño inteligente de documentos.

Pero es el camino más viable hoy para conectar IA con conocimiento real de tu empresa, sin los costes y rigideces del fine-tuning.

10. Conclusión: cómo avanzar de verdad con RAG

Evaluar bien un sistema RAG no es cuestión de métricas aisladas ni de seguir recetas mágicas. Es un proceso integral, contextual y continuo.

RAG no es una moda: es la vía más realista para conectar la inteligencia artificial con los datos reales de tu empresa. Pero para que funcione, debes medirlo bien.

Y si necesitas ayuda para preparar tus documentos, estructurarlos y conectarlos con tus LLMs, herramientas como Alinear.app pueden ahorrarte meses de trabajo técnico.