2025-11-11T10:34:09.859553

When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for LLMs

Wang, Yu, Song et al.

Large Language Models (LLMs) have enabled a wide range of applications through their powerful capabilities in language understanding and generation. However, as LLMs are trained on static corpora, they face difficulties in addressing rapidly evolving information or domain-specific queries. Retrieval-Augmented Generation (RAG) was developed to overcome this limitation by integrating LLMs with external retrieval mechanisms, allowing them to access up-to-date and contextually relevant knowledge. However, as LLMs themselves continue to advance in scale and capability, the relative advantages of traditional RAG frameworks have become less pronounced and necessary. Here, we present a comprehensive review of RAG, beginning with its overarching objectives and core components. We then analyze the key challenges within RAG, highlighting critical weakness that may limit its effectiveness. Finally, we showcase applications where LLMs alone perform inadequately, but where RAG, when combined with LLMs, can substantially enhance their effectiveness. We hope this work will encourage researchers to reconsider the role of RAG and inspire the development of next-generation RAG systems.

academic

Cuándo la Recuperación Tiene Éxito y Falla: Replanteamiento de la Generación Aumentada por Recuperación para LLMs

Información Básica

ID del Artículo: 2510.09106
Título: When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for LLMs
Autores: Yongjie Wang, Yue Yu, Kaisong Song, Jun Lin, Zhiqi Shen
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09106

Resumen

Los modelos de lenguaje grandes (LLMs) han logrado aplicaciones generalizadas mediante su potente capacidad de comprensión y generación del lenguaje. Sin embargo, debido a que los LLMs se entrenan en corpus estáticos, enfrentan dificultades al procesar información que evoluciona rápidamente o consultas específicas del dominio. La Generación Aumentada por Recuperación (RAG) supera esta limitación integrando los LLMs con mecanismos de recuperación externos, permitiéndoles acceder a conocimiento actualizado y contextualmente relevante. No obstante, con el progreso continuo de los LLMs en escala y capacidad, las ventajas relativas del marco RAG tradicional se han vuelto menos evidentes y necesarias. Este artículo presenta una revisión exhaustiva de RAG, comenzando con sus objetivos generales y componentes centrales, luego analiza los desafíos clave en RAG, destacando las debilidades críticas que pueden limitar su efectividad. Finalmente, demuestra escenarios de aplicación donde los LLMs funcionan deficientemente por sí solos pero donde RAG combinado con LLMs puede mejorar significativamente su efectividad.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: Con el rápido aumento de las capacidades de los LLMs, se cuestiona la necesidad y efectividad del marco RAG tradicional
Desafíos Específicos:
- Limitaciones de conocimiento de los LLMs en datos de entrenamiento estáticos
- Dificultad en el procesamiento de consultas específicas del dominio e información que evoluciona rápidamente
- Prevalencia del fenómeno de alucinación

Importancia de la Investigación

Necesidad Práctica: Tareas intensivas en conocimiento, acceso a información personalizada, integración de conocimiento en tiempo real y otros escenarios aún requieren RAG
Desarrollo Tecnológico: Necesidad de reevaluar el papel y valor de RAG en el contexto de los LLMs modernos
Significado Teórico: Proporciona orientación para el desarrollo de sistemas RAG de próxima generación

Limitaciones de Métodos Existentes

Mecanismo de Activación de Recuperación Inadecuado: Falta de análisis sobre los límites del conocimiento existente en los LLMs
Comprensión Insuficiente de Consultas Complejas: Capacidad limitada de análisis de intención, afectando la identificación de palabras clave
Conflictos de Conocimiento No Resueltos: Existencia de información conflictiva no verificada en bases de datos externas
Comprensión Limitada del Mecanismo ICL: Falta de comprensión profunda sobre cómo funciona el aprendizaje en contexto en marcos aumentados por recuperación

Contribuciones Principales

Revisión Sistemática: Proporciona una revisión exhaustiva de la tecnología RAG, incluyendo arquitectura, componentes y desafíos
Identificación de Problemas: Análisis profundo de cuatro desafíos centrales que enfrentan los sistemas RAG actuales
Clarificación de Escenarios de Aplicación: Identifica y explica tres dominios de aplicación donde RAG sigue siendo insustituible
Direcciones Futuras: Proporciona direcciones de investigación claras para el desarrollo de sistemas RAG de próxima generación

Explicación Detallada del Método

Arquitectura del Sistema RAG

Este artículo descompone el sistema RAG en cuatro módulos centrales:

1. Módulo de Indexación (Indexing Module)

Fragmentación de Documentos: Divide documentos en fragmentos manejables, codificados usando BM25 o incrustaciones de LLM
Mejora de Grafo de Conocimiento:
- Convierte fuentes externas en grafos de conocimiento (KG)
- Los nodos representan entidades o conceptos, los bordes codifican relaciones
- Agrupa jerárquicamente entidades en estructuras de comunidades multicapa
Desafíos: Desarrollar sistemas de indexación efectivos que coincidan con consultas de usuarios; gestionar fuentes de datos heterogéneas

2. Módulo de Recuperación (Retrieval Module)

Contiene tres pasos secuenciales:

Análisis de Consulta:

Reescritura de consulta: Reformula la consulta desde múltiples perspectivas
Descomposición de consulta: Divide problemas complejos en subproblemas simples
Razonamiento de respuesta: Genera respuestas hipotéticas para guiar la recuperación
Extracción de palabras clave: Identifica términos significativos específicos del dominio

Recuperación de Pasajes:

Coincidencia semántica: Utiliza codificadores dispersos (BM25) e incrustaciones densas (SBERT)
Recorrido de grafo: Recuperación basada en KG mediante recorrido de estructura de grafo
Métodos híbridos: Combina recuperación de grano grueso (alto recall) y recuperación semántica (alta precisión)

Reordenamiento y Filtrado:

Técnicas de reordenamiento: Reordena basándose en relevancia de consulta
Técnicas de resumen: Retiene fragmentos más informativos, reduciendo la longitud del contexto

3. Módulo de Generación (Generation Module)

Ingeniería de Prompts: Asegura que el LLM utilice efectivamente documentos recuperados
Manejo de Conflictos: Resuelve conflictos entre evidencia recuperada y conocimiento paramétrico
Ajuste Fino Especializado: Entrena el LLM para distinguir entre documentos relevantes e irrelevantes

4. Módulo de Orquestación (Orchestration Module)

Gestión de Flujo de Trabajo: Coordina interacciones y flujo de datos entre módulos
Adaptación Dinámica: Activa componentes correspondientes según necesidades específicas de consulta
Optimización de Eficiencia: Mejora la diversidad y eficiencia del sistema

Puntos de Innovación Técnica

Diseño Modular: Descompone sistemáticamente el sistema RAG en cuatro módulos independientes pero colaborativos
Análisis Orientado a Desafíos: Identifica cuellos de botella técnicos a partir de problemas prácticos
Impulsado por Escenarios de Aplicación: Redefine el valor de RAG basándose en necesidades reales

Análisis de Desafíos Centrales

1. Momento de Activación de Recuperación (¿Cuándo Debo Recuperar?)

Problema: Falta de claridad en los límites del conocimiento del LLM

Estado Actual: La mayoría de métodos RAG no evalúan qué saben y qué desconocen los LLMs
Soluciones:
- Métodos basados en incertidumbre que evalúan variabilidad de predicción
- Incertidumbre semántica, auto-incertidumbre, confianza de predicción
- Activa RAG solo cuando el LLM no puede producir predicciones confiables

2. Selección de Contenido a Recuperar (¿Qué Recuperar?)

Problema: Inefectividad de métodos de recuperación

Dificultad en Tareas de Razonamiento Complejo: Preguntas de múltiples saltos, razonamiento matemático, etc., requieren comprensión profunda de intención
Limitaciones de KG-RAG:
- Métodos de vecindario de K-saltos introducen entidades irrelevantes
- Búsqueda guiada por LLM es computacionalmente costosa e inconsistente
Dirección de Solución: Marcos basados en agentes y RAG Agentic

3. Confiabilidad de Fuentes de Datos (¿En Qué Debo Confiar?)

Problema: Riesgo de fuentes de datos no verificadas

Problema de Suposición: La mayoría de métodos RAG asumen que el conocimiento externo es inherentemente confiable
Realidad: Incluso bases de datos autorizadas como PubMed contienen datos fraudulentos
Solución: Construir bases de datos dedicadas de alta calidad y recuperación eficiente

4. Mecanismo de Funcionamiento de RAG (¿Cómo Funciona RAG?)

Problema: Opacidad del mecanismo ICL

Resolución de Conflictos: El mecanismo para resolver conflictos entre evidencia recuperada y memoria paramétrica no es claro
Límite de Rendimiento: Los LLMs tienden a depender del contenido recuperado sin considerar su precisión
Dirección de Investigación: Análisis de flujo de atención, rastreo causal, sondeo de representación

5. RAG vs LLM de Contexto Largo

Análisis Comparativo:

Ventajas de LLM de Contexto Largo: Procesa documentos completos, reduce dependencia de recuperación
Desventajas de LLM de Contexto Largo: Corte de conocimiento, alto costo de razonamiento, sensibilidad al ruido, datos de entrenamiento escasos
Complementariedad: Marco unificado que combina recuperación de hechos precisos y razonamiento transversal de documentos holístico

Análisis de Escenarios de Aplicación

1. Aplicaciones Intensivas en Conocimiento

Escenarios Típicos: Dosis de medicamentos, diagnóstico de enfermedades raras
Valor de RAG: Acceso a bases de datos de dominio específico de alta calidad, apoyo de evidencia autorizada

2. Gestión de Conocimiento Privado

Escenarios Típicos: Documentos empresariales, notas personales, conversaciones multironda
Valor de RAG: Recuperación de conocimiento personalizada y segura, protección de privacidad de datos

3. Integración de Conocimiento en Tiempo Real

Escenarios Típicos: Noticias, mercados financieros, actualizaciones regulatorias
Valor de RAG: Recuperación continua de información actualizada, como extractor de información y resumidor

Configuración Experimental

Como artículo de revisión, este trabajo respalda sus puntos de vista principalmente mediante:

Investigación Bibliográfica: Revisión sistemática del progreso de investigación relacionado con RAG
Análisis de Casos: Análisis detallado de problemas en escenarios específicos
Análisis Teórico: Reflexión profunda basada en investigación existente

Trabajo Relacionado

Evolución de RAG

Trabajo Temprano: Lewis et al. (2020) propone el marco RAG fundamental
Optimización de Consultas: Transformación de consultas, ajuste fino de modelos de incrustación
Estrategias de Indexación: Métodos mejorados con KG como GraphRAG, HippoRAG, KAG
Integración de Agentes: RAG Agentic que combina agentes inteligentes de LLM

Clasificación Técnica

Técnicas de Indexación: Fragmentación de documentos, grafo de conocimiento, estructura jerárquica
Técnicas de Recuperación: Coincidencia semántica, recorrido de grafo, métodos híbridos
Técnicas de Generación: Ingeniería de prompts, ajuste fino supervisado, aprendizaje por refuerzo

Conclusiones y Discusión

Conclusiones Principales

RAG Sigue Siendo Valioso: A pesar del aumento de capacidades de LLMs, RAG sigue siendo insustituible en escenarios específicos
Desafíos Clarificados: Identifica cuatro desafíos técnicos centrales
Dirección de Desarrollo Clara: Proporciona orientación clara para sistemas RAG de próxima generación

Limitaciones

Análisis Teórico Predominante: Carece de validación empírica a gran escala
Soluciones Conceptualizadas: Las soluciones propuestas son principalmente orientaciones direccionales
Estándares de Evaluación Faltantes: No proporciona un marco de evaluación unificado para sistemas RAG

Direcciones Futuras

Recuperación Adaptativa: Mecanismo de activación inteligente basado en límites de conocimiento de LLM
Comprensión Profunda de Intención: Análisis y descomposición precisa de consultas complejas
Ecosistema de Datos Confiable: Construcción de bases de conocimiento de alta calidad y verificables
Transparencia de Mecanismo: Investigación profunda de mecanismos de interacción ICL y RAG

Evaluación Profunda

Fortalezas

Sistematicidad Fuerte: Cobertura exhaustiva de todos los aspectos de la tecnología RAG
Orientación a Problemas: Análisis profundo basado en desafíos prácticos
Buena Prospectiva: Proporciona direcciones claras para investigación futura
Estructura Clara: Análisis modular facilita comprensión y aplicación

Insuficiencias

Falta de Evidencia Empírica: Como artículo de revisión, carece de validación experimental original
Soluciones Abstractas: Las soluciones propuestas se detienen principalmente en nivel conceptual
Evaluación Faltante: No proporciona comparación sistemática de diferentes métodos RAG

Impacto

Valor Académico: Proporciona marco teórico importante y orientación de problemas para investigación RAG
Valor Práctico: Proporciona orientación para diseño e optimización de sistemas RAG en la industria
Inspiración: Estimula replanteamiento de la esencia y valor de RAG

Escenarios Aplicables

Investigadores: Referencia importante para investigación en tecnología RAG
Ingenieros: Orientación para diseño y optimización de sistemas RAG
Gerentes de Producto: Apoyo de decisión para selección de escenarios de aplicación RAG

Referencias Bibliográficas

Este artículo cita una gran cantidad de trabajo relacionado, incluyendo principalmente:

Lewis et al. (2020): Artículo original de RAG
Edge et al. (2024): GraphRAG
Gutiérrez et al. (2024): HippoRAG
Singh et al. (2025): RAG Agentic
Así como numerosas investigaciones relacionadas con LLM, ICL y grafos de conocimiento

Evaluación General: Este es un artículo de revisión de alta calidad sobre tecnología RAG que analiza sistemáticamente el estado actual, desafíos y direcciones futuras de RAG. La principal contribución del artículo radica en proporcionar un marco de análisis claro orientado a problemas, indicando la dirección para el desarrollo futuro del campo. Aunque carece de contribuciones técnicas originales y validación empírica, como artículo de revisión, su valor teórico e importancia orientadora son significativos.