Large Language Models (LLMs) have enabled a wide range of applications through their powerful capabilities in language understanding and generation. However, as LLMs are trained on static corpora, they face difficulties in addressing rapidly evolving information or domain-specific queries. Retrieval-Augmented Generation (RAG) was developed to overcome this limitation by integrating LLMs with external retrieval mechanisms, allowing them to access up-to-date and contextually relevant knowledge. However, as LLMs themselves continue to advance in scale and capability, the relative advantages of traditional RAG frameworks have become less pronounced and necessary. Here, we present a comprehensive review of RAG, beginning with its overarching objectives and core components. We then analyze the key challenges within RAG, highlighting critical weakness that may limit its effectiveness. Finally, we showcase applications where LLMs alone perform inadequately, but where RAG, when combined with LLMs, can substantially enhance their effectiveness. We hope this work will encourage researchers to reconsider the role of RAG and inspire the development of next-generation RAG systems.
- ID del Artículo: 2510.09106
- Título: When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for LLMs
- Autores: Yongjie Wang, Yue Yu, Kaisong Song, Jun Lin, Zhiqi Shen
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.09106
Los modelos de lenguaje grandes (LLMs) han logrado aplicaciones generalizadas mediante su potente capacidad de comprensión y generación del lenguaje. Sin embargo, debido a que los LLMs se entrenan en corpus estáticos, enfrentan dificultades al procesar información que evoluciona rápidamente o consultas específicas del dominio. La Generación Aumentada por Recuperación (RAG) supera esta limitación integrando los LLMs con mecanismos de recuperación externos, permitiéndoles acceder a conocimiento actualizado y contextualmente relevante. No obstante, con el progreso continuo de los LLMs en escala y capacidad, las ventajas relativas del marco RAG tradicional se han vuelto menos evidentes y necesarias. Este artículo presenta una revisión exhaustiva de RAG, comenzando con sus objetivos generales y componentes centrales, luego analiza los desafíos clave en RAG, destacando las debilidades críticas que pueden limitar su efectividad. Finalmente, demuestra escenarios de aplicación donde los LLMs funcionan deficientemente por sí solos pero donde RAG combinado con LLMs puede mejorar significativamente su efectividad.
- Problema Central: Con el rápido aumento de las capacidades de los LLMs, se cuestiona la necesidad y efectividad del marco RAG tradicional
- Desafíos Específicos:
- Limitaciones de conocimiento de los LLMs en datos de entrenamiento estáticos
- Dificultad en el procesamiento de consultas específicas del dominio e información que evoluciona rápidamente
- Prevalencia del fenómeno de alucinación
- Necesidad Práctica: Tareas intensivas en conocimiento, acceso a información personalizada, integración de conocimiento en tiempo real y otros escenarios aún requieren RAG
- Desarrollo Tecnológico: Necesidad de reevaluar el papel y valor de RAG en el contexto de los LLMs modernos
- Significado Teórico: Proporciona orientación para el desarrollo de sistemas RAG de próxima generación
- Mecanismo de Activación de Recuperación Inadecuado: Falta de análisis sobre los límites del conocimiento existente en los LLMs
- Comprensión Insuficiente de Consultas Complejas: Capacidad limitada de análisis de intención, afectando la identificación de palabras clave
- Conflictos de Conocimiento No Resueltos: Existencia de información conflictiva no verificada en bases de datos externas
- Comprensión Limitada del Mecanismo ICL: Falta de comprensión profunda sobre cómo funciona el aprendizaje en contexto en marcos aumentados por recuperación
- Revisión Sistemática: Proporciona una revisión exhaustiva de la tecnología RAG, incluyendo arquitectura, componentes y desafíos
- Identificación de Problemas: Análisis profundo de cuatro desafíos centrales que enfrentan los sistemas RAG actuales
- Clarificación de Escenarios de Aplicación: Identifica y explica tres dominios de aplicación donde RAG sigue siendo insustituible
- Direcciones Futuras: Proporciona direcciones de investigación claras para el desarrollo de sistemas RAG de próxima generación
Este artículo descompone el sistema RAG en cuatro módulos centrales:
- Fragmentación de Documentos: Divide documentos en fragmentos manejables, codificados usando BM25 o incrustaciones de LLM
- Mejora de Grafo de Conocimiento:
- Convierte fuentes externas en grafos de conocimiento (KG)
- Los nodos representan entidades o conceptos, los bordes codifican relaciones
- Agrupa jerárquicamente entidades en estructuras de comunidades multicapa
- Desafíos: Desarrollar sistemas de indexación efectivos que coincidan con consultas de usuarios; gestionar fuentes de datos heterogéneas
Contiene tres pasos secuenciales:
Análisis de Consulta:
- Reescritura de consulta: Reformula la consulta desde múltiples perspectivas
- Descomposición de consulta: Divide problemas complejos en subproblemas simples
- Razonamiento de respuesta: Genera respuestas hipotéticas para guiar la recuperación
- Extracción de palabras clave: Identifica términos significativos específicos del dominio
Recuperación de Pasajes:
- Coincidencia semántica: Utiliza codificadores dispersos (BM25) e incrustaciones densas (SBERT)
- Recorrido de grafo: Recuperación basada en KG mediante recorrido de estructura de grafo
- Métodos híbridos: Combina recuperación de grano grueso (alto recall) y recuperación semántica (alta precisión)
Reordenamiento y Filtrado:
- Técnicas de reordenamiento: Reordena basándose en relevancia de consulta
- Técnicas de resumen: Retiene fragmentos más informativos, reduciendo la longitud del contexto
- Ingeniería de Prompts: Asegura que el LLM utilice efectivamente documentos recuperados
- Manejo de Conflictos: Resuelve conflictos entre evidencia recuperada y conocimiento paramétrico
- Ajuste Fino Especializado: Entrena el LLM para distinguir entre documentos relevantes e irrelevantes
- Gestión de Flujo de Trabajo: Coordina interacciones y flujo de datos entre módulos
- Adaptación Dinámica: Activa componentes correspondientes según necesidades específicas de consulta
- Optimización de Eficiencia: Mejora la diversidad y eficiencia del sistema
- Diseño Modular: Descompone sistemáticamente el sistema RAG en cuatro módulos independientes pero colaborativos
- Análisis Orientado a Desafíos: Identifica cuellos de botella técnicos a partir de problemas prácticos
- Impulsado por Escenarios de Aplicación: Redefine el valor de RAG basándose en necesidades reales
Problema: Falta de claridad en los límites del conocimiento del LLM
- Estado Actual: La mayoría de métodos RAG no evalúan qué saben y qué desconocen los LLMs
- Soluciones:
- Métodos basados en incertidumbre que evalúan variabilidad de predicción
- Incertidumbre semántica, auto-incertidumbre, confianza de predicción
- Activa RAG solo cuando el LLM no puede producir predicciones confiables
Problema: Inefectividad de métodos de recuperación
- Dificultad en Tareas de Razonamiento Complejo: Preguntas de múltiples saltos, razonamiento matemático, etc., requieren comprensión profunda de intención
- Limitaciones de KG-RAG:
- Métodos de vecindario de K-saltos introducen entidades irrelevantes
- Búsqueda guiada por LLM es computacionalmente costosa e inconsistente
- Dirección de Solución: Marcos basados en agentes y RAG Agentic
Problema: Riesgo de fuentes de datos no verificadas
- Problema de Suposición: La mayoría de métodos RAG asumen que el conocimiento externo es inherentemente confiable
- Realidad: Incluso bases de datos autorizadas como PubMed contienen datos fraudulentos
- Solución: Construir bases de datos dedicadas de alta calidad y recuperación eficiente
Problema: Opacidad del mecanismo ICL
- Resolución de Conflictos: El mecanismo para resolver conflictos entre evidencia recuperada y memoria paramétrica no es claro
- Límite de Rendimiento: Los LLMs tienden a depender del contenido recuperado sin considerar su precisión
- Dirección de Investigación: Análisis de flujo de atención, rastreo causal, sondeo de representación
Análisis Comparativo:
- Ventajas de LLM de Contexto Largo: Procesa documentos completos, reduce dependencia de recuperación
- Desventajas de LLM de Contexto Largo: Corte de conocimiento, alto costo de razonamiento, sensibilidad al ruido, datos de entrenamiento escasos
- Complementariedad: Marco unificado que combina recuperación de hechos precisos y razonamiento transversal de documentos holístico
- Escenarios Típicos: Dosis de medicamentos, diagnóstico de enfermedades raras
- Valor de RAG: Acceso a bases de datos de dominio específico de alta calidad, apoyo de evidencia autorizada
- Escenarios Típicos: Documentos empresariales, notas personales, conversaciones multironda
- Valor de RAG: Recuperación de conocimiento personalizada y segura, protección de privacidad de datos
- Escenarios Típicos: Noticias, mercados financieros, actualizaciones regulatorias
- Valor de RAG: Recuperación continua de información actualizada, como extractor de información y resumidor
Como artículo de revisión, este trabajo respalda sus puntos de vista principalmente mediante:
- Investigación Bibliográfica: Revisión sistemática del progreso de investigación relacionado con RAG
- Análisis de Casos: Análisis detallado de problemas en escenarios específicos
- Análisis Teórico: Reflexión profunda basada en investigación existente
- Trabajo Temprano: Lewis et al. (2020) propone el marco RAG fundamental
- Optimización de Consultas: Transformación de consultas, ajuste fino de modelos de incrustación
- Estrategias de Indexación: Métodos mejorados con KG como GraphRAG, HippoRAG, KAG
- Integración de Agentes: RAG Agentic que combina agentes inteligentes de LLM
- Técnicas de Indexación: Fragmentación de documentos, grafo de conocimiento, estructura jerárquica
- Técnicas de Recuperación: Coincidencia semántica, recorrido de grafo, métodos híbridos
- Técnicas de Generación: Ingeniería de prompts, ajuste fino supervisado, aprendizaje por refuerzo
- RAG Sigue Siendo Valioso: A pesar del aumento de capacidades de LLMs, RAG sigue siendo insustituible en escenarios específicos
- Desafíos Clarificados: Identifica cuatro desafíos técnicos centrales
- Dirección de Desarrollo Clara: Proporciona orientación clara para sistemas RAG de próxima generación
- Análisis Teórico Predominante: Carece de validación empírica a gran escala
- Soluciones Conceptualizadas: Las soluciones propuestas son principalmente orientaciones direccionales
- Estándares de Evaluación Faltantes: No proporciona un marco de evaluación unificado para sistemas RAG
- Recuperación Adaptativa: Mecanismo de activación inteligente basado en límites de conocimiento de LLM
- Comprensión Profunda de Intención: Análisis y descomposición precisa de consultas complejas
- Ecosistema de Datos Confiable: Construcción de bases de conocimiento de alta calidad y verificables
- Transparencia de Mecanismo: Investigación profunda de mecanismos de interacción ICL y RAG
- Sistematicidad Fuerte: Cobertura exhaustiva de todos los aspectos de la tecnología RAG
- Orientación a Problemas: Análisis profundo basado en desafíos prácticos
- Buena Prospectiva: Proporciona direcciones claras para investigación futura
- Estructura Clara: Análisis modular facilita comprensión y aplicación
- Falta de Evidencia Empírica: Como artículo de revisión, carece de validación experimental original
- Soluciones Abstractas: Las soluciones propuestas se detienen principalmente en nivel conceptual
- Evaluación Faltante: No proporciona comparación sistemática de diferentes métodos RAG
- Valor Académico: Proporciona marco teórico importante y orientación de problemas para investigación RAG
- Valor Práctico: Proporciona orientación para diseño e optimización de sistemas RAG en la industria
- Inspiración: Estimula replanteamiento de la esencia y valor de RAG
- Investigadores: Referencia importante para investigación en tecnología RAG
- Ingenieros: Orientación para diseño y optimización de sistemas RAG
- Gerentes de Producto: Apoyo de decisión para selección de escenarios de aplicación RAG
Este artículo cita una gran cantidad de trabajo relacionado, incluyendo principalmente:
- Lewis et al. (2020): Artículo original de RAG
- Edge et al. (2024): GraphRAG
- Gutiérrez et al. (2024): HippoRAG
- Singh et al. (2025): RAG Agentic
- Así como numerosas investigaciones relacionadas con LLM, ICL y grafos de conocimiento
Evaluación General: Este es un artículo de revisión de alta calidad sobre tecnología RAG que analiza sistemáticamente el estado actual, desafíos y direcciones futuras de RAG. La principal contribución del artículo radica en proporcionar un marco de análisis claro orientado a problemas, indicando la dirección para el desarrollo futuro del campo. Aunque carece de contribuciones técnicas originales y validación empírica, como artículo de revisión, su valor teórico e importancia orientadora son significativos.