Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.
- ID del Artículo: 2510.10009
- Título: Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
- Autores: Shu Zhao (NVIDIA & Pennsylvania State University), Tan Yu (NVIDIA), Anbang Xu (NVIDIA)
- Clasificación: cs.CL cs.AI cs.IR
- Fecha de Publicación: 2025-10-14 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.10009
Los agentes de búsqueda mejorados por razonamiento (como Search-R1) se entrenan para razonar, buscar y generar respuestas finales de manera iterativa. Sin embargo, debido a sus capacidades limitadas en razonamiento y búsqueda, su desempeño en pruebas de referencia de preguntas y respuestas multisalto sigue siendo insatisfactorio. Para manejar consultas complejas o compuestas, los autores entrenaron un agente de búsqueda basado en LLM con capacidades nativas de expansión de consultas mediante aprendizaje por refuerzo. En cada ronda, el agente de búsqueda propone múltiples variantes de consultas mientras busca simultáneamente para cubrir más información relevante. Considerando los datos de post-entrenamiento limitados y los recursos computacionales escasos, el agente de búsqueda tiene dificultades para dominar múltiples tareas, incluyendo generación de consultas, comprensión de información recuperada y generación de respuestas. Por lo tanto, los autores proponen combinar un modelo compresor preentrenado para ayudar al agente de búsqueda a comprender los documentos recuperados, permitiendo que el agente de búsqueda se enfoque en la generación de consultas para lograr una alta tasa de recuperación. Con la ayuda del modelo compresor, los autores descubren que incluso un LLM de 3B pequeño puede exhibir fuertes capacidades de expansión de consultas y lograr precisión de última generación en pruebas de referencia de preguntas y respuestas multisalto. Específicamente, los experimentos en siete pruebas de referencia de preguntas y respuestas demuestran que el método ExpandSearch mejora en promedio un 4.4% en comparación con las líneas base de última generación, logrando mejoras significativas en tareas de razonamiento multisalto que requieren agregación de evidencia diversificada.
Los agentes de búsqueda mejorados por razonamiento existentes enfrentan dos desafíos fundamentales:
- Incompletitud Semántica: Las consultas generadas tienen semántica pobre, incapaces de capturar el rango completo de información relevante, particularmente cuando se enfrentan a problemas multifacéticos que requieren evidencia diversificada
- Sobrecarga de Información: El contenido recuperado contiene gran cantidad de información irrelevante, oscureciendo hechos clave y degradando la calidad del razonamiento
Las tareas de preguntas y respuestas multisalto requieren agregar evidencia desde múltiples perspectivas, y las limitaciones semánticas de consultas únicas y las limitaciones teóricas de la recuperación basada en incrustaciones de vectores unidireccionales restringen severamente el desempeño del sistema. Este problema es particularmente agudo en escenarios de razonamiento complejo, donde los agentes deben navegar a través de grandes volúmenes de resultados de búsqueda para identificar evidencia dispersa pero crítica.
- Métodos como Search-R1 generan solo una consulta por ronda, fácilmente pierden información semántica clave
- Contenido de recuperación prolongado resulta en altos costos computacionales, gran consumo de memoria GPU, degradando significativamente la velocidad de entrenamiento
- Problema de relación señal-ruido es particularmente grave en tareas de razonamiento multisalto
La perspectiva central de los autores es: la recuperación de información efectiva requiere una estrategia dual—expandir el espacio de consultas para maximizar la cobertura de información relevante, luego refinar selectivamente el contenido recuperado para retener solo hechos críticos para el razonamiento. Este paradigma "expandir-comprimir" refleja el comportamiento humano de búsqueda de información.
- Identificación y formalización del problema dual: La incompletitud semántica y la sobrecarga de información en agentes de búsqueda mejorados por razonamiento, demostrando empíricamente que ambos problemas reducen significativamente el desempeño en tareas de razonamiento complejo
- Propuesta del marco ExpandSearch: Un marco "expandir-comprimir" que combina expansión de consultas basada en aprendizaje por refuerzo y refinamiento selectivo de información mediante indicaciones, logrando alta tasa de recuperación mientras se mantiene precisión en escenarios de razonamiento multisalto
- Logro de mejoras significativas de desempeño: Mejoras sustanciales en comparación con líneas base de última generación en siete pruebas de referencia, con desempeño destacado particularmente en tareas de razonamiento multisalto que requieren agregación de evidencia diversificada
Dada una consulta de entrada x, el agente de búsqueda necesita generar una respuesta final y a través de un proceso iterativo de razonamiento-búsqueda, donde en cada ronda puede invocar un motor de búsqueda R para obtener fragmentos de documentos relevantes, y realizar razonamiento basado en información recuperada.
Fase de Expansión:
- El LLM genera bloques
<search></search> que contienen n consultas diversificadas {qi} - Cada consulta qi recupera k fragmentos más relevantes a través del motor de búsqueda R: Ci = c1i, ..., cki ← R(qi)
- Supera efectivamente las limitaciones de recuperación de consulta única, mejorando la tasa de recuperación
Fase de Compresión:
- Las consultas generadas q1, ..., qn y fragmentos recuperados C1, ..., Cn se introducen en el compresor LLM congelado πs
- Genera un resumen: s = πs(q1, ..., qn, C1, ..., Cn)
- La información comprimida s se encapsula en bloques
<information></information> insertados en la secuencia de generación en progreso
Dos tipos de expansión complementarios descubiertos naturalmente a través de aprendizaje por refuerzo:
- Expansión Sintáctica: Maneja variaciones de forma superficial, como "where did he die" → "his death place"
- Expansión Semántica: Amplía el rango de información, como "Alex's father" → "Alex's family"
- Agente de Búsqueda: Se enfoca en generación de consultas para lograr alta tasa de recuperación
- Modelo Compresor: Maneja independientemente la comprensión de documentos recuperados, implementando desacoplamiento mediante llamadas API
Emplea una función de recompensa de combinación ponderada: r = rEM + λrf
- rEM: Recompensa de coincidencia exacta, igual a 1 cuando la respuesta predicha coincide exactamente con la respuesta verdadera
- rf: Recompensa de formato, igual a 1 cuando la respuesta predicha sigue estrictamente el formato
- λ establecido por defecto en 0.2
Abarca siete pruebas de referencia, divididas en dos categorías:
- Preguntas y Respuestas Generales: NQ, TriviaQA, PopQA
- Preguntas y Respuestas Multisalto: HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle
Siguiendo la configuración de Jin et al., combinando conjuntos de entrenamiento de NQ y HotpotQA, evaluando en conjuntos de validación/prueba para capacidad de generalización dentro y fuera del dominio.
Se utiliza Coincidencia Exacta (Exact Match, EM) como métrica de evaluación principal.
- R1 without search engine
- Search-R1
- ZeroSearch
- StepSearch
- Router-R1
- ParallelSearch
- Modelo Base: Qwen-2.5-Base/Instruct (3B/7B)
- Modelo de Incrustación: E5
- Corpus: Volcado de Wikipedia de 2018
- Hardware: 8×NVIDIA H100 GPU
- Algoritmo: PPO (Proximal Policy Optimization)
- Procesamiento por Lotes: Tamaño de lote total 512, lote pequeño 256, microlote 64
Logra mejoras consistentes y significativas en todas las configuraciones:
- Mejora Promedio del 4.4%: Mejora absoluta en comparación con la línea base más fuerte
- Ventaja de Modelo Pequeño: Modelo 3B-Instruct (0.457 EM promedio) supera métodos de línea base 7B
- Impacto de Arquitectura: En modelo 3B, variante instruct supera modelo base por 2.2%; en modelo 7B, variante base supera modelo instruct por 3.1%
Aumentar de 1 a 3 consultas mejora significativamente el desempeño:
- De n=1 a n=2: Mejora promedio del 6.7%
- Continúa mejorando en n=3, pero con rendimientos decrecientes
- ExpandSearch (n=3, k=5) mejora 34.3% en comparación con Search-R1 (k=15)
- Solo agregar indicaciones de expansión sin entrenamiento RL incluso degrada el desempeño
- Demuestra que el entrenamiento end-to-end es crítico para aprender estrategias efectivas de expansión de consultas
- Expansión Sintáctica representa 63.35%, expansión semántica representa 36.65%
- Eliminar cualquier tipo resulta en degradación de desempeño, demostrando su complementariedad
- Profundidad de Recuperación: Aumentar de k=3 a k=10 muestra ganancias consistentes pero decrecientes
- Selección de Modelo: LLaMA-3.1-70B se desempeña mejor en preguntas y respuestas generales, LLaMA-4-17B es superior en razonamiento multisalto
- Capacidad de Generalización: El desempeño permanece comparable cuando se usan diferentes modelos compresores durante entrenamiento e inferencia
- Recompensa, longitud de respuesta y frecuencia de búsqueda crecen sincrónicamente
- El modelo aprende autónomamente a aumentar la frecuencia de búsqueda como estrategia para mejorar la calidad de respuestas
- Curvas de entrenamiento suave indican proceso de optimización estable
- Sistemas RAG: Tubería de dos etapas, recuperar primero luego generar, pero comúnmente contiene información irrelevante
- Marcos de Herramientas de Búsqueda: Como IRCoT, ReAct guiados por indicaciones, Toolformer mediante ajuste fino supervisado
- Métodos de Aprendizaje por Refuerzo: Search-R1 aplicación pionera de tecnología RL, desarrollos posteriores incluyen ZeroSearch, MaskSearch, etc.
- RLHF: Entrenamiento de modelos de recompensa mediante anotaciones de preferencia humana
- Optimización de Eficiencia: DPO, SimPO, ORPO y otros métodos evitan entrenamiento de modelo de recompensa
- Tecnologías Emergentes: GRPO, RLOO proporcionan alternativas prometedoras evaluando políticas de manera grupal
- ExpandSearch resuelve efectivamente las limitaciones de recuperación de consulta única a través de expansión de consultas aprendida y refinamiento selectivo de información
- El paradigma "expandir-comprimir" resuelve exitosamente el desafío dual de incompletitud semántica y sobrecarga de información
- Incluso modelos de escala 3B pueden exhibir fuertes capacidades de expansión de consultas y lograr desempeño de última generación
- Costo Computacional: Recuperación de múltiples consultas e invocaciones de compresor aumentan el tiempo de inferencia
- Dependencia: El desempeño depende de la calidad del modelo compresor
- Saturación de Expansión: Existen rendimientos decrecientes en el aumento de cantidad de consultas
- Estrategias de Recuperación Adaptativas: Ajustar dinámicamente la cantidad de expansión según complejidad de consulta
- Métodos de Entrenamiento Más Eficientes: Reducir dependencia de recursos computacionales a gran escala
- Optimización End-to-End: Entrenar conjuntamente agente de búsqueda y modelo compresor
- Innovación de Método: Primera combinación de expansión de consultas con aprendizaje por refuerzo, diseño de paradigma "expandir-comprimir" ingenioso
- Suficiencia Experimental: Siete pruebas de referencia, múltiples escalas de modelo, experimentos de ablación detallados
- Perspectivas Técnicas: Descubrimiento de complementariedad entre expansión sintáctica y semántica, proporciona perspectivas técnicas valiosas
- Valor Práctico: Modelos pequeños también logran desempeño excelente, posee valor de despliegue práctico
- Análisis Teórico Insuficiente: Carece de explicación teórica de por qué este método es efectivo
- Eficiencia Computacional: Análisis de gastos computacionales de recuperación de múltiples consultas no suficientemente profundo
- Capacidad de Generalización: Principalmente validado en tareas de preguntas y respuestas, aplicabilidad a otras tareas desconocida
- Dependencia del Compresor: La dependencia de modelo compresor externo puede limitar escenarios de aplicación
- Contribución Académica: Proporciona nueva dirección de investigación para campo de generación mejorada por recuperación
- Valor Práctico: Diseño modular facilita aplicación práctica y despliegue
- Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código abierto
- Sistemas de Preguntas y Respuestas Multisalto: Particularmente adecuado para tareas de preguntas y respuestas que requieren razonamiento complejo
- Sistemas de Recuperación de Información: Aplicable a escenarios de recuperación que requieren alta tasa de recuperación
- Sistemas de Diálogo: Puede integrarse en agentes de diálogo que requieren conocimiento externo
El artículo cita múltiples trabajos importantes, incluyendo:
- Search-R1 (Jin et al., 2025b): Trabajo pionero de agente de búsqueda RL
- Trabajos relacionados con RLHF (Ouyang et al., 2022): Fundamentos de entrenamiento LLM con aprendizaje por refuerzo
- Múltiples conjuntos de datos de preguntas y respuestas: Pruebas de referencia estándar como NQ, HotpotQA, TriviaQA
Este artículo propone una solución innovadora para abordar los desafíos fundamentales de los agentes de búsqueda actuales, logrando mejoras significativas de desempeño a través del diseño ingenioso "expandir-comprimir". Aunque hay espacio para mejora en análisis teórico y eficiencia computacional, tanto su innovación técnica como su verificación experimental alcanzan un nivel relativamente alto, ejerciendo un impacto importante en el avance del campo de generación mejorada por recuperación.