2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu

Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.

academic

Más allá de la limitación de una única consulta: Entrena tu LLM para la expansión de consultas con Aprendizaje por Refuerzo

Información Básica

ID del Artículo: 2510.10009
Título: Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
Autores: Shu Zhao (NVIDIA & Pennsylvania State University), Tan Yu (NVIDIA), Anbang Xu (NVIDIA)
Clasificación: cs.CL cs.AI cs.IR
Fecha de Publicación: 2025-10-14 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10009

Resumen

Los agentes de búsqueda mejorados por razonamiento (como Search-R1) se entrenan para razonar, buscar y generar respuestas finales de manera iterativa. Sin embargo, debido a sus capacidades limitadas en razonamiento y búsqueda, su desempeño en pruebas de referencia de preguntas y respuestas multisalto sigue siendo insatisfactorio. Para manejar consultas complejas o compuestas, los autores entrenaron un agente de búsqueda basado en LLM con capacidades nativas de expansión de consultas mediante aprendizaje por refuerzo. En cada ronda, el agente de búsqueda propone múltiples variantes de consultas mientras busca simultáneamente para cubrir más información relevante. Considerando los datos de post-entrenamiento limitados y los recursos computacionales escasos, el agente de búsqueda tiene dificultades para dominar múltiples tareas, incluyendo generación de consultas, comprensión de información recuperada y generación de respuestas. Por lo tanto, los autores proponen combinar un modelo compresor preentrenado para ayudar al agente de búsqueda a comprender los documentos recuperados, permitiendo que el agente de búsqueda se enfoque en la generación de consultas para lograr una alta tasa de recuperación. Con la ayuda del modelo compresor, los autores descubren que incluso un LLM de 3B pequeño puede exhibir fuertes capacidades de expansión de consultas y lograr precisión de última generación en pruebas de referencia de preguntas y respuestas multisalto. Específicamente, los experimentos en siete pruebas de referencia de preguntas y respuestas demuestran que el método ExpandSearch mejora en promedio un 4.4% en comparación con las líneas base de última generación, logrando mejoras significativas en tareas de razonamiento multisalto que requieren agregación de evidencia diversificada.

Contexto de Investigación y Motivación

Definición del Problema

Los agentes de búsqueda mejorados por razonamiento existentes enfrentan dos desafíos fundamentales:

Incompletitud Semántica: Las consultas generadas tienen semántica pobre, incapaces de capturar el rango completo de información relevante, particularmente cuando se enfrentan a problemas multifacéticos que requieren evidencia diversificada
Sobrecarga de Información: El contenido recuperado contiene gran cantidad de información irrelevante, oscureciendo hechos clave y degradando la calidad del razonamiento

Importancia de la Investigación

Las tareas de preguntas y respuestas multisalto requieren agregar evidencia desde múltiples perspectivas, y las limitaciones semánticas de consultas únicas y las limitaciones teóricas de la recuperación basada en incrustaciones de vectores unidireccionales restringen severamente el desempeño del sistema. Este problema es particularmente agudo en escenarios de razonamiento complejo, donde los agentes deben navegar a través de grandes volúmenes de resultados de búsqueda para identificar evidencia dispersa pero crítica.

Limitaciones de Métodos Existentes

Métodos como Search-R1 generan solo una consulta por ronda, fácilmente pierden información semántica clave
Contenido de recuperación prolongado resulta en altos costos computacionales, gran consumo de memoria GPU, degradando significativamente la velocidad de entrenamiento
Problema de relación señal-ruido es particularmente grave en tareas de razonamiento multisalto

Motivación de la Investigación

La perspectiva central de los autores es: la recuperación de información efectiva requiere una estrategia dual—expandir el espacio de consultas para maximizar la cobertura de información relevante, luego refinar selectivamente el contenido recuperado para retener solo hechos críticos para el razonamiento. Este paradigma "expandir-comprimir" refleja el comportamiento humano de búsqueda de información.

Contribuciones Principales

Identificación y formalización del problema dual: La incompletitud semántica y la sobrecarga de información en agentes de búsqueda mejorados por razonamiento, demostrando empíricamente que ambos problemas reducen significativamente el desempeño en tareas de razonamiento complejo
Propuesta del marco ExpandSearch: Un marco "expandir-comprimir" que combina expansión de consultas basada en aprendizaje por refuerzo y refinamiento selectivo de información mediante indicaciones, logrando alta tasa de recuperación mientras se mantiene precisión en escenarios de razonamiento multisalto
Logro de mejoras significativas de desempeño: Mejoras sustanciales en comparación con líneas base de última generación en siete pruebas de referencia, con desempeño destacado particularmente en tareas de razonamiento multisalto que requieren agregación de evidencia diversificada

Explicación Detallada del Método

Definición de la Tarea

Dada una consulta de entrada x, el agente de búsqueda necesita generar una respuesta final y a través de un proceso iterativo de razonamiento-búsqueda, donde en cada ronda puede invocar un motor de búsqueda R para obtener fragmentos de documentos relevantes, y realizar razonamiento basado en información recuperada.

Arquitectura del Modelo

Estrategia Expandir-luego-Comprimir

Fase de Expansión:

El LLM genera bloques <search></search> que contienen n consultas diversificadas {qi}
Cada consulta qi recupera k fragmentos más relevantes a través del motor de búsqueda R: Ci = c1i, ..., cki ← R(qi)
Supera efectivamente las limitaciones de recuperación de consulta única, mejorando la tasa de recuperación

Fase de Compresión:

Las consultas generadas q1, ..., qn y fragmentos recuperados C1, ..., Cn se introducen en el compresor LLM congelado πs
Genera un resumen: s = πs(q1, ..., qn, C1, ..., Cn)
La información comprimida s se encapsula en bloques <information></information> insertados en la secuencia de generación en progreso

Puntos de Innovación Técnica

1. Tipos de Expansión de Consultas

Dos tipos de expansión complementarios descubiertos naturalmente a través de aprendizaje por refuerzo:

Expansión Sintáctica: Maneja variaciones de forma superficial, como "where did he die" → "his death place"
Expansión Semántica: Amplía el rango de información, como "Alex's father" → "Alex's family"

2. Diseño de Arquitectura Modular

Agente de Búsqueda: Se enfoca en generación de consultas para lograr alta tasa de recuperación
Modelo Compresor: Maneja independientemente la comprensión de documentos recuperados, implementando desacoplamiento mediante llamadas API

3. Diseño de Función de Recompensa

Emplea una función de recompensa de combinación ponderada: r = rEM + λrf

rEM: Recompensa de coincidencia exacta, igual a 1 cuando la respuesta predicha coincide exactamente con la respuesta verdadera
rf: Recompensa de formato, igual a 1 cuando la respuesta predicha sigue estrictamente el formato
λ establecido por defecto en 0.2

Configuración Experimental

Conjuntos de Datos

Abarca siete pruebas de referencia, divididas en dos categorías:

Preguntas y Respuestas Generales: NQ, TriviaQA, PopQA
Preguntas y Respuestas Multisalto: HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle

Siguiendo la configuración de Jin et al., combinando conjuntos de entrenamiento de NQ y HotpotQA, evaluando en conjuntos de validación/prueba para capacidad de generalización dentro y fuera del dominio.

Métricas de Evaluación

Se utiliza Coincidencia Exacta (Exact Match, EM) como métrica de evaluación principal.

Métodos de Comparación

R1 without search engine
Search-R1
ZeroSearch
StepSearch
Router-R1
ParallelSearch

Detalles de Implementación

Modelo Base: Qwen-2.5-Base/Instruct (3B/7B)
Modelo de Incrustación: E5
Corpus: Volcado de Wikipedia de 2018
Hardware: 8×NVIDIA H100 GPU
Algoritmo: PPO (Proximal Policy Optimization)
Procesamiento por Lotes: Tamaño de lote total 512, lote pequeño 256, microlote 64

Resultados Experimentales

Resultados Principales

Logra mejoras consistentes y significativas en todas las configuraciones:

Mejora Promedio del 4.4%: Mejora absoluta en comparación con la línea base más fuerte
Ventaja de Modelo Pequeño: Modelo 3B-Instruct (0.457 EM promedio) supera métodos de línea base 7B
Impacto de Arquitectura: En modelo 3B, variante instruct supera modelo base por 2.2%; en modelo 7B, variante base supera modelo instruct por 3.1%

Experimentos de Ablación

Impacto de Cantidad de Expansión de Consultas

Aumentar de 1 a 3 consultas mejora significativamente el desempeño:

De n=1 a n=2: Mejora promedio del 6.7%
Continúa mejorando en n=3, pero con rendimientos decrecientes

Importancia del Entrenamiento End-to-End

ExpandSearch (n=3, k=5) mejora 34.3% en comparación con Search-R1 (k=15)
Solo agregar indicaciones de expansión sin entrenamiento RL incluso degrada el desempeño
Demuestra que el entrenamiento end-to-end es crítico para aprender estrategias efectivas de expansión de consultas

Análisis de Tipos de Expansión

Expansión Sintáctica representa 63.35%, expansión semántica representa 36.65%
Eliminar cualquier tipo resulta en degradación de desempeño, demostrando su complementariedad

Análisis del Comportamiento del Compresor

Profundidad de Recuperación: Aumentar de k=3 a k=10 muestra ganancias consistentes pero decrecientes
Selección de Modelo: LLaMA-3.1-70B se desempeña mejor en preguntas y respuestas generales, LLaMA-4-17B es superior en razonamiento multisalto
Capacidad de Generalización: El desempeño permanece comparable cuando se usan diferentes modelos compresores durante entrenamiento e inferencia

Dinámicas de Entrenamiento

Recompensa, longitud de respuesta y frecuencia de búsqueda crecen sincrónicamente
El modelo aprende autónomamente a aumentar la frecuencia de búsqueda como estrategia para mejorar la calidad de respuestas
Curvas de entrenamiento suave indican proceso de optimización estable

Trabajo Relacionado

Agentes de Búsqueda Profunda

Sistemas RAG: Tubería de dos etapas, recuperar primero luego generar, pero comúnmente contiene información irrelevante
Marcos de Herramientas de Búsqueda: Como IRCoT, ReAct guiados por indicaciones, Toolformer mediante ajuste fino supervisado
Métodos de Aprendizaje por Refuerzo: Search-R1 aplicación pionera de tecnología RL, desarrollos posteriores incluyen ZeroSearch, MaskSearch, etc.

Aprendizaje por Refuerzo

RLHF: Entrenamiento de modelos de recompensa mediante anotaciones de preferencia humana
Optimización de Eficiencia: DPO, SimPO, ORPO y otros métodos evitan entrenamiento de modelo de recompensa
Tecnologías Emergentes: GRPO, RLOO proporcionan alternativas prometedoras evaluando políticas de manera grupal

Conclusiones y Discusión

Conclusiones Principales

ExpandSearch resuelve efectivamente las limitaciones de recuperación de consulta única a través de expansión de consultas aprendida y refinamiento selectivo de información
El paradigma "expandir-comprimir" resuelve exitosamente el desafío dual de incompletitud semántica y sobrecarga de información
Incluso modelos de escala 3B pueden exhibir fuertes capacidades de expansión de consultas y lograr desempeño de última generación

Limitaciones

Costo Computacional: Recuperación de múltiples consultas e invocaciones de compresor aumentan el tiempo de inferencia
Dependencia: El desempeño depende de la calidad del modelo compresor
Saturación de Expansión: Existen rendimientos decrecientes en el aumento de cantidad de consultas

Direcciones Futuras

Estrategias de Recuperación Adaptativas: Ajustar dinámicamente la cantidad de expansión según complejidad de consulta
Métodos de Entrenamiento Más Eficientes: Reducir dependencia de recursos computacionales a gran escala
Optimización End-to-End: Entrenar conjuntamente agente de búsqueda y modelo compresor

Evaluación Profunda

Fortalezas

Innovación de Método: Primera combinación de expansión de consultas con aprendizaje por refuerzo, diseño de paradigma "expandir-comprimir" ingenioso
Suficiencia Experimental: Siete pruebas de referencia, múltiples escalas de modelo, experimentos de ablación detallados
Perspectivas Técnicas: Descubrimiento de complementariedad entre expansión sintáctica y semántica, proporciona perspectivas técnicas valiosas
Valor Práctico: Modelos pequeños también logran desempeño excelente, posee valor de despliegue práctico

Insuficiencias

Análisis Teórico Insuficiente: Carece de explicación teórica de por qué este método es efectivo
Eficiencia Computacional: Análisis de gastos computacionales de recuperación de múltiples consultas no suficientemente profundo
Capacidad de Generalización: Principalmente validado en tareas de preguntas y respuestas, aplicabilidad a otras tareas desconocida
Dependencia del Compresor: La dependencia de modelo compresor externo puede limitar escenarios de aplicación

Impacto

Contribución Académica: Proporciona nueva dirección de investigación para campo de generación mejorada por recuperación
Valor Práctico: Diseño modular facilita aplicación práctica y despliegue
Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código abierto

Escenarios Aplicables

Sistemas de Preguntas y Respuestas Multisalto: Particularmente adecuado para tareas de preguntas y respuestas que requieren razonamiento complejo
Sistemas de Recuperación de Información: Aplicable a escenarios de recuperación que requieren alta tasa de recuperación
Sistemas de Diálogo: Puede integrarse en agentes de diálogo que requieren conocimiento externo

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

Search-R1 (Jin et al., 2025b): Trabajo pionero de agente de búsqueda RL
Trabajos relacionados con RLHF (Ouyang et al., 2022): Fundamentos de entrenamiento LLM con aprendizaje por refuerzo
Múltiples conjuntos de datos de preguntas y respuestas: Pruebas de referencia estándar como NQ, HotpotQA, TriviaQA

Este artículo propone una solución innovadora para abordar los desafíos fundamentales de los agentes de búsqueda actuales, logrando mejoras significativas de desempeño a través del diseño ingenioso "expandir-comprimir". Aunque hay espacio para mejora en análisis teórico y eficiencia computacional, tanto su innovación técnica como su verificación experimental alcanzan un nivel relativamente alto, ejerciendo un impacto importante en el avance del campo de generación mejorada por recuperación.