2025-11-12T13:34:10.697758

Generalized Pseudo-Relevance Feedback

Tu, Su, Zhou et al.

Query rewriting is a fundamental technique in information retrieval (IR). It typically employs the retrieval result as relevance feedback to refine the query and thereby addresses the vocabulary mismatch between user queries and relevant documents. Traditional pseudo-relevance feedback (PRF) and its vector-based extension (VPRF) improve retrieval performance by leveraging top-retrieved documents as relevance feedback. However, they are constructed based on two major hypotheses: the relevance assumption (top documents are relevant) and the model assumption (rewriting methods need to be designed specifically for particular model architectures). While recent large language models (LLMs)-based generative relevance feedback (GRF) enables model-free query reformulation, it either suffers from severe LLM hallucination or, again, relies on the relevance assumption to guarantee the effectiveness of rewriting quality. To overcome these limitations, we introduce an assumption-relaxed framework: \textit{Generalized Pseudo Relevance Feedback} (GPRF), which performs model-free, natural language rewriting based on retrieved documents, not only eliminating the model assumption but also reducing dependence on the relevance assumption. Specifically, we design a utility-oriented training pipeline with reinforcement learning to ensure robustness against noisy feedback. Extensive experiments across multiple benchmarks and retrievers demonstrate that GPRF consistently outperforms strong baselines, establishing it as an effective and generalizable framework for query rewriting.

academic

Generalized Pseudo-Relevance Feedback

基本信息

论文ID: 2510.25488
标题: Generalized Pseudo-Relevance Feedback
作者: Yiteng Tu, Weihang Su, Yujia Zhou, Yiqun Liu (清华大学), Fen Lin, Qin Liu (腾讯), Qingyao Ai (清华大学)
分类: cs.IR (信息检索)
发表时间: 2025年10月29日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.25488

摘要

查询重写是信息检索中的基础技术，通过利用检索结果作为相关性反馈来改进查询，从而解决用户查询与相关文档之间的词汇不匹配问题。传统的伪相关反馈(PRF)及其向量扩展(VPRF)依赖两个主要假设：相关性假设(认为top文档相关)和模型假设(重写方法需针对特定模型架构设计)。虽然基于大语言模型(LLMs)的生成式相关反馈(GRF)实现了模型无关的查询重构，但它要么遭受严重的LLM幻觉问题，要么仍依赖相关性假设。为克服这些局限，本文提出了假设松弛框架——通用伪相关反馈(GPRF)，通过基于检索文档的自然语言重写，既消除了模型假设，又减少了对相关性假设的依赖。具体而言，设计了基于强化学习的效用导向训练流程，确保对噪声反馈的鲁棒性。在多个基准和检索器上的大量实验表明，GPRF始终优于强基线方法。

查询重写是改善检索效果的关键技术，应用于网络搜索、电商、开放域问答等多个场景
有效的查询重写能显著提升用户体验和系统性能
在稀疏检索(如BM25)和密集检索(如dense retrieval)中都至关重要

3. 现有方法的局限性

传统PRF/VPRF的问题：

相关性假设：假设top-k检索文档都是相关的，但实际检索系统并不完美，top结果常包含噪声和无关信息
模型假设：方法与特定检索器的内部表示紧密耦合（词项权重或密集嵌入），难以跨模型迁移

基于LLM的GRF方法的问题：

虽然通过自然语言操作缓解了模型假设，但仍存在两个问题：
- 幻觉问题：LLM容易生成流畅但事实错误或语义无关的内容
- 仍依赖相关性假设：假设生成的扩展忠实反映用户意图

4. 研究动机

需要一个既能利用检索证据减少幻觉，又能对噪声反馈具有鲁棒性，同时不依赖特定模型架构的查询重写框架。

核心贡献

系统性分析：对现有查询重写方法(PRF和GRF)进行系统分析，明确指出两大核心挑战——相关性假设和模型假设
提出GPRF框架：一个假设松弛的通用伪相关反馈框架，有效整合PRF和GRF的优势：
- 消除模型假设：通过自然语言重写实现模型无关
- 松弛相关性假设：通过效用导向训练提升对噪声反馈的鲁棒性
设计效用导向训练流程：包含三阶段的训练pipeline：
- 检索增强的拒绝采样(Retrieval-augmented Rejection Sampling)
- 冷启动监督微调(Cold-start SFT)
- 强化学习(RL with GRPO)
广泛的实验验证：在多个基准数据集(域内和域外)和不同检索器(BM25, E5, BGE)上证明GPRF的有效性和泛化能力

方法详解

任务定义

输入：

初始查询 $q$
top-k检索文档集合 $\mathcal{D}^{(k)}_q = \{d_1, d_2, ..., d_k\}$

输出：

重写后的查询 $q'$ ，用于后续检索以提升检索效果

目标：生成的重写查询应最大化检索效用(如NDCG@10)，同时对反馈文档中的噪声具有鲁棒性

模型架构

1. GPRF核心机制

与传统PRF/VPRF和GRF的对比如图1所示：

GPRF生成过程：

q' ~ LLM_θ(I, q, D^(k)_q)

其中：

I：指令模板(Prompt)
q：原始查询
D^(k)_q：top-k反馈文档
LLM_θ：参数化的大语言模型

统一Prompt设计（表1）：

请根据几个相关段落（可能包含噪声或错误）重写用户查询。
重写的查询应保留原始含义，同时尽可能融入更多信息，
以便搜索引擎更有效地检索相关段落。

相关段落：
段落1: {passage 1}
段落2: {passage 2}
...
用户查询: {question}
重写查询:

与检索系统集成：

对于稀疏检索(BM25)：将多个重写查询与原查询拼接
对于密集检索(E5/BGE)：使用VPRF策略聚合重写查询的嵌入

2. 效用导向训练流程（三阶段）

Stage 1: 检索增强的拒绝采样

目标：筛选出能最大化检索效用的高质量重写样本

步骤：

对每个查询生成M个候选重写：

{q'_1, q'_2, ..., q'_M} ~ LLM_θ(I, q, D^(k)_q)

评估每个候选的效用函数：

U(q'_j) = NDCG@10(D^(k)_{q'_j}) - NDCG@10(D^(k)_q)

选择效用最高的重写：
```
q* = argmax_{q'_j} U(q'_j)
```

数据构建：

从MS-MARCO采样200k实例
分别基于BM25和E5进行拒绝采样
选择top 30k改进最大的实例构建训练集D_SFT

Stage 2: 冷启动监督微调(SFT)

目标：为模型提供明确的高质量重写示例

损失函数：

L_SFT(θ) = -Σ^|y|_{i=1} log p_θ(y_i | x, y_{<i})

其中：

输入 x = (I; q; D^(k)_q)
输出 y = q* (拒绝采样选出的最优重写)

训练设置：

2个epoch
学习率：1e-6
批次大小：8 × 8 (per-device × gradient accumulation)

Stage 3: 强化学习(RL with GRPO)

目标：直接优化检索效用，增强对噪声反馈的鲁棒性

采用**Generalized Reweighted Policy Optimization (GRPO)**算法：

多视角奖励函数：

r_i = NDCG@10(D^(k)_{y_i}) + λ · Recall@100(D^(k)_{y_i})

平衡top排名性能和整体召回

优势函数归一化：

A_i = (r_i - mean({r_1, ..., r_{|G|})) / std({r_1, ..., r_{|G|}})

GRPO损失函数：

L_GRPO(θ) = -1/|G| Σ^|G|_{i=1} 1/|y_i| Σ^|y_i|_{t=1} 
             min(r_{i,t}(θ)A_i, clip(r_{i,t}(θ), 1-ε, 1+ε)A_i)
             - β·D_KL[π_θ || π_ref]

训练设置：

1个epoch
学习率：1e-6
组大小|G|：8
采样温度：1.0
KL正则化系数β：1e-3

技术创新点

双假设松弛：
- 消除模型假设：通过自然语言重写，不绑定特定嵌入空间
- 松弛相关性假设：通过效用导向训练，学习从噪声反馈中提取有用信号
检索-生成协同：
- 利用检索文档减少LLM幻觉（相比纯GRF）
- 通过生成式重写克服表示空间限制（相比PRF/VPRF）
端到端效用优化：
- 直接以下游检索性能为优化目标
- 通过RL将模型行为与实际任务目标对齐
统一Prompt设计：
- 单一Prompt适用所有任务和数据集
- 无需针对不同领域进行Prompt工程

实验设置

数据集

训练数据：

MS-MARCO Passage Retrieval：大规模查询-文档对数据集
- SFT阶段：30k高质量样本（从200k中筛选）
- RL阶段：200k样本

域内评估：

MS-MARCO dev set (MS dev)
TREC Deep Learning 2019 (DL19)
TREC Deep Learning 2020 (DL20)

域外评估（BEIR benchmark）：

ArguAna：辩论文本
DBPedia：维基百科实体
FiQA-2018：金融问答
SCIDOCS：科学文献
SciFact：科学事实验证
TREC-COVID：COVID-19文献

评价指标

NDCG@10 (Normalized Discounted Cumulative Gain)
- 强调top排名的相关性
- 衡量精确度导向性能
Recall@100 (R@100)
- 衡量系统覆盖相关文档的能力
- 反映召回能力

对比方法

直接检索基线：

不进行查询重写的原始检索器

PRF方法：

RM3：经典词汇反馈方法（用于BM25）
VPRF：向量伪相关反馈（用于密集检索）

GRF方法（零样本）：

HyDE：生成假设性答案段落作为伪文档
CoT：使用思维链提供伪答案的推理过程
LameR：检索-回答-检索流程

实现细节

检索器：

BM25：经典稀疏检索
E5-base-v2：域内密集检索器（训练时使用）
BGE-base-en-v1.5：域外密集检索器（训练时未使用，测试泛化性）

LLM骨干模型：

Llama-3.2-3B-Instruct
Qwen2.5-3B-Instruct

硬件：

4 × NVIDIA A100-SXM4-40GB

评估配置：

温度：0（确定性解码）
反馈文档数k：10
每查询采样数M：10

MS dev上NDCG@10：从0.2284提升到0.3208（+40.5%）
DL20上NDCG@10：从0.4796提升到0.6707（+39.8%）
显著优于RM3和所有GRF基线（HyDE、CoT、LameR）

E5密集检索器：

MS dev上NDCG@10：从0.4179提升到0.4283（+2.5%）
DL20上NDCG@10：从0.7039提升到0.7585（+7.8%）
在所有设置下达到最佳或次佳性能

BGE密集检索器（训练时未见）：

MS dev上NDCG@10：从0.4134提升到0.4262（+3.1%）
DL20上NDCG@10：从0.7052提升到0.7613（+8.0%）
证明了跨模型泛化能力

统计显著性：

使用双尾配对t检验（p < 0.05）
GPRF在大多数指标上显著优于最佳基线

域外性能（表3，使用Llama）

平均性能（6个数据集）：

BM25: NDCG@10从0.3794提升到0.4417（+16.4%）
E5: NDCG@10从0.4583提升到0.4832（+5.4%）
BGE: NDCG@10从0.5007提升到0.5089（+1.6%）

关键发现：

GPRF在所有6个域外数据集上均达到最佳整体性能
传统RM3在分布偏移场景下常失效（甚至负增益）
GRF方法性能不稳定，GPRF表现最一致
单一Prompt适用所有数据集，无需针对性调整

消融实验

训练阶段影响分析（表4）：

方法	MS dev NDCG@10	DL19 NDCG@10	DL20 NDCG@10
Vanilla (无训练)	0.2360	0.6182	0.5751
SFT-only	0.2511	0.6280	0.5890
RL-only	0.3061	0.6598	0.6480
GPRF (SFT+RL)	0.3208	0.6917	0.6707

关键洞察：

SFT提供基础能力：相比vanilla有适度提升
RL贡献最大：直接优化检索效用带来显著增益
组合效果最佳：SFT提供稳定初始化，RL进一步优化

对E5和BGE观察到类似趋势，验证了训练流程的必要性和有效性。

案例分析

查询："definition of dignity for kids"

真实相关文档（初始检索未找到）：

"Full Definition of DIGNITY. 1. : the quality or state of being worthy, honored, or esteemed..."

反馈文档（包含噪声）：

"The author errors in only looking at one definition of respect... Respect for a person as merely being a human being is dignity..."

Vanilla模型输出：

"Definition of dignity, particularly for kids, and exploring different types of respect and their relevance to being a human being..."

被反馈文档误导，过度关注"respect"概念

GPRF输出：

"Definition of dignity for kids: Dignity is the quality or state of being worthy, honored, or esteemed"

成功过滤噪声，聚焦核心语义"dignity"的定义
整合内部知识和有用信号

跨模型实验（RQ3）

实验设计（图5）：

反馈检索器：BM25, E5, BGE
最终检索器：BM25, E5, BGE
交叉组合测试

DL19和DL20结果：

跨模型性能稳定：使用不同反馈检索器时性能下降很小
BGE泛化：虽然训练时未使用BGE的检索结果或奖励，但在BGE上表现优异
反馈来源影响小：相比检索器本身能力，反馈来源的影响相对较小

结论：

GPRF生成的重写不绑定特定嵌入空间
实现了真正的模型无关性
验证了消除模型假设的有效性

实验发现总结

一致的性能提升：在所有检索器、数据集和指标上均优于基线
强域外泛化：单一Prompt在6个不同领域数据集上表现优异
鲁棒的噪声处理：在低质量反馈场景下仍保持显著增益
跨模型可迁移：对未见过的检索器(BGE)和不同反馈源保持有效
训练流程关键：RL阶段对最终性能贡献最大，SFT提供稳定基础

结论与讨论

主要结论

假设松弛框架：GPRF成功松弛了PRF/GRF的两大假设
- 通过自然语言重写消除模型假设
- 通过效用导向训练松弛相关性假设
效用导向训练有效：三阶段训练流程显著提升模型对噪声反馈的鲁棒性
广泛适用性：在域内和域外、稀疏和密集检索器上均表现优异
实用性强：单一Prompt设计，无需复杂的Prompt工程

局限性

计算成本：
- 需要LLM推理，相比传统PRF/VPRF计算开销更大
- 训练需要大量采样和检索评估
训练数据依赖：
- 需要足够的训练数据构建高质量监督信号
- 拒绝采样阶段需要多次检索评估
模型规模限制：
- 实验使用3B参数模型，更大模型的效果未充分探索
- 平衡性能和效率的trade-off
反馈文档数量：
- 固定使用k=10个反馈文档
- 最优k值可能因任务和检索器而异
单模态限制：
- 当前仅处理文本查询和文档
- 未扩展到多模态场景

未来方向

多模态扩展：
- 将GPRF扩展到图像-文本、视频检索等场景
- 探索跨模态查询重写
交互式检索：
- 结合用户反馈进行迭代重写
- 个性化查询重写
更高效的训练：
- 探索更有效的采样策略减少计算成本
- 研究知识蒸馏等技术压缩模型
理论分析：
- 提供GPRF有效性的理论保证
- 分析假设松弛的理论边界
Few-shot和CoT集成：
- 结合few-shot learning提升少样本场景性能
- 探索CoT与GPRF的协同效果
自适应反馈选择：
- 动态选择反馈文档数量和质量阈值
- 学习识别和过滤低质量反馈

深度评价

优点

1. 问题定位准确：

清晰识别现有方法的两大核心假设
系统性分析PRF和GRF的局限性
问题抽象具有理论高度

2. 方法设计合理：

自然语言重写实现模型无关性，设计优雅
三阶段训练流程层次清晰，各有侧重
拒绝采样→SFT→RL的渐进式训练符合直觉

3. 实验设计全面：

覆盖3种检索器类型（稀疏+2种密集）
包含域内和6个域外数据集
消融实验、案例分析、跨模型实验完整
统计显著性检验增强结果可信度

4. 技术创新显著：

首次将GRPO应用于查询重写
多视角奖励函数设计合理（NDCG+Recall）
统一Prompt设计简化部署

5. 结果令人信服：

在所有设置下一致优于强基线
域内提升幅度大（BM25上+40%）
域外泛化能力强
跨模型迁移性优异

6. 写作清晰：

结构组织合理，逻辑严密
图表设计有效（图1对比直观，图3分桶分析清晰）
数学公式表述准确

不足

1. 效率分析不足：

未报告推理时间和训练时间
与基线方法的计算成本对比缺失
实际部署的可行性分析不够

2. 超参数敏感性：

反馈文档数k固定为10，缺少消融
RL阶段的λ(Recall权重)、β(KL系数)等超参数调优过程未详述
采样数M=10的选择依据不明

3. 失败案例分析缺失：

仅展示一个成功案例
未分析GPRF在哪些情况下失效
对错误模式的理解不足

4. 理论支撑薄弱：

缺乏为什么GPRF能松弛假设的理论分析
训练流程的收敛性保证未讨论
噪声鲁棒性的理论界限未给出

5. 更大模型的探索不足：

仅测试3B参数模型
7B、13B等更大模型的效果未知
模型规模与性能的scaling law未研究

6. 多样性分析缺失：

M=10个采样结果的多样性如何？
是否存在模式崩溃？
多样性对最终性能的影响未量化

7. 对抗性评估不足：

未测试在极端噪声场景（如所有反馈文档均无关）下的表现
对恶意反馈的鲁棒性未验证

影响力

1. 学术贡献：

高影响力：为查询重写领域提供新范式
假设松弛的视角具有启发性，可能影响其他IR任务
效用导向训练流程可迁移到相关任务

2. 实用价值：

中等偏高：显著的性能提升具有实际应用价值
统一Prompt降低部署门槛
但计算成本可能限制大规模应用

3. 可复现性：

较好：实现细节描述详细
超参数设置明确
但未提及代码开源计划（可能影响复现）

4. 后续研究价值：

多模态扩展方向明确
与其他技术（few-shot, CoT）的结合空间大
理论分析有待深入

适用场景

1. 高度适用：

企业搜索引擎：需要跨不同检索后端的统一重写方案
学术搜索：域外泛化能力强，适合专业领域
问答系统：需要精确理解用户意图的场景

2. 适度适用：

实时搜索：需要权衡延迟和效果
移动端应用：计算资源受限，可能需要模型压缩

3. 不太适用：

极低延迟场景：LLM推理开销可能过大
极小规模数据集：训练数据不足时效果可能受限
简单查询场景：对于已经很精确的查询，重写收益有限

4. 技术要求：

需要LLM推理能力（API或本地部署）
需要检索系统支持多次查询
需要一定规模的训练数据（如果要微调）

综合评价

GPRF是一篇高质量的研究工作，在查询重写领域做出了实质性贡献：

核心优势：

问题定位准确，提出的"假设松弛"视角具有理论深度
方法设计优雅，自然语言重写+效用导向训练的组合有效
实验验证全面，在多个维度证明了方法的有效性和泛化性

主要价值：

为查询重写提供了新的研究范式
证明了LLM在IR任务中通过适当训练可以克服幻觉和噪声问题
跨模型迁移能力为实际部署提供了灵活性

改进空间：

效率和可扩展性分析需要加强
理论分析可以更深入
失败案例和边界条件的探讨不足

总体而言，这是一篇值得发表在顶级会议的工作，对信息检索和LLM应用领域都有重要参考价值。建议关注后续工作在效率优化和理论分析方面的进展。

参考文献

论文引用了45篇参考文献，涵盖以下主要领域：

经典IR方法：

1 Abdul-Jaleel et al., 2004: RM3相关性模型
24 Robertson & Zaragoza, 2009: BM25算法
25 Rocchio, 1971: 相关性反馈

密集检索：

16 Karpukhin et al., 2020: DPR
38 Wang et al., 2022: E5模型
41 Xiao et al., 2024: BGE模型

LLM相关：

2 Achiam et al., 2023: GPT-4
4 Bai et al., 2023: Qwen
8 Dubey et al., 2024: Llama 3

查询重写：

10 Gao et al., 2023: HyDE
27 Shen et al., 2023: LameR
39 Wang et al., 2023: Query2Doc

强化学习：

11 Guo et al., 2025: DeepSeek-R1与GRPO
26 Shao et al., 2024: DeepSeekMath

这些文献构成了GPRF工作的坚实理论和技术基础。