2025-11-26T19:55:18.852187

Revisiting Feedback Models for HyDE

Jedidi, Lin
Recent approaches that leverage large language models (LLMs) for pseudo-relevance feedback (PRF) have generally not utilized well-established feedback models like Rocchio and RM3 when expanding queries for sparse retrievers like BM25. Instead, they often opt for a simple string concatenation of the query and LLM-generated expansion content. But is this optimal? To answer this question, we revisit and systematically evaluate traditional feedback models in the context of HyDE, a popular method that enriches query representations with LLM-generated hypothetical answer documents. Our experiments show that HyDE's effectiveness can be substantially improved when leveraging feedback algorithms such as Rocchio to extract and weight expansion terms, providing a simple way to further enhance the accuracy of LLM-based PRF methods.
academic

Revisiting Feedback Models for HyDE

基本信息

摘要

近期利用大语言模型(LLMs)进行伪相关反馈(PRF)的方法通常没有采用成熟的反馈模型(如Rocchio和RM3)来为稀疏检索器(如BM25)扩展查询,而是简单地将查询与LLM生成的扩展内容进行字符串拼接。本文系统性地重新审视传统反馈模型在HyDE(一种使用LLM生成假设答案文档来丰富查询表示的流行方法)中的应用。实验表明,通过利用Rocchio等反馈算法来提取和加权扩展词项,HyDE的有效性可以得到显著提升,为增强基于LLM的PRF方法提供了一种简单而有效的途径。

研究背景与动机

问题定义

本文要解决的核心问题是:当前基于LLM的查询扩展方法(如HyDE)在更新BM25查询表示时,是否充分利用了传统信息检索中成熟的反馈模型?

问题重要性

  1. HyDE的局限性:HyDE虽然有效地利用LLM生成假设文档来桥接查询与相关文档间的词汇鸿沟,但在将生成内容整合到BM25检索时采用了简单的字符串拼接策略
  2. 传统方法被忽视:信息检索领域在伪相关反馈方面有数十年的研究积累,包括Rocchio和RM3等经过充分验证的反馈模型,但这些方法在LLM时代被边缘化
  3. 优化空间未探索:尽管反馈源(从检索文档变为LLM生成文档)发生了变化,但反馈机制本身是否需要改变尚未得到系统研究

现有方法的局限

  1. 简单拼接策略:Query2Doc、MuGI等方法直接将查询与LLM生成文本拼接,缺乏对扩展词项的筛选和加权
  2. 忽略两阶段框架:传统PRF包含两个关键阶段——词项选择和权重分配,而当前LLM方法跳过了这些步骤
  3. 缺乏系统对比:现有研究主要关注如何改进LLM生成的扩展内容,而较少关注如何更好地利用这些内容

研究动机

作者发现传统PRF与LLM反馈方法的核心差异仅在于反馈源,但查询更新机制却截然不同。这促使作者提出假设:传统反馈模型可能同样适用于LLM生成的反馈内容,并可能带来性能提升

核心贡献

  1. 首次系统性评估:在LLM生成反馈的背景下,首次全面比较传统反馈模型(Rocchio、RM3)与现代字符串拼接方法的有效性
  2. 证明传统方法的价值:实验表明,将Rocchio等传统反馈算法应用于HyDE可以显著提升检索效果,平均提升1.4分(4.2%),在低资源任务上提升2.2分(6%)
  3. 提供实用改进方案:为HyDE提供了一种简单但有效的改进方法,无需修改LLM生成过程,只需改变反馈整合机制
  4. 开源实现:公开了完整的代码实现,便于社区复现和进一步研究

方法详解

任务定义

输入:用户查询 qq
输出:更新后的查询表示 qnewq_{new},用于BM25检索
目标:通过整合LLM生成的假设答案文档来改进查询表示,提升检索召回率

HyDE基础流程

  1. 给定查询 qq,提示LLM生成假设答案文档
  2. 采样 nn 个变体:d={d1,...,dn}d = \{d_1, ..., d_n\}
  3. 利用这些假设文档更新查询表示
  4. 使用更新后的查询进行BM25检索

反馈模型框架

本文提出的框架包含两个核心阶段:

阶段1:词项选择(Section 2.1)

  1. 生成词频向量:为每个假设文档 did_i 生成归一化词频向量 f(di)f(d_i)
  2. 过滤常见词:移除在超过10%语料库文档中出现的高频词
  3. 排序与截断
    • 按归一化词频之和对候选扩展词排序
    • 保留top-kk个词项(本文设置k=128k=128

阶段2:词项加权(Section 2.2-2.3)

方法1:平均向量(Average Vector) 这是HyDE原始方法在词袋空间的改编:

wt,qnew=1n+1didHyDEf(di)[t]w_{t,q_{new}} = \frac{1}{n+1} \sum_{d_i \in d_{HyDE}} f(d_i)[t]

其中 dHyDE={q,d1,...,dn}d_{HyDE} = \{q, d_1, ..., d_n\}(将查询视为额外的反馈文档)

特点

  • 对查询和反馈文档等权重平均
  • 相当于带词项选择的字符串拼接

方法2:Rocchio算法 经典的向量空间反馈模型,引入参数控制查询和反馈文档的相对权重:

wt,qnew=αf(q)[t]+βndidf(di)[t]w_{t,q_{new}} = \alpha \cdot f(q)[t] + \frac{\beta}{n} \sum_{d_i \in d} f(d_i)[t]

参数设置

  • α=1.0\alpha = 1.0:查询权重
  • β=0.75\beta = 0.75:反馈文档权重
  • 允许对查询词和扩展词进行差异化加权

方法3:RM3(Relevance Model 3) 基于语言模型的反馈方法,估计词项在相关文档中的观察概率:

wt,qnew=λP(tq)+(1λ)didP(tdi)w_{t,q_{new}} = \lambda P(t|q) + (1-\lambda) \sum_{d_i \in d} P(t|d_i)

参数设置

  • λ=0.5\lambda = 0.5:查询-反馈插值权重
  • 基于概率框架而非向量空间

对比基线方法

字符串拼接方法

  1. Naive Concatqnew=Concat(q,d)q_{new} = \text{Concat}(q, d)
    • 直接拼接,无任何处理
  2. Query2Docqnew=Concat(q×5,d1)q_{new} = \text{Concat}(q \times 5, d_1)
    • 重复查询5次 + 单个假设文档(128 tokens)
    • 总扩展词数约128个
  3. MuGI:自适应查询重复 r=i=1nlen(di)len(q)ϕr = \frac{\sum_{i=1}^n \text{len}(d_i)}{\text{len}(q) \cdot \phi}qnew=Concat(q×r,d)q_{new} = \text{Concat}(q \times r, d)
    • ϕ=5\phi = 5:控制参数
    • 根据文档长度动态调整查询重复次数

技术创新点

  1. 统一框架:将传统PRF和LLM反馈方法置于同一框架下比较,揭示了两者在机制上的差异
  2. 词项选择的价值:通过对比有/无词项选择的方法,量化了噪声过滤的贡献
  3. 参数化权重控制:Rocchio的 α\alphaβ\beta 参数提供了比字符串重复更稳定的权重控制机制
  4. 跨反馈源评估:同时评估了传统BM25文档反馈和LLM生成文档反馈,证明了LLM反馈的优越性

实验设置

数据集

MS MARCO数据集(5个Web搜索任务):

  • MS MARCO v1: TREC DL19, TREC DL20
  • MS MARCO v2: TREC DL21, TREC DL22, TREC DL23

BEIR数据集(9个低资源检索任务):

  • 生物医学IR: TREC-Covid, NFCorpus
  • 新闻检索: TREC-News, Robust04
  • 金融问答: FiQA
  • 实体检索: DBPedia
  • 事实核查: SciFact
  • 引用预测: SciDocs
  • 论证检索: ArguAna

数据集特点

  • MS MARCO:资源丰富,查询相对同质
  • BEIR:零样本评估,查询多样性高,领域跨度大

评价指标

Recall@20:前20个检索结果中包含相关文档的比例

  • 适用于评估第一阶段检索器的召回能力
  • 关注能否检索到相关文档,而非排序质量

对比方法

无扩展基线

  • BM25(无查询扩展)

传统PRF(使用BM25检索文档):

  • BM25 + Average Vector
  • BM25 + RM3
  • BM25 + Rocchio

LLM反馈方法(使用HyDE生成文档):

  • Query2Doc
  • HyDE + Naive Concat
  • HyDE + MuGI Concat
  • HyDE + Average Vector
  • HyDE + RM3
  • HyDE + Rocchio

实现细节

LLM配置

  • 模型:Qwen2.5-7B-Instruct, Qwen3-14B, gpt-oss-20b
  • 采样数量n=8n=8 个假设文档
  • 文档长度:最多512 tokens
  • 推理框架:vLLM

反馈模型参数

  • Rocchio: α=1.0\alpha=1.0, β=0.75\beta=0.75
  • RM3: λ=0.5\lambda=0.5
  • 词项数量: k=128k=128(与Query2Doc对齐)
  • 反馈文档数:8个(匹配HyDE采样数)

检索系统

  • 实现:Pyserini(基于Lucene)
  • BM25参数:默认设置
  • 索引统计:通过IndexReader API获取
  • 自定义查询:使用QueryBuilder API设置词项权重

实验结果

主要结果(Table 1)

整体性能对比

最佳方法:HyDE + Rocchio在所有LLM上均表现最优

  • Qwen2.5-7B: 平均Recall@20 = 34.0(全部数据集)
  • Qwen3-14B: 平均Recall@20 = 34.7
  • gpt-oss-20b: 平均Recall@20 = 34.7

相比最强字符串拼接基线(MuGI)的提升

  • Qwen2.5-7B: +1.1分(3.3%提升)
  • Qwen3-14B: +1.3分(3.9%提升)
  • gpt-oss-20b: +1.4分(4.2%提升)

MS MARCO vs BEIR的差异表现

MS MARCO数据集

  • 字符串拼接方法(MuGI、Query2Doc)竞争力强
  • 例如gpt-oss-20b上,MuGI在所有5个MS MARCO数据集上均优于RM3

BEIR数据集(低资源任务):

  • 反馈模型显著优于字符串拼接
  • gpt-oss-20b + RM3:
    • 在全部9个BEIR数据集上优于Query2Doc
    • 在8/9数据集上优于MuGI Concat
  • 平均提升(Rocchio vs MuGI):
    • Qwen2.5-7B: BEIR平均 +1.9分
    • Qwen3-14B: BEIR平均 +1.9分
    • gpt-oss-20b: BEIR平均 +2.2分

典型案例

  • SciFact(科学事实核查):
    • gpt-oss-20b + Rocchio: 91.9
    • gpt-oss-20b + MuGI: 90.6
  • ArguAna(论证检索):
    • Qwen3-14B + Rocchio: 83.8
    • Qwen3-14B + MuGI: 76.4(+7.4分)

消融实验与关键发现

发现1:LLM反馈优于传统文档反馈

控制反馈模型,比较反馈源

以gpt-oss-20b为例(全数据集平均):

  • Average Vector: HyDE文档(32.5) vs BM25文档(29.7) → +2.8分
  • RM3: HyDE文档(33.2) vs BM25文档(30.7) → +2.5分
  • Rocchio: HyDE文档(34.7) vs BM25文档(30.4) → +4.3分

结论:在相同反馈机制下,LLM生成的假设文档作为反馈源比检索文档更有效

有趣观察

  • RM3在BM25文档上优于Rocchio(30.7 vs 30.4)
  • 但在HyDE文档上Rocchio更优(34.7 vs 33.2)
  • 说明反馈源的性质影响最优反馈模型的选择

发现2:词项选择的关键作用

对比Average Vector vs Naive Concat

  • 两者唯一区别:是否进行词项选择和过滤

性能差距(全数据集平均):

  • Qwen2.5-7B: 32.2 vs 29.3 → +3.0分(10.2%)
  • Qwen3-14B: 32.5 vs 30.2 → +2.3分(7.6%)
  • gpt-oss-20b: 32.5 vs 29.5 → +3.1分(10.5%)

BEIR数据集上更明显

  • Qwen2.5-7B BEIR: 36.6 vs 33.3 → +3.3分

结论:过滤噪声词项(如高频词)对提升HyDE效果至关重要

发现3:Rocchio的权重控制优势

Rocchio vs Average Vector

  • 核心差异:Rocchio通过 α\alphaβ\beta 参数给予查询词更高权重
  • Average Vector对所有文档(包括查询)等权重

性能对比(全数据集平均):

  • Qwen2.5-7B: 34.0 vs 32.2 → +1.8分
  • Qwen3-14B: 34.7 vs 32.5 → +2.2分
  • gpt-oss-20b: 34.7 vs 32.5 → +2.2分

解释

  • HyDE的等权重平均低估了原始查询词的重要性
  • Rocchio的参数化权重(α=1.0,β=0.75\alpha=1.0, \beta=0.75)提供了更好的平衡
  • 相比MuGI的自适应重复,Rocchio的线性参数控制更稳定

发现4:方法鲁棒性差异

传统PRF(无LLM)在BEIR上的竞争力

  • BM25 + Rocchio (30.4) vs Query2Doc (32.7)
  • BM25 + Rocchio在BEIR平均(36.2) vs Query2Doc BEIR平均(36.7)

说明

  • 反馈模型本身在多样化查询上更鲁棒
  • 即使不使用LLM,Rocchio也能在低资源任务上接近LLM方法
  • 结合LLM和反馈模型可获得最佳效果

跨LLM的一致性

所有LLM上的趋势一致

  1. Rocchio始终最优
  2. 词项选择带来显著提升
  3. BEIR上反馈模型优势更明显

LLM质量的影响

  • 更强的LLM(Qwen3-14B)带来更好的绝对性能
  • 但反馈模型的相对优势在不同LLM上保持稳定

相关工作

传统伪相关反馈

  1. Rocchio算法14:向量空间模型中的经典反馈方法,通过调整查询向量靠近相关文档
  2. Relevance Model (RM3)1, 12:基于语言模型的反馈,估计相关文档的词分布
  3. 反馈词选择3:研究如何从反馈文档中选择高质量扩展词

LLM查询扩展

  1. HyDE9:使用LLM生成假设答案文档进行零样本密集检索
  2. Query2Doc16:生成单个假设文档并重复查询5次
  3. MuGI20:探索LLM查询扩展的最佳实践,提出自适应查询重复

本文与相关工作的关系

  • 继承HyDE思想:利用LLM生成假设文档作为反馈源
  • 桥接传统与现代:将Rocchio、RM3等传统方法引入LLM反馈场景
  • 系统性评估缺失:首次全面比较传统反馈模型与字符串拼接方法

结论与讨论

主要结论

  1. 传统反馈模型仍然有效:Rocchio和RM3等经典方法在LLM时代依然适用且强大
  2. 性能提升显著
    • 平均提升1.4分(4.2%)相比最强字符串拼接基线
    • 低资源任务提升2.2分(6%)
  3. 两个改进来源
    • 词项过滤:移除噪声词(高频词、低权重词)
    • 权重控制:通过参数(而非字符串重复)稳定控制查询-反馈权重
  4. 鲁棒性优势:反馈模型在查询多样化的BEIR数据集上表现更稳定

局限性

  1. 参数敏感性未充分探索
    • 使用文献中的默认参数(α=1.0,β=0.75,λ=0.5\alpha=1.0, \beta=0.75, \lambda=0.5
    • 未系统研究参数调优的潜力
    • 不同数据集可能需要不同参数
  2. 计算成本分析缺失
    • 反馈模型需要索引统计和词项过滤
    • 与简单字符串拼接相比的额外开销未量化
  3. LLM选择有限
    • 仅测试3个LLM(Qwen系列和gpt-oss)
    • 未覆盖GPT-4、Claude等闭源模型
  4. 密集检索未涉及
    • 实验仅关注BM25稀疏检索
    • 对密集检索器(如ColBERT)的适用性未知
  5. 交互效应未探索
    • 反馈模型与LLM提示策略的交互
    • 不同采样数量(nn)的影响

未来方向

  1. 自适应参数调整
    • 借鉴MuGI的自适应思想,动态调整Rocchio的 α\alphaβ\beta
    • 基于查询难度或文档质量自动选择参数
  2. 混合反馈源
    • 结合LLM生成文档和检索文档
    • 探索两种反馈源的互补性
  3. 扩展到密集检索
    • 研究反馈模型在密集向量空间的应用
    • 设计适合Transformer编码器的反馈机制
  4. 端到端优化
    • 联合优化LLM生成和反馈整合
    • 通过强化学习训练反馈参数
  5. 多轮反馈
    • 迭代应用反馈模型
    • 研究收敛性和稳定性

深度评价

优点

  1. 问题定位精准
    • 识别了LLM查询扩展研究中被忽视的关键环节(反馈整合机制)
    • 提出的问题简单但重要:"字符串拼接是否最优?"
  2. 方法论严谨
    • 控制变量设计合理(相同反馈源比较不同模型,相同模型比较不同反馈源)
    • 跨多个LLM验证结论的一致性
    • 覆盖14个数据集,包括高资源和低资源场景
  3. 实验充分且有洞察
    • 不仅报告整体结果,还分析MS MARCO和BEIR的差异
    • 通过Average Vector vs Naive Concat量化词项选择的贡献
    • 对比传统PRF和LLM反馈揭示了反馈源的重要性
  4. 实用价值高
    • 改进方法简单易实现(无需修改LLM)
    • 开源代码促进可复现性
    • 提供了即插即用的性能提升方案
  5. 写作清晰
    • 逻辑结构清晰(问题→方法→实验→结论)
    • 技术细节描述准确
    • 表格设计合理,便于比较

不足

  1. 理论分析不足
    • 缺乏对"为什么Rocchio在HyDE上更有效"的深入理论解释
    • 未从词分布、信息论等角度分析机制
    • 对参数选择(如α=1.0,β=0.75\alpha=1.0, \beta=0.75)缺乏理论指导
  2. 参数敏感性研究缺失
    • 仅使用文献默认参数,未进行参数扫描
    • 不清楚结论对参数变化的鲁棒性
    • 未探索不同数据集的最优参数配置
  3. 计算成本未讨论
    • 反馈模型需要访问索引统计(IDF等)
    • 词项过滤和权重计算的时间开销未量化
    • 与简单拼接的效率对比缺失
  4. 案例分析不足
    • 未展示具体查询的扩展词示例
    • 缺乏对"哪些词被保留/过滤"的定性分析
    • 难以直观理解反馈模型的实际作用
  5. 适用范围有限
    • 仅评估BM25稀疏检索
    • 对神经检索器(如ColBERT、ANCE)的适用性未知
    • 未考虑多语言或跨语言场景
  6. 统计显著性检验缺失
    • 未报告置信区间或p值
    • 不清楚观察到的提升是否具有统计显著性

影响力

对领域的贡献

  1. 重新激活经典方法:提醒社区不要忽视传统IR技术
  2. 建立评估基准:为未来LLM查询扩展研究提供了对比基线
  3. 启发混合方法:鼓励结合传统和现代技术

实用价值

  1. 即时可用:现有HyDE用户可直接应用Rocchio改进
  2. 成本效益高:无需重新训练LLM即可获得提升
  3. 工业适用性:BM25在工业界广泛使用,本方法易于部署

可复现性

  1. ✅ 开源代码
  2. ✅ 使用公开数据集
  3. ✅ 详细的超参数说明
  4. ✅ 基于成熟工具(Pyserini、vLLM)

潜在引用价值

  • 预计成为LLM查询扩展研究的重要参考
  • 为评估新方法提供了强基线
  • 可能启发更多传统-现代混合方法

适用场景

推荐使用场景

  1. 低资源检索任务:BEIR类型的多样化查询场景
  2. BM25稀疏检索:第一阶段检索或混合检索系统
  3. 计算资源受限:相比训练神经检索器,反馈模型开销小
  4. 需要可解释性:词项权重可视化和调试

不适用场景

  1. 密集检索系统:需要进一步研究适配方法
  2. 实时检索:索引统计访问可能增加延迟
  3. 极短查询:查询词太少时反馈权重难以平衡
  4. 需要端到端优化:反馈模型参数与LLM未联合训练

实施建议

  1. 优先尝试Rocchio(α=1.0,β=0.75\alpha=1.0, \beta=0.75
  2. 根据任务特点调整参数(查询重要性高时增大α\alpha
  3. 结合词项选择(过滤高频词,保留top-128词)
  4. 监控不同数据集上的性能,必要时调参

参考文献(关键文献)

1 Abdul-Jaleel et al., 2004. UMass at TREC 2004: Novelty and HARD

  • 提出RM3反馈模型

9 Gao et al., 2023. Precise Zero-Shot Dense Retrieval without Relevance Labels (ACL)

  • 原始HyDE方法

14 Rocchio, 1971. Relevance Feedback in Information Retrieval

  • Rocchio算法的经典文献

16 Wang et al., 2023. Query2doc: Query Expansion with Large Language Models (EMNLP)

  • LLM查询扩展的代表性工作

20 Zhang et al., 2024. Exploring the Best Practices of Query Expansion with Large Language Models (EMNLP)

  • MuGI方法,探索LLM查询扩展的最佳实践

总结

本文是一篇问题导向明确、方法简洁有效、实验充分严谨的优质IR研究。作者敏锐地发现了LLM查询扩展研究中的一个被忽视但重要的问题,通过系统性实验证明了传统反馈模型的持续价值。论文的主要启示是:技术进步不应以抛弃经典方法为代价,传统与现代技术的结合往往能产生更优解

虽然论文在理论深度和参数优化方面有提升空间,但其实用性强、可复现性好,预计将对LLM时代的信息检索研究产生积极影响。对于从业者而言,这是一个低成本、高回报的改进方案;对于研究者而言,这是一个值得深入探索的新方向。