2025-11-12T19:43:10.253640

Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation

Peng, Kumar, Wu et al.

Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.

academic

Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation

基本信息

论文ID: 2510.14915
标题: Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
作者: Xujun Peng, Anoop Kumar, Jingyu Wu, Parker Glenn, Daben Liu (Capital One AI Foundations)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年10月16日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.14915

摘要

检索增强生成(RAG)系统利用大语言模型(LLMs)生成基于检索上下文的准确可靠响应。然而，LLMs在面对语义等价输入时经常产生不一致的输出，这一问题因缺乏一致性导向的训练数据和当前微调技术在增强输出一致性方面的局限性而加剧。本文提出了一种结合系统化合成数据生成、三元组损失和新颖层级模型融合的方法。通过使用从中间层激活中导出的一致性感知权重，该方法有效整合了专门化模型的知识。实验结果表明，融合模型显著提升了输出一致性，在响应相似性上相比基线实现了47.5%的改进。

研究背景与动机

问题定义

本研究解决的核心问题是RAG系统中生成模型的输出一致性问题。具体表现为：

语义等价查询产生不同响应：如图1所示，仅仅是问号的存在与否就能导致RAG系统给出截然不同的答案
工业部署中的实际挑战：在生产环境中，用户查询的多样化变体对系统可靠性构成威胁

问题重要性

可靠性需求：在金融、医疗等高风险领域，不一致的响应会严重影响用户信任
实际影响：论文通过实证观察发现，相比检索器，生成器对查询变化更加敏感
系统稳定性：输出不一致性直接影响RAG系统在工业环境中的采用

现有方法局限性

训练数据稀缺：缺乏专门针对一致性的训练数据
微调技术限制：传统微调方法在提升输出一致性方面效果有限
评估基准缺失：缺乏专门的一致性评估基准和数据集

核心贡献

查询变体分类：系统化地识别和分类了导致工业RAG系统响应不一致的查询变体类型
一致性度量体系：建立了包括精确匹配(EM)、响应相似性(RS)和BERT相似性(BS)在内的一致性评估指标
层级模型融合方法：提出了基于一致性感知权重的新颖层级模型融合策略
综合解决方案：整合了合成数据生成、三元组损失训练和模型融合的完整方法论

方法详解

任务定义

给定原始查询Q和其语义等价变体Q'，目标是使RAG系统的生成器对两者产生一致的响应S和S'，即最大化S和S'之间的语义相似性，同时保持响应的准确性。

模型架构

1. 合成数据生成策略

基于对生产查询的分析，识别出三类主要变体：

How to/do变体：

方法性问题的重新表述
使用正则表达式规则系统化生成

单复数/冠词变体：

名词数量变化（如"apple" vs "apples"）
冠词使用变化（如"a", "an", "the"）
随机交换单复数形式和修改冠词

语义变体：

保持核心含义但使用不同词汇的变化
利用Llama-3.1-70B-Instruct进行释义生成

2. 三元组损失训练

引入三元组损失来增强模型的语义表示能力：

L(A,P,N) = max(0, d(f(A), f(P)) - d(f(A), f(N)) + α)

其中：

A为锚点查询
P为正样本（语义相似）
N为负样本（语义不相似）
α为边界参数

最终损失函数结合交叉熵损失和三元组损失：

L = L_CE + α · L_Triplet

3. 层级模型融合算法

核心思想：基于各层对一致性的贡献度动态分配融合权重。

权重计算流程：

激活提取：从开发集S_dev中提取每个模型k的每层l的激活α_k^(l)
相似性矩阵计算：计算激活的相似性矩阵Σ_k^(l)
参考矩阵构建：使用句子编码器构建参考相似性矩阵Σ_r
距离计算：d_k^(l) = |Σ_k^(l) - Σ_r|
权重归一化：通过反向非线性归一化得到最终权重w_k^(l)

融合公式：

θ_merged^(l) = θ_P^(l) + Σ_k w_k^(l) · Δθ_k^(l)

技术创新点

一致性导向的权重设计：首次提出基于层级激活相似性的模型融合权重计算方法
多样化合成数据策略：针对工业场景特点设计的查询变体生成方法
三元组损失集成：将度量学习中的三元组损失引入LLM微调，提升语义表示质量

实验设置

数据集

基础数据：2,738个代表性查询及其检索上下文，由领域专家标注
数据划分：1,421训练样本，1,317测试样本
合成数据：
- 150个"how to/do"变体查询
- 1,421个释义查询
- 952个单复数/冠词变体查询
一致性测试集：1,579个变体（176个"how to/do"，912个释义，491个单复数/冠词变化）

评价指标

准确性指标：

ROUGE-L：文本重叠度量
BLEU（最多4-gram）：词汇对齐度量

一致性指标：

精确匹配(EM)：字符串完全匹配
响应相似性(RS)：基于ROUGE阈值的语义等价判断
BERT相似性(BS)：基于BERT的语义相似度

对比方法

基线模型（Llama-3.1-8B-Instruct, Gemma-3-12B-Instruct）
标准监督微调(SFT)
SFT + 三元组损失
单一变体类型专门化模型
所有数据联合训练模型

实现细节

基础模型：Llama-3.1-8B-Instruct和Gemma-3-12B-Instruct
训练轮数：2个epoch
三元组构建：从语义特征空间的top-10和bottom-10近邻中采样

实验结果

主要结果

Llama-3.1-8B-Instruct模型结果：

方法	ROUGE	BLEU	EM	RS	BS
基线	0.5123	0.2928	0.1051	0.2799	0.9246
融合模型	0.5379	0.3380	0.2521	0.4129	0.9292

关键发现：

一致性显著提升：EM提升139.87%，RS提升47.52%
准确性保持：ROUGE和BLEU保持竞争性水平
最佳平衡：融合模型在所有一致性指标上均达到最优

Gemma-3-12B-Instruct模型结果：

类似的改进趋势，验证了方法的普适性
更大模型在准确性上略有优势，但一致性改进模式一致

消融实验

各组件贡献分析：

三元组损失效果：相比标准SFT，EM提升73.4%，RS提升26.1%
专门化模型优势：单一变体训练的模型在准确性和一致性上均超越基线
融合策略效果：融合模型在一致性指标上超越所有单一模型

实验发现

生成器vs检索器：验证了生成器对查询变化比检索器更敏感的假设
专门化vs通用化：专门化模型在准确性上优于联合训练模型，但联合训练在一致性上更优
模型规模影响：更大的模型不自动保证更好的一致性

结论与讨论

主要结论

问题表征：成功识别并量化了工业RAG系统中的一致性问题
方法有效性：提出的层级融合方法显著提升了输出一致性（47.5%改进）
实用价值：为工业RAG系统提供了切实可行的可靠性提升方案

局限性

数据范围限制：实验主要基于工业数据，缺乏公开基准测试
检索器假设：假设检索器结果稳定，未涉及检索不一致性
模型范围：仅在两个LLM上验证，超参数配置有待进一步探索

未来方向

公开基准构建：计划构建并公开发布一致性评估基准
检索一致性：扩展到检索器不一致性问题
自适应融合：探索动态调整融合策略的方法
跨域验证：在更多公开数据集上验证方法有效性

深度评价

优点

问题针对性强：直接解决工业RAG系统的实际痛点
方法创新性：层级一致性感知权重设计具有新颖性
实验全面性：涵盖多种模型、多个指标的系统性评估
实用价值高：47.5%的一致性提升具有显著的实用意义

不足

理论分析不足：缺乏对为什么层级融合能提升一致性的深层理论解释
计算开销分析缺失：未分析层级权重计算和融合过程的计算复杂度
泛化能力验证有限：主要在特定工业场景下验证，跨域泛化能力待证明
基准数据局限：缺乏在标准公开数据集上的验证

影响力

学术贡献：为LLM一致性研究提供了新的技术路径
工业价值：直接解决RAG系统部署中的关键问题
方法可复现性：算法描述相对清晰，具备可复现性
后续研究启发：为模型融合和一致性优化开辟了新方向

适用场景

高可靠性要求场景：金融、医疗、法律等对一致性要求极高的领域
工业RAG部署：大规模生产环境中的问答系统
多模型集成场景：需要整合多个专门化模型知识的应用
用户体验敏感应用：对响应一致性有严格要求的交互式系统

参考文献

论文引用了多个重要的相关工作，包括：

Lewis et al. (2020): RAG框架的奠基性工作
Yu et al. (2024), Yadav et al. (2023): DARE-TIES模型融合方法
Schroff et al. (2015): 三元组损失的原始工作
Patwardhan et al. (2024): LLM一致性的定义和分析

总体评价：这是一篇针对实际工业问题的高质量应用研究论文，在方法创新和实用价值方面均有显著贡献。虽然在理论深度和泛化验证方面还有提升空间，但其解决的问题具有重要的实际意义，提出的方法具有良好的可操作性和有效性。