Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.
論文ID : 2510.14915タイトル : Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation著者 : Xujun Peng, Anoop Kumar, Jingyu Wu, Parker Glenn, Daben Liu (Capital One AI Foundations)分類 : cs.CL (計算言語学)発表日 : 2025年10月16日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.14915 検索拡張生成(RAG)システムは大規模言語モデル(LLM)を活用して、検索されたコンテキストに基づいた正確で信頼性の高い応答を生成します。しかし、LLMは意味的に等価な入力に対して矛盾した出力を生成することが多く、この問題は一貫性指向の訓練データの不足と、現在のファインチューニング技術が出力一貫性の向上に限定的であることによって悪化しています。本論文は、体系的な合成データ生成、三元損失、および新規な層別モデルマージングを組み合わせた手法を提案します。中間層の活性化から導出された一貫性認識重みを使用することで、この手法は専門化されたモデルの知識を効果的に統合します。実験結果は、マージングされたモデルが出力一貫性を大幅に向上させ、応答相似性において基準に比べて47.5%の改善を達成したことを示しています。
本研究が解決する中核的な問題は、RAGシステムにおける生成モデルの出力一貫性の問題 です。具体的には以下のように表現されます:
意味的に等価なクエリが異なる応答を生成する :図1に示されるように、疑問符の有無だけでもRAGシステムが全く異なる答えを提供する可能性があります産業展開における実際の課題 :本番環境では、ユーザークエリの多様な変形がシステムの信頼性に脅威をもたらします信頼性要件 :金融、医療などの高リスク分野では、矛盾した応答がユーザーの信頼に深刻な影響を与えます実際の影響 :論文は実証的観察を通じて、検索器と比較して生成器がクエリの変化に対してより敏感であることを発見していますシステム安定性 :出力の不一貫性はRAGシステムの産業環境での採用に直接影響します訓練データの不足 :一貫性に特化した訓練データが不足していますファインチューニング技術の制限 :従来のファインチューニング手法は出力一貫性の向上に限定的な効果しか持ちません評価ベンチマークの欠落 :専門の一貫性評価ベンチマークとデータセットが不足していますクエリ変形の分類 :産業用RAGシステムの応答の不一貫性を引き起こすクエリ変形のタイプを体系的に識別・分類一貫性測定体系 :完全一致(EM)、応答相似性(RS)、BERT相似性(BS)を含む一貫性評価指標の確立層別モデルマージング手法 :一貫性認識重みに基づく新規な層別モデルマージング戦略の提案統合的解決策 :合成データ生成、三元損失訓練、モデルマージングを統合した完全な方法論元のクエリQとその意味的に等価な変形Q'が与えられたとき、目標はRAGシステムの生成器が両者に対して一貫した応答SとS'を生成することです。つまり、SとS'間の意味的相似性を最大化しながら、応答の正確性を保つことです。
本番クエリの分析に基づいて、3つの主要な変形タイプを識別しました:
How to/do変形 :
方法的質問の言い換え 正規表現ルールを使用した体系的な生成 単複数/冠詞変形 :
名詞の数の変化(例:"apple" vs "apples") 冠詞の使用変化(例:"a", "an", "the") 単複数形と冠詞をランダムに交換 意味的変形 :
核心的な意味を保ちながら異なる語彙を使用した変化 Llama-3.1-70B-Instructを利用した言い換え生成 意味的表現能力を強化するために三元損失を導入します:
L(A,P,N) = max(0, d(f(A), f(P)) - d(f(A), f(N)) + α)
ここで:
Aはアンカークエリ Pは正のサンプル(意味的に相似) Nは負のサンプル(意味的に非相似) αはマージンパラメータ 最終的な損失関数は交差エントロピー損失と三元損失を結合します:
核心的考え方 :各層が一貫性に貢献する度合いに基づいて、マージング重みを動的に割り当てます。
重み計算フロー :
活性化抽出 :開発セットS_devから各モデルkの各層lの活性化α_k^(l)を抽出相似性行列計算 :活性化の相似性行列Σ_k^(l)を計算参照行列構築 :文エンコーダを使用して参照相似性行列Σ_rを構築距離計算 :d_k^(l) = |Σ_k^(l) - Σ_r|重みの正規化 :逆非線形正規化を通じて最終重みw_k^(l)を取得マージング式 :
θ_merged^(l) = θ_P^(l) + Σ_k w_k^(l) · Δθ_k^(l)
一貫性指向の重み設計 :層別活性化相似性に基づくモデルマージング重み計算手法を初めて提案多様な合成データ戦略 :産業シナリオの特性に合わせて設計されたクエリ変形生成手法三元損失の統合 :メトリック学習の三元損失をLLMファインチューニングに導入し、意味的表現品質を向上基礎データ :領域専門家によって注釈付けされた2,738個の代表的クエリとその検索コンテキストデータ分割 :1,421個の訓練サンプル、1,317個のテストサンプル合成データ :
150個の「how to/do」変形クエリ 1,421個の言い換えクエリ 952個の単複数/冠詞変形クエリ 一貫性テストセット :1,579個の変形(176個の「how to/do」、912個の言い換え、491個の単複数/冠詞変化)正確性指標 :
ROUGE-L:テキスト重複度量 BLEU(最大4-gram):語彙対齢度量 一貫性指標 :
完全一致(EM) :文字列の完全一致応答相似性(RS) :ROUGEしきい値に基づく意味的等価性判定BERT相似性(BS) :BERTに基づく意味的相似度ベースラインモデル(Llama-3.1-8B-Instruct、Gemma-3-12B-Instruct) 標準教師あり微調整(SFT) SFT + 三元損失 単一変形タイプ専門化モデル すべてのデータ結合訓練モデル ベースモデル:Llama-3.1-8B-InstructおよびGemma-3-12B-Instruct 訓練エポック数:2エポック 三元組構築:意味的特徴空間のtop-10およびbottom-10近傍からサンプリング 手法 ROUGE BLEU EM RS BS ベースライン 0.5123 0.2928 0.1051 0.2799 0.9246 マージングモデル 0.5379 0.3380 0.2521 0.4129 0.9292
主要な発見 :
一貫性の大幅な向上 :EMが139.87%向上、RSが47.52%向上正確性の維持 :ROUGEとBLEUは競争的水準を維持最適なバランス :マージングモデルはすべての一貫性指標で最適を達成同様の改善傾向であり、手法の汎用性を検証 より大きなモデルは正確性でわずかな優位性を示しますが、一貫性改善パターンは一貫しています 各コンポーネントの貢献分析 :
三元損失の効果 :標準SFTと比較して、EMが73.4%向上、RSが26.1%向上専門化モデルの利点 :単一変形訓練モデルは正確性と一貫性の両面でベースラインを上回りますマージング戦略の効果 :マージングモデルはすべての単一モデルを一貫性指標で上回ります生成器 vs 検索器 :生成器が検索器よりもクエリ変化に敏感であるという仮説を検証専門化 vs 汎用化 :専門化モデルは正確性で結合訓練モデルを上回りますが、結合訓練は一貫性でより優れていますモデルサイズの影響 :より大きなモデルが自動的により良い一貫性を保証するわけではありません理論的基礎 :Patwardhanらの意味的等価性定義に基づく評価手法 :Rajらの意味的一貫性測定フレームワークを参考自動化評価 :Zhaoらの一貫性評価ツールを参考プロンプトエンジニアリング :Wangらの自己一貫性手法合成データ :Rajらの多段階プロンプトと合成データ手法アンサンブル手法 :Wuらのロジットベースのアンサンブル手法基礎手法 :DARE-TIESマージングアルゴリズム重み平均化 :従来のモデルマージング技術の限界パラメータ空間操作 :絶対重みではなくパラメータ差分上の操作問題の特性化 :産業用RAGシステムの一貫性問題を成功裏に識別・定量化手法の有効性 :提案された層別マージング手法が出力一貫性を大幅に向上(47.5%改善)実用的価値 :産業用RAGシステムに対する実行可能な信頼性向上ソリューションを提供データ範囲の制限 :実験は主に産業データに基づいており、公開ベンチマークテストが不足しています検索器の仮定 :検索器の結果が安定していると仮定し、検索の不一貫性には対応していませんモデル範囲 :2つのLLMでのみ検証され、ハイパーパラメータ構成のさらなる探索が必要です公開ベンチマークの構築 :一貫性評価ベンチマークの構築と公開を計画検索一貫性 :検索器の不一貫性問題への拡張適応的マージング :マージング戦略を動的に調整する手法の探索クロスドメイン検証 :より多くの公開データセット上での手法の有効性検証問題への対応性が強い :産業用RAGシステムの実際の課題を直接解決手法の革新性 :層別一貫性認識重み設計は新規性を持ちます実験の包括性 :複数のモデル、複数の指標を含む体系的評価実用的価値が高い :47.5%の一貫性向上は顕著な実用的意義を持ちます理論的分析の不足 :層別マージングが一貫性を向上させる理由についての深層的理論的説明が不足しています計算コスト分析の欠落 :層別重み計算とマージングプロセスの計算複雑性分析がありません汎化能力検証の限定 :主に特定の産業シナリオでの検証であり、クロスドメイン汎化能力は未証明ですベンチマークデータの限界 :標準公開データセット上での検証が不足しています学術的貢献 :LLM一貫性研究に新しい技術的経路を提供産業的価値 :RAGシステム展開における重要な問題を直接解決手法の再現性 :アルゴリズム記述が比較的明確で再現性を備えています後続研究への示唆 :モデルマージングと一貫性最適化に新しい方向性を開拓高い信頼性要件のシーン :金融、医療、法律など一貫性要件が極めて高い分野産業用RAG展開 :大規模本番環境における質問応答システム複数モデル統合シーン :複数の専門化モデルの知識を統合する必要があるアプリケーションユーザー体験に敏感なアプリケーション :応答一貫性に厳格な要件を持つインタラクティブシステム論文は複数の重要な関連研究を引用しており、以下を含みます:
Lewis et al. (2020): RAGフレームワークの基礎的研究 Yu et al. (2024)、Yadav et al. (2023): DARE-TIESモデルマージング手法 Schroff et al. (2015): 三元損失の原始的研究 Patwardhan et al. (2024): LLM一貫性の定義と分析 総合評価 :これは実際の産業問題に対応した高品質な応用研究論文であり、手法の革新性と実用的価値の両面で顕著な貢献を有しています。理論的深さと汎化検証の面でさらに改善の余地がありますが、解決する問題は重要な実用的意義を持ち、提案された手法は良好な操作性と有効性を備えています。