2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.
Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
academic

一貫性を活用したロバストなテスト時LLMアンサンブル

基本情報

  • 論文ID: 2510.13855
  • タイトル: Harnessing Consistency for Robust Test-Time LLM Ensemble
  • 著者: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
  • 分類: cs.CL, cs.AI
  • 発表日: 2025年10月12日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.13855

要約

異なる大規模言語モデル(LLM)は異なる強みと弱みを示し、LLMアンサンブルはそれらの相補的能力を統合する有望な方法として機能する。アンサンブル品質の向上において実質的な進展が達成されているにもかかわらず、異種トークン化スキームと異なるモデル専門知識から生じる潜在的なエラー信号に直面したときのアンサンブルのロバスト性への関心は限定的である。本論文の分析は、アンサンブル失敗が通常、トークンレベルとモデルレベルの2つのレベルから生じることを示している。前者はトークン予測における深刻な不一致を反映し、後者は低信頼度とモデル間の顕著な差異を含む。これに基づいて、著者らはCOREを提案する。これはモデル一貫性を活用してロバストなLLMアンサンブルを実現するプラグアンドプレイ技術であり、様々なアンサンブル方法にシームレスに統合できる。

研究背景と動機

問題定義

既存のLLMアンサンブル方法は主にアンサンブル品質の向上に焦点を当てているが、以下の課題に直面した場合、ロバスト性が不足している:

  1. 異種トークン化スキーム: 異なるLLMは異なるトークナイザーを使用し、トークン空間の不一致を招く
  2. モデル専門知識の差異: 異なるモデルは異なる領域で顕著なパフォーマンス差を示す
  3. エラー信号の伝播: トークン対齢エラーとモデル予測エラーはアンサンブル出力の正確性を損なう

研究の重要性

LLMアンサンブルのロバスト性は実用的応用にとって重要である。理由は以下の通り:

  • 不正なトークン対齢は確率融合の誤りを招く可能性がある
  • モデル予測のエラーはアンサンブル出力の正確性をさらに損なう可能性がある
  • ロバスト性の欠如は「負のアンサンブル」現象を招く。すなわち、アンサンブルパフォーマンスが最良の単一モデルより劣る

既存方法の限界

既存のアンサンブル方法は2つのカテゴリに分類される:

  1. トークンレベルアンサンブル: 各デコードステップで異なるLLMのトークン確率を対齢および融合するが、トークン対齢エラーの影響を受けやすい
  2. 応答レベルアンサンブル: 完全な応答またはスパンを選択するが、細粒度のトークンレベルの一貫性を無視する

核心的貢献

  1. LLMアンサンブルのロバスト性問題を初めて体系的に研究し、この分野の重要な空白を埋める
  2. COREフレームワークを提案し、トークンレベルとモデルレベルの2つのレベルから一貫性を評価してアンサンブルパフォーマンスとロバスト性を向上させる
  3. プラグアンドプレイ設計により、様々なLLMアンサンブル戦略にシームレスに統合でき、追加の推論コストがない
  4. 包括的な実験検証により、複数のベンチマークタスク、モデル組み合わせ、アンサンブル方法全体で一貫した改善を達成し、Top-2およびTop-3モデルアンサンブルでそれぞれ平均1.3%および2.8%のパフォーマンス向上を獲得

方法の詳細

タスク定義

主モデル(語彙VmainV_{main})とN個の補助モデル(語彙VassistiV_{assist_i})が与えられた場合、目標はトークン対齢行列AiRVassisti×VmainA_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}を学習し、加重融合を通じてアンサンブル確率分布を生成することである:

pens=wmainpmain+i=1Nwassistip~assistip_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}

ここでp~assisti=passistiAi\tilde{p}_{assist_i} = p_{assist_i}A_iは投影された確率分布である。

モデルアーキテクチャ

核心的観察

統計分析を通じて3つの重要な観察が発見された:

  1. トークン一貫性: 対齢されたトークンの確率差は誤った対齢トークンより小さい
  2. モデル信頼度: 正解のエントロピーはより低い
  3. モデル一貫性: 正解はより高いRBF変換トークン差を持つ

トークン一貫性(Token Consistency)

トークン一貫性を細粒度測度として定義する:

sassistit=f(δi)RVmains^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}

ここでδi=p~assistip\delta_i = |\tilde{p}_{assist_i} - p^*|pp^*は参照確率分布である:

p=1N+1(pmain+i=1Np~assisti)p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)

一貫性関数ffは以下のいずれかである:

  • RBFカーネル: frbf(δ)=exp(δ/σ)f_{rbf}(\delta) = \exp(-\delta/\sigma)
  • べき関数: fpow(δ)=α(1δ)βf_{pow}(\delta) = \alpha(1-\delta)^\beta
  • シグモイド関数: fsig(δ)=1Sigmoid(γ(δi0.5))f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))

モデル一貫性(Model Consistency)

トークン一貫性を集約し、エントロピー正則化を使用してモデル一貫性を定義する:

sassistim=vVmainsassistit(v)H(p~assisti)s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}

ここで分子は参照モデルとの一貫性に報酬を与え、分母は高い不確実性にペナルティを与える。

最終アンサンブル

トークン一貫性とモデル一貫性を組み合わせた最終アンサンブル分布:

pens=smainmpmain+i=1Nsassistim(sassistitp~assisti)p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})

技術的革新点

  1. 二層一貫性メカニズム: トークンレベルとモデルレベルで同時に一貫性をモデル化
  2. ローパスフィルタ設計: トークン一貫性はローパスフィルタとして機能し、不一致トークンの影響を抑制
  3. 適応的重み付け: モデル一貫性は適応的モデル重みを提供し、事前知識を必要としない
  4. 汎用フレームワーク: 既存のアンサンブル方法と直交し、シームレスに統合可能

実験設定

データセット

4つのカテゴリにわたる6つのベンチマーク:

  1. 推論: GSM8K (4-shot CoT)、PIQA (0-shot)
  2. 要約: SAMSum (0-shot)
  3. 知識: TriviaQA (5-shot)、NaturalQuestions (5-shot)
  4. 総合試験: MMLU (5-shot)

ベースモデル

  • Llama-3-8B-Instruct
  • Mistral-7B-Instruct-v0.1
  • Qwen2.5-3b-Instruct
  • InternLM2.5-7b-Chat
  • OpenChat-3.5-0106

比較方法

4つのベースラインアンサンブル方法:

  • MINED: 最小編集距離に基づくトークン対齢
  • GAC: 異なるトークン空間を共有空間に統合
  • UNITE: トークナイザーを利用したプレフィックスマッチング
  • EVA: 重複トークン埋め込みを対齢するための写像関数の学習

評価指標

  • GSM8K: 精度
  • PIQA、TriviaQA、NQ、MMLU: 完全一致
  • SAMSum: Rouge-1スコア

実験結果

主要結果

すべてのベンチマークでCOREは一貫した改善を達成した:

データセットカテゴリTop-2平均向上Top-3平均向上
推論+1.01+1.33
要約+2.35+3.42
知識+1.75+4.90
総合試験+0.03+0.94

COREは17個のベースライン方法が遭遇した負のアンサンブルケースを成功裏に緩和した。

ロバスト性実験

ノイズ耐性

2種類のノイズで検証:

  • 対齢ノイズ: トークン写像行列の5%-20%が摂動
  • 確率ノイズ: 標準偏差0.05-0.20のガウスノイズを追加

結果は、バニラ方法がノイズ比率0から0.2に増加するにつれて平均パフォーマンスが4.25および2.60ポイント低下するのに対し、COREはわずか0.38および0.49ポイント低下することを示している。

パフォーマンス差耐性

パフォーマンス差が最大のモデル組み合わせ(最良および最悪のモデル)では、COREはNQおよびTriviaQAでそれぞれ+5.66および+9.42の平均向上を獲得した。

アブレーション実験

アブレーション研究は以下を示している:

  • CORE(完全) > トークン一貫性のみ > モデル一貫性のみ > バニラアンサンブル
  • 両方の一貫性コンポーネントはパフォーマンスに正の貢献をする

スケーラビリティ分析

より多くのモデルが追加されるにつれて:

  • バニラ方法は負のアンサンブルが発生し、モデル数の増加に伴いパフォーマンスが低下
  • COREは安定したスケーリングを実現し、常に最良の単一モデルを上回る

ケース分析

エピネフリン問題の例:

  • 質問: 「交感神経系機能に必要なアドレナリンは何を産生するか?」
  • 正解: 「epinephrine」
  • バニラアンサンブル予測: 「epineph_rine」(誤り)
  • CORE予測: 「epinephrine」(正解)

分析は、COREが誤った対齢トークン「_r」を識別し、その影響重みを低下させたことを示している。

関連研究

テスト時LLMアンサンブル

  • トークンレベルアンサンブル: GAC、UNITE、EVAなどはトークン空間の対齢を通じて融合を実現
  • 応答レベルアンサンブル: 完全な応答の選択または合成を通じてアンサンブルを実現

モデル一貫性

  • 自己一貫性: 周波数、エントロピー、または信頼度信号を通じて単一モデルの複数の推論パスを集約
  • マルチモデル一貫性: 投票または協調推論を通じて異なるLLM出力を結合

本論文は、一貫性の概念をLLMアンサンブルのロバスト性向上に初めて体系的に適用する。

結論と議論

主要な結論

  1. アンサンブル失敗は主にトークンレベルとモデルレベルの不一貫性に由来する
  2. COREは二層一貫性メカニズムを通じてアンサンブルのロバスト性とパフォーマンスを効果的に向上させる
  3. 本方法は優れた汎用性とスケーラビリティを持つ

限界

  1. APIの制限: トークンレベルのロジットへのアクセスが必要であり、クローズドソースAPIでは使用できない
  2. アンサンブルのタイミング: いつアンサンブルを実行するかは未解決の問題である
  3. モデル選択: アンサンブルするモデル組み合わせの選択方法はさらなる研究が必要である

今後の方向性

  1. クローズドソースモデルのアンサンブル方法への拡張
  2. より知的なアンサンブル起動メカニズム
  3. より原則的なモデル組み合わせ選択基準

深い評価

利点

  1. 問題の重要性: LLMアンサンブルのロバスト性に初めて体系的に焦点を当て、重要な研究空白を埋める
  2. 方法の革新性: 二層一貫性メカニズム設計は巧妙で、理論的基礎が堅牢
  3. 実験の充分性: 複数のベンチマーク、モデル組み合わせ、アンサンブル戦略にわたる包括的評価
  4. 実用的価値: プラグアンドプレイ設計により実用的応用が容易

不足点

  1. 理論分析: 一貫性測度の理論的収束性分析が不足
  2. 計算オーバーヘッド: 追加コストなしと主張されているが、一貫性計算にはまだオーバーヘッドがある
  3. ハイパーパラメータ感度: RBFカーネルパラメータσなどへの感度分析が不足

影響力

  1. 学術的貢献: LLMアンサンブルのロバスト性研究に新しい方向を開く
  2. 実用的価値: 既存のアンサンブルシステムに直接適用してパフォーマンスを向上させることができる
  3. 再現性: 実験設定が詳細で、コードはオープンソース化される予定

適用シナリオ

  1. マルチモデルデプロイメント: 複数のLLMをアンサンブルする必要がある本番環境
  2. 高いロバスト性要件: 出力品質と安定性に厳しい要件がある応用
  3. リソース制約: 大規模モデルを訓練できないが既存モデルをアンサンブルできるシナリオ

参考文献

本論文はLLMアンサンブル、モデル一貫性などの関連分野の重要な研究を引用している。これには以下が含まれる:

  • Brown et al. (2020): GPT-3論文、大規模モデルの基礎を確立
  • Wang et al. (2022): 自己一貫性方法
  • Yu et al. (2024): GACアンサンブル方法
  • Yao et al. (2024): UNITEアンサンブル方法

総合評価: これは高品質の研究論文であり、LLMアンサンブルのロバスト性というこれまで見落とされていた重要な問題に対して体系的な貢献をしている。方法設計は合理的で、実験評価は包括的であり、強い理論的意義と実用的価値を持つ。