2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic

大規模言語モデルにおける標的表現編集を通じた正確な属性強度制御

基本情報

  • 論文ID: 2510.12121
  • タイトル: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
  • 著者: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
  • 分類: cs.AI cs.CL cs.LG
  • 発表時期/会議: プレプリント(査読中)
  • 論文リンク: https://arxiv.org/abs/2510.12121

要約

本論文は、大規模言語モデル(LLM)の属性強度を正確に制御するためのPRE-CONTROLという手法を提案している。本手法は3つの重要な設計を通じて正確な属性強度制御を実現する:(1) 正確な属性強度制御を単純な最大化ではなく目標達成問題として再定式化する、(2) 時間差分学習を用いて軽量な価値関数を訓練し、部分生成から最終的な属性強度スコアを予測する、(3) 隠れ表現上で勾配ベースの介入を採用し、特定の属性強度目標へモデルを正確に導く。実験結果は、本手法がテキスト生成をユーザー指定の属性強度へ導くことができ、選好データ合成、パレート前線近似、および整列行動蒸留などの下流タスクで効率向上を示すことを明らかにしている。

研究背景と動機

問題定義

現在のLLM整列手法には重要な制限がある:方向性またはオープンエンドの指導のみを提供でき、正確な属性強度に確実に到達することができない。例えば、ユーザーはメールの形式性を単に「より形式的」または「あまり形式的でない」ではなく、5段階中3にしたいと望む場合がある。

問題の重要性

正確な属性強度制御は、多様なユーザー期待に適応するAIシステムの構築に不可欠であり、特に複数目標整列シナリオにおいて、異なる属性間に競合が存在する場合、連続スケール上でスカラーレベルの調整を行い最適なトレードオフを見つける必要がある。

既存手法の制限

  1. RLHFおよびDPO:静的モデルを生成し、期望される行動の平均値をキャプチャし、優先度を調整するために高価な再訓練が必要
  2. プロンプト手法:スタイル指示に対するモデルの解釈に完全に依存し、結果が一貫性に欠ける
  3. ガイド付きデコーディング:通常、属性強度を連続値ではなく分類として扱う
  4. 多目標整列手法:グローバルパレート集合を近似するために大量の訓練が必要

研究動機

既存手法は正確な属性強度制御の能力に欠けており、本論文は細粒度で連続的な属性強度制御を実現し、単純な方向性整列を超えることを目指している。

核心的貢献

  1. 問題の再定式化:正確な属性強度制御を単純な最大化/最小化ではなく目標達成問題として定式化
  2. 価値関数アプローチ:時間差分学習を通じて軽量な価値関数を訓練し、部分生成から最終属性スコアを予測
  3. 表現編集技術:勾配ベースの隠れ表現介入を採用し、特定の属性強度目標へ正確に導く
  4. 効率的な応用:パレート前線近似(時間計算量がO(m^d)からO(n+k)に削減)および制御可能なモデル蒸留における効率的な利点を実証

方法の詳細

タスク定義

目標属性強度τ ∈ 0,1と報酬関数R(x)が与えられた場合、目標は属性強度スコアが目標値と一致するテキストを生成することであり、単純に報酬を最大化することではない。

モデルアーキテクチャ

1. 目標達成問題への再構成

従来の整列目標:

max_θ E_{x~π_θ}[R(x)]

本論文の目標達成表現:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

ここでR̂(x)は0,1に正規化された報酬関数である。

2. 価値関数の訓練

TD(λ)を使用して価値関数V_φ(h_t)を訓練し、部分系列の期待属性強度を予測する:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

一般化リターン計算:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

価値関数損失:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. テスト時介入

勾配降下法により隠れ状態を調整する:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

複数属性の場合:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

技術的革新点

  1. 目標指向設計:方向性最適化から正確な目標達成へのシフト
  2. リアルタイムフィードバック機構:価値関数は生成プロセス中の中間フィードバックを提供
  3. 表現空間ナビゲーション:高次元表現空間での直接的な正確なナビゲーション
  4. 複数属性の協調:複数の競合する可能性のある属性を同時に制御

実験設定

データセット

  1. HelpSteer2:20,324個の訓練サンプル、1,038個のテストサンプル、5つの属性を含む(有用性、正確性、一貫性、複雑性、冗長性)
  2. Code-UltraFeedback:10,000個の複雑な指示、5つのプログラミング関連属性を含む(複雑性と効率性、スタイル、説明、指示追従、可読性)

評価指標

  1. Self-BLEUスコア:生成テキストの多様性を測定(低いほど良い)
  2. ℓ1距離から目標へ:モデル出力とユーザー指定属性スコアの接近度を評価
  3. 成功率:モデル出力が期待される属性構成と正確に一致する頻度

比較手法

  • Base:基本モデルの直接生成
  • Prompting:プロンプトに目標属性スコアを含める
  • ITI:報酬を予測する線形層を訓練し、学習方向に沿って活性化を調整
  • MAT-Steer:スパースで直交する複数属性ガイドベクトルを学習
  • RE-Control:テスト時介入のオープンエンド最適化を実行

実装詳細

  • 基本モデル:LLaMA-3.2-3bおよびPhi-4-mini
  • 価値関数:4層MLP
  • 報酬モデル:ArmoRM-Llama3-8B
  • 介入層:最後のトランスフォーマー層
  • オプティマイザー:Adam、早期停止技術

実験結果

主要結果

代表的な目標スコアでの実験結果:

正向目標(HelpSteer2 4,4,4,2,2

  • LLaMA-3.2-3b:PRE-CONTROL成功率7.96% vs 最良基線5.39%
  • Phi-4-mini:PRE-CONTROL成功率8.31% vs 最良基線5.70%

負向目標(HelpSteer2 3,3,3,2,2

  • LLaMA-3.2-3b:PRE-CONTROL成功率6.60% vs 最良基線5.84%
  • Phi-4-mini:PRE-CONTROL成功率9.11% vs 最良基線8.73%

Code-UltraFeedback結果

  • 正向目標3,3,3,3,3:成功率17.46%-26.16%に向上
  • 負向目標2,2,2,2,2:成功率22.34%-30.68%に向上

反復介入結果

PRE-CONTROLは複数の反復を通じて継続的なパフォーマンス向上を示し、他の手法は2回目の反復後に平坦化する。

パレート前線近似

  • 品質向上:超体積が7.54から12.66に向上
  • 効率向上:計算オーバーヘッドが3.3 GPU時間から0.4時間に削減(8倍削減)
  • より多くのポイント発見:非支配点が45個から69個に増加

制御可能な蒸留

15kサンプルと2.1 GPU時間を使用して16.81の超体積に到達し、Best-of-N手法の15.27(50kサンプルと7.8 GPU時間が必要)を上回る。

ケース分析

定性的分析はPRE-CONTROLが以下を実現できることを示す:

  • 負向制御:過度に詳細な回答4,4,4,3,3を簡潔版3,3,3,2,2に正確に調整
  • 正向制御:シンプルな回答4,4,4,1,1をより詳細な版4,4,4,2,2に拡張

関連研究

LLM整列

  1. 微調整パラダイム:RLHFおよびDPOは複数段階の訓練が必要で、リソース集約的
  2. 推論時介入:プロンプトエンジニアリングとガイド付きデコーディングは正確な制御メカニズムに欠ける
  3. 多目標整列:既存手法は複数目標選好を注入するために高価な再訓練が必要

表現工学

  1. 活性化摂動:プラグアンドプレイ手法から学習ガイドベクトルへの発展
  2. 表現微調整:低ランク投影行列を使用した活性化の効率的な編集
  3. 制限:主に二値または分類属性制御に焦点を当て、連続スケール上の正確な目標ではない

結論と議論

主要結論

  1. PRE-CONTROLはLLMにおける正確な属性強度制御を実現する
  2. 目標達成表現は従来の最大化手法より正確な制御に適している
  3. 価値関数と勾配介入の組み合わせは効果的な制御メカニズムを提供する
  4. 手法は複数の下流応用において効率的な利点を示す

制限事項

  1. 価値関数を報酬モデルプロキシとして使用:軽量MLPは元の報酬信号のすべての詳細をキャプチャできない可能性がある
  2. 最後層介入:現在の実装は最後のトランスフォーマー層のみに介入を適用し、モデルの表現階層を十分に活用していない可能性がある
  3. 計算オーバーヘッド:相対的に効率的だが、追加の価値関数訓練と推論時計算が必要

今後の方向性

  1. より複雑な価値関数アーキテクチャを探索し、報酬モデル能力をより良く近似する
  2. 複数層介入戦略または注意メカニズム修正を研究する
  3. 困難なケースに対して選択的に完全な報酬モデルをクエリする適応メカニズムを開発する

深層評価

利点

  1. 革新性が高い:属性制御を目標達成問題として再定式化し、従来の方向性整列の制限を突破
  2. 手法の体系性:価値関数訓練、TD学習、勾配介入が完全な技術体系を形成
  3. 実験が充分:2つのデータセット、2つのモデル上で包括的な評価を実施、消融実験と応用検証を含む
  4. 実用価値が高い:パレート前線近似とモデル蒸留において顕著な効率向上を示す

不足点

  1. 理論分析が不十分:収束性保証と介入安定性の理論分析に欠ける
  2. 価値関数への依存:手法のパフォーマンスは価値関数の品質に大きく依存
  3. 汎化能力:特定の属性とモデルのみで検証され、汎化能力はさらなる検証が必要
  4. 計算複雑性:相対的に効率的だが、推論時にも追加計算が必要

影響力

  1. 学術的貢献:LLM正確制御のための新しい研究パラダイムを提供
  2. 実用価値:個性化AIシステムと多目標最適化のための効果的なツールを提供
  3. 再現性:著者は完全なコードと実験構成を提供

適用シナリオ

  1. 個性化コンテンツ生成:テキストスタイル、複雑性などの属性の正確な制御が必要
  2. 多目標最適化:競合する属性間で最適なバランスポイントを探索
  3. モデル整列:特定の属性要件を満たす訓練データの効率的な生成
  4. インタラクティブAIシステム:ユーザーフィードバックに基づいて出力属性を動的に調整

参考文献

論文は46の関連文献を引用し、LLM整列、多目標最適化、表現工学などの重要分野の主要な研究をカバーし、研究に堅実な理論的基礎を提供している。


総合評価:これは高品質な研究論文であり、正確な属性強度制御のための革新的な手法を提案し、理論的貢献と実用価値の両面で優れたパフォーマンスを示している。手法設計は合理的で、実験検証は充分であり、LLM制御分野に重要な貢献をしている。