2025-11-24T00:22:17.812402

Human-in-the-loop: Real-time Preference Optimization

Wang, Xu, Jones

Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.

academic

ヒューマン・イン・ザ・ループ：リアルタイム選好最適化

基本情報

論文ID: 2506.02225
タイトル: Human-in-the-loop: Real-time Preference Optimization
著者: Wenbin Wang, Wenjie Xu, Colin N. Jones (EPFL自動制御研究室)
分類: math.OC (最適化と制御)
発表日時: arXiv プレプリント、2025年11月3日 v2版
論文リンク: https://arxiv.org/abs/2506.02225

要約

本論文は選好フィードバックを伴う最適化問題を研究しており、この問題は建築制御と自動運転など人間が中心的役割を果たす工学システムに広く応用されている。既存研究は主に静的ユーザー効用最適化に焦点を当てており、システムの過渡特性の閉ループ動作をほとんど考慮していない。本論文はオンラインフィードバック最適化コントローラを提案し、ペアワイズ比較フィードバックを利用してユーザー効用を最適化しながら、最適性と閉ループ安定性の保証を提供する。ランダム探索信号を追加することで、コントローラは連続する2つの時間ステップ間の二値効用比較フィードバックに基づいて勾配を推定する。著者は非線形システムとの相互作用時の閉ループ動作を分析し、温和な仮定の下でコントローラが最適点に収束し、不安定性を引き起こさないことを証明している。理論的知見は数値実験により検証されている。

研究背景と動機

解決すべき問題

人機相互作用制御問題：ユーザーの潜在的効用をリアルタイムで最適化できる人間認識制御器をどのように設計するか、システムがユーザー選好に応じて調整できるようにする
選好フィードバックのリアルタイム最適化：絶対効用値ではなく二値選好比較を利用してオンライン最適化をどのように行うか
閉ループ安定性保証：システムの過渡特性を考慮しながら、最適化プロセスがシステム不安定性を引き起こさないことをどのように保証するか

問題の重要性

個人差：従来の制御器は大規模集団モデルに基づいた事前定義の参照点（建築制御における室内温度など）を追跡するため、個人差を考慮できず偏差が生じ、最適でない性能につながる
時変効用：リアルタイムの人間フィードバックがなければ、制御器は時変効用に応答できず、外部外乱に対してもロバストでない
人間認知特性：人間は絶対評価よりも相対比較に優れているため、選好フィードバックは通常ペアワイズ比較形式で現れる

既存手法の限界

オンラインフィードバック最適化(OFO)：既存のOFO手法（グリッド制御、ロボット協調など）は正確な効用値または勾配情報を必要とし、人間選好フィードバックシナリオに直接適用するのが困難である
オフライン選好最適化：
- ほとんどの研究は静的問題を考慮し、システムの過渡特性を無視している
- 既存の勾配推定手法（18、19など）は各時間ステップで2回の関数評価を必要とし、オンライン実装に不適切である
- 閉ループ安定性分析が欠けている
安定性の定量化の困難さ：選好フィードバックの二値特性により、全体的な動力学は高度に非線形となり、安定性分析が困難である
ユーザー知識の限定：ユーザーは通常システム動力学についての知識が限定的であり、その選好に直接従うとシステムが不安定になる可能性がある

研究動機

最近提案されたモデルフリーOFOと単点残差推定8に触発され、著者はリアルタイム選好最適化問題を解決し、閉ループ保証を提供する最初の研究を開発することを目指している。

中核的貢献

新規OFO制御器：二値選好フィードバックを利用してユーザー効用を最適化し、閉ループ安定性を保証する最初のオンラインフィードバック最適化制御器を提案
単点評価スキーム：ランダム探索スキームを採用し、各時間ステップで1回の効用評価のみが必要（従来は2回）で、オンライン実装に適している
理論的保証：
- 閉ループシステムの安定性を証明（補題1：期待リアプノフ関数が有界）
- 最適性保証を確立（定理1：期待距離がO(μ, δ)に収束）
- システム過渡特性が性能に与える影響を定量化
最初の閉ループ保証：著者の知る限り、リアルタイム選好最適化問題に閉ループ保証を提供する最初の研究
数値検証：熱快適性最適化問題を通じて理論結果の有効性を検証

方法の詳細説明

タスク定義

システムモデル：指数安定なシステムを考慮 $x_{k+1} = f(x_k, u_k)$ ここで $x \in \mathbb{R}^{n_x}$ はシステム状態、 $u \in \mathbb{R}^{n_u}$ は制御入力、一意の定常入出力マッピング $h: \mathbb{R}^{n_u} \rightarrow \mathbb{R}^{n_x}$ が存在する。

最適化目標：定常状態でユーザー効用を最適化 $\min_{x,u} \Phi(x, u), \quad \text{s.t. } x = h(u)$ 制約なし問題と等価： $\min_u \tilde{\Phi}(u), \quad \text{ここで } \tilde{\Phi}(u) = \Phi(h(u), u)$

選好フィードバックモデル（Bradley-Terryモデル）： $P(\mathbb{1}_{u_1 \succ u_2} = 1) = \sigma(\tilde{\Phi}(u_2) - \tilde{\Phi}(u_1))$ ここで $\sigma(t) = \frac{1}{1+e^{-t}}$ はシグモイド関数。

主要な仮定：

入出力マッピング $h$ はリプシッツ連続
効用関数 $\Phi(x,u)$ は $x$ に関してリプシッツ連続
$\tilde{\Phi}(u)$ は微分可能、リプシッツ連続、滑らか、かつ強凸

モデルアーキテクチャ

アルゴリズムフロー（アルゴリズム1）：

入力: ステップサイズη、平滑化パラメータδ、初期入力u₀、時間ステップ数T
for k = 1, ..., T-1:
    1. ランダム探索を追加: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
       ここでvₖは(nᵤ-1)次元単位球面から均一にサンプリング
    
    2. 選好フィードバックを収集: 
       ユーザーにΦ(xₖ₊₁, uₖ + δvₖ)とΦ(xₖ, uₖ₋₁ + δvₖ₋₁)を比較するよう質問
       𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}をサンプリング
    
    3. 制御入力を更新:
       uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
end for
出力: uₜ

閉ループシステム： $x_{k+1} = f(x_k, u_k + \delta v_k)$ $u_{k+1} = u_k + \frac{\eta}{2\delta}\mathbb{1}_{(x_{k+1},u_k+\delta v_k)\succ(x_k,u_{k-1}+\delta v_{k-1})}v_k$

技術的革新点

単点残差推定：
- $x_{k+1}$ を $h(u_k + \delta v_k)$ の近似として利用し、正確なシステムモデルの必要性を回避
- 各時間ステップで1回の効用評価のみが必要で、従来手法の2回ではない
- 連続する時間ステップ間の比較に基づき、時系列構造に自然に統合される
確率的勾配降下法の解釈：
- 更新規則を確率関数 $p_{u'}(u) = P(\mathbb{1}_{u \succ u'} = 1)$ の勾配降下法として解釈
- $p_{u'}(u)$ の最小化が $\tilde{\Phi}(u)$ の最小化と等価であることを証明（補題3）
- 更新を以下のように記述： $u_{k+1} = u_k - \eta(\nabla p_{u_k}(u_k) + e_k)$
- ここで誤差項 $e_k$ は $x_{k+1}$ を $h(u_k + \delta v_k)$ で近似することと確率的勾配推定から生じる
誤差分析フレームワーク：
- 誤差 $e_k$ の界を明示的に定量化（補題4）： $\|E[e_k|F_k]\| \leq \sqrt{R_1 V(x_{k-1}, u_{k-1}+\delta v_{k-1}) + R_2}$
- ここで $R_1 = O(\mu)$ 、 $R_2 = O(\mu, \delta^2)$ 、 $\mu$ はシステム減衰率
- システムが安定するほど速い（μが小さい）ほど、近似誤差が小さい
安定性と最適性の統一分析：
- リアプノフ関数を通じた安定性分析（補題1）
- 期待距離 $E[\|u_k - u^*\|^2]$ を通じた最適性分析（定理1）
- 両者はシステム過渡特性を通じて関連付けられている

理論的結果

安定性（補題1）： $E[V(x_k, u_k+\delta v_k)] \leq \mu^k E[V(x_0, u_0+\delta v_0)] + \frac{a_1}{1-\mu}(2\delta^2 + \eta + (\frac{\eta}{2\delta})^2)$ ここで $\mu = \frac{2\alpha_2}{\alpha_1}(1-\frac{\alpha_3}{\alpha_2}) < 1$ 。

最適性（定理1）： $E[\|u_k - u^*\|^2] \leq (\frac{1+\rho}{2})^{k-k'} E[\|u_{k'} - u^*\|^2] + O(\mu, \mu^{k'}, \delta)$ ここで $\rho = 1 - 2\sigma'(0)m\eta$ 。

主要な洞察：

定常状態誤差は $O(\mu, \delta)$ で特徴付けられる
より速いシステム安定化（より小さいμ）はより良い性能につながる
探索と利用のトレードオフが存在する（δの選択）

実験設定

データセット/システムモデル

実験1：二次問題

システム：LTIシステム $x_{k+1} = Ax_k + Bu_k$
行列： $A = \begin{bmatrix} c & 1 \\ 0 & c \end{bmatrix}$ 、 $B$ は単位行列
パラメータ変動： $c \in \{0.1, 0.7\}$ で異なる減衰率をテスト
最適化目標： $\min (x-x_{ref})^\top(x-x_{ref})$ 、ここで $x_{ref} = [100, 100]^\top$
定常マッピング： $H = (I-A)^{-1}B$

実験2：熱快適性最適化

システム：13状態の建築LTIモデル27
効用関数：PMV (Predictive Mean Vote)モデル3
評価指標：PPD (Predicted Percentage of Dissatisfied)指数
目標：PPDを最小化する室内温度を特定
ユーザー設定：タイピング活動、スポーツパンツ、Tシャツ、靴を着用

評価指標

相対誤差： $\|x_k - x_{ref}\|/\|x_{ref}\|$ （対数スケール）
温度追跡：実際の温度と最適温度の差
定常状態分散：アルゴリズムが定常状態での変動程度
オーバーシュート量：収束過程での最大偏差

比較手法

代数システム（オレンジ線）： $H$ が既知と仮定し、直接 $\mathbb{1}_{u_k+\delta v_k \succ u_{k-1}+\delta v_{k-1}}$ をサンプリング
ノイズなしユーザーモデル： $\mathbb{1} = \text{sign}(\Phi(x_k, u_{k-1}+\delta v_{k-1}) - \Phi(x_{k+1}, u_k+\delta v_k))$
提案手法（青線）：完全なアルゴリズム1

実装の詳細

ステップサイズ： $\eta = 0.1$
平滑化パラメータ： $\delta = 0.5$
シミュレーション回数：20回の独立実行
統計表示：実線は平均、陰影領域は1標準偏差
初期条件： $u_0$ はランダムに初期化

実験結果

主要結果

実験1：二次問題

システムパラメータ	収束速度	定常精度	オーバーシュート	定常分散
c=0.1 (高速)	高速	高	小	小
c=0.7 (低速)	低速	相当	大	大

主要な発見：

定常性能：提案手法（青線）と代数システム（オレンジ線）は定常状態で相当の精度レベルに達する
過渡特性の影響：より遅いシステム（c=0.7）の場合、提案手法はより大きなオーバーシュートとより高い定常分散を示す
理論検証：実験結果は理論予測と一致 - システム減衰率μが性能に影響

実験2：熱快適性最適化

収束性：アルゴリズムは最適温度（黒い水平線）の追跡に成功
ノイズの影響：
- ノイズありフィードバック（青線）：収束が遅く、波動がある
- ノイズなしフィードバック（オレンジ線）：より速く収束し、より安定
実用性：ηとδを慎重に調整することで、制御器は大きなオーバーシュートなく最適点を効果的に追跡できる

実験的発見

システム動力学の重要性：
- システム過渡特性はアルゴリズム性能に大きく影響
- 高速安定システム（小さいμ）はより良い追跡性能を実現
- これは補題1と定理1のμに関する理論結果を検証
パラメータトレードオフ：
- δ：より小さいδは探索ノイズを減らすが、局所最適に陥る可能性
- η：収束速度と安定性のバランスが必要
- 探索と利用のトレードオフが存在
ユーザーモデルの影響：
- Bradley-Terryモデル（確率的フィードバック）は追加ノイズを導入
- 確定的フィードバックは性能を大幅に向上
- 将来の研究で代替ユーザーモデルを探索する動機を提供
実用的応用の可能性：
- 熱快適性最適化は人間効用学習の実用的応用の可能性を示す
- 単点評価スキームはオンライン実装に適している
- アルゴリズムは初期条件に対してロバスト

結論と議論

主要な結論

理論的貢献：
- 選好フィードバックを利用し、閉ループ保証を提供する最初の人間認識制御器を開発
- システム過渡特性が性能に与える影響を明示的に定量化
- 安定性と最適性の理論的保証を確立
手法の利点：
- 各ステップで1回の効用評価のみが必要
- 正確なシステムモデルが不要
- 時変効用と外部外乱に対応可能
実験検証：
- 理論結果は数値実験で検証
- 熱快適性最適化タスクで実用的応用の可能性を示す

限界

仮定条件：
- 強凸性仮定は特定の応用では過度に厳しい可能性
- Bradley-Terryモデル仮定は人間が完全に合理的であると仮定するが、実際には必ずしもそうではない9
- 指数安定システムが必要
定常状態誤差：
- $O(\mu, \delta)$ の定常状態誤差が存在
- 完全には排除できず、パラメータ調整で軽減可能
- 非常に遅いシステムでは性能が低下する可能性
ユーザー負担：
- 各時間ステップでユーザーフィードバックが必要
- 実用的応用ではユーザー疲労につながる可能性
- ユーザーフィードバック遅延を考慮していない
理論と実践のギャップ：
- 確定的フィードバックモデルの理論分析がまだ確立されていない
- 実験はノイズなしモデルの性能が優れていることを示すが、理論的支持がない
計算複雑性：
- 大規模システムのスケーラビリティについて議論されていない
- ランダム探索は高次元空間で効率が低い可能性

将来の方向性

著者が明示的に提案した方向：

理論フレームワークの拡張：代替ユーザーモデル（ノイズなしモデルなど）へ
実用的応用：製品設計、化学選択など
仮定の緩和：非凸効用関数、不安定システム
マルチエージェントシナリオ：複数ユーザーの選好集約

潜在的研究方向： 5. 適応的パラメータ調整：ηとδのオンライン調整 6. ユーザー疲労モデリング：フィードバック頻度の削減 7. 遅延フィードバック：ユーザー応答遅延への対応 8. 高次元最適化：より効率的な探索戦略

深い評価

利点

理論的厳密性：

完全な理論フレームワーク：安定性（補題1）から最適性（定理1）への完全な分析チェーン
明示的な誤差界：近似誤差を明確に定量化（補題4）し、漸近結果のみではない
温和な仮定：強凸性仮定があるが、他の仮定（リプシッツ連続性）は実践で一般的
完全な証明：すべての主要結果に詳細な証明がある（付録）

手法の革新性：

独創性：選好フィードバックと閉ループ制御を初めて組み合わせ、研究ギャップを埋める
単点評価：既存手法と比べ評価回数を50%削減し、実用性を大幅向上
統一フレームワーク：安定性と最適性分析を同一フレームワークで統一
確率的解釈：二値フィードバックを確率的勾配降下法に変換し、直感的理解を提供

実験設計：

段階的検証：単純な二次問題から実際の熱快適性問題へ
パラメータ感度分析：異なるc値でシステム動力学の影響をテスト
統計的信頼性：20回の独立実行で平均と分散を提供
実用的関連性：熱快適性最適化は実際の応用シナリオ

執筆品質：

構造の明確性：問題定義から理論分析から実験検証へ、論理が厳密
記号の規範性：数学記号の使用が一貫し標準的
直感的説明：技術的詳細の外に複数のRemarkで直感的説明を提供

不足

理論的限界：

強凸性仮定：適用範囲を制限し、多くの実際の効用関数（PPDなど）は非凸
漸近結果：定理1が与える界は任意に固定されたk'に依存し、有限時間の明確な収束率がない
定数依存性： $O(\mu, \delta)$ の定数が大きい可能性があり、理論界が過度に保守的かもしれない
確定的モデル欠失：実験はノイズなしモデルの性能が優れていることを示すが、理論分析がない

実験の不足：

比較手法の限定：
- 他の選好学習手法（GP基盤手法[14]15など）との比較がない
- 従来の適応制御手法との比較がない
- 代数システムとノイズなしモデルとの比較のみ
パラメータ調整：
- ηとδの選択戦略の体系的研究がない
- パラメータ選択ガイドラインがない
- 実験のパラメータ選択は手動調整のようにみえる
規模の限定：
- 低次元システムのみテスト（2Dと13D）
- 高次元ケースのスケーラビリティが検証されていない
実際のユーザーテストの欠失：
- すべての実験はシミュレートされたユーザーモデルに基づく
- 実際の人間被験者実験がない
- Bradley-Terryモデルの実際の有効性が検証されていない

手法の限界：

探索効率：均一球面サンプリングは高次元空間で効率が低い可能性
コールドスタート問題：アルゴリズムは初期u₀が必要で、選択方法について議論されていない
ロバストネス：モデル不一致、測定ノイズに対するロバストネスが分析されていない
計算コスト：各ステップの計算複雑性について議論されていない

実用性の考慮：

ユーザー負担：各ステップでユーザーフィードバックが必要で、疲労につながる可能性
フィードバック品質：ユーザーが正確に選好を提供できると仮定するが、実際には矛盾する可能性
安全制約：状態と入力制約を考慮していないが、実際のシステムでは重要
多目的最適化：単一効用関数のみを考慮

影響力

分野への貢献：

開拓的研究：リアルタイム選好最適化という新しい研究方向を開く
理論基盤：後続研究に理論フレームワークと分析ツールを提供
学際的橋渡し：制御理論、最適化、人機相互作用分野を結ぶ
応用可能性：人間認識システム設計に新しい視点を提供

予想される影響：

短期：選好フィードバック制御に関するより多くの研究を引き起こす可能性
中期：建築制御、個性化推奨などの分野に応用される可能性
長期：人機相互作用システム設計パラダイムに影響を与える可能性

限界：

強い仮定は実用的応用を制限する可能性
実際のユーザー実験の欠失は信頼性に影響する可能性
実際の展開にはより多くのエンジニアリング作業が必要

適用シナリオ

理想的な応用シナリオ：

建築制御：
- 個性化温度調節
- 照明制御
- 空気品質管理
- 利点：システム動力学が比較的遅く、ユーザーが継続的フィードバックを提供可能
個性化推奨：
- 製品推奨
- コンテンツ推奨
- 利点：ユーザーは比較フィードバック提供に習慣的
医療保健：
- 個性化治療方案調整
- リハビリ訓練強度調節
- 利点：個人差を強調
人機協力：
- ロボット支援タスク
- 自動運転個性化
- 利点：ユーザー選好へのリアルタイム適応が必要

不適用シナリオ：

高速動力学システム：高頻度取引、飛行制御など（ユーザーがタイムリーにフィードバック提供不可）
高次元複雑システム：探索効率が低い
厳格な安全制約：制約処理がなく、安全でない可能性
多目的競合：単一効用のみ考慮
非凸最適化：理論保証が失効

改善提案：

能動学習を組み合わせてユーザーフィードバック頻度を削減
安全フィルターを導入して制約を処理
多目的シナリオに拡張
適応的パラメータ調整戦略を開発

参考文献

主要参考文献：

8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
- 本論文の主要な理論基盤
- 単点残差推定の思想を提供
18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
- 選好フィードバック勾配推定の古典的研究
- 本論文は2回評価の問題を改善
16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
- 選好ベイズ最適化の最新進展
- GP基盤手法の比較基準を提供
27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
- 建築制御の実際のシステムモデル
- 実験に現実的シナリオを提供
9 D. Kahneman & A. Tversky, 2013 - Prospect theory
- 人間決定の非合理的行動
- ユーザーモデル仮定の限界を指摘

総合評価：これは理論的に厳密で革新性が強い優秀な論文で、選好学習と閉ループ制御を成功裏に組み合わせ、人機相互作用システム設計に新しい理論フレームワークを提供している。主な貢献はリアルタイム選好最適化に初めて安定性と最適性保証を提供し、手法は実用価値がある（単点評価）ことにある。しかし、強凸性仮定、実際のユーザー実験の欠失、限定的な比較実験が主な不足である。将来の研究は仮定の緩和、実際のユーザー研究、より複雑な実用的応用シナリオへの拡張に焦点を当てるべきである。人機相互作用制御、選好学習、またはオンライン最適化に従事する研究者にとって、この論文は深く読む価値がある。