2025-11-24T00:22:17.812402

Human-in-the-loop: Real-time Preference Optimization

Wang, Xu, Jones

Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.

academic

Human-in-the-loop: Real-time Preference Optimization

基本信息

论文ID: 2506.02225
标题: Human-in-the-loop: Real-time Preference Optimization
作者: Wenbin Wang, Wenjie Xu, Colin N. Jones (EPFL自动控制实验室)
分类: math.OC (优化与控制)
发表时间: arXiv预印本, 2025年11月3日v2版
论文链接: https://arxiv.org/abs/2506.02225

摘要

本文研究带有偏好反馈的优化问题，该问题在建筑控制和自动驾驶等人类处于核心地位的工程系统中有广泛应用。现有研究主要关注静态用户效用优化，很少考虑系统瞬态的闭环行为。本文提出一种在线反馈优化控制器，能够利用成对比较反馈优化用户效用，同时提供最优性和闭环稳定性保证。通过添加随机探索信号，控制器基于连续两个时间步之间的二元效用比较反馈估计梯度。作者分析了控制器与非线性系统交互时的闭环行为，并证明在温和假设下，控制器收敛到最优点且不引起不稳定。理论发现通过数值实验得到验证。

研究背景与动机

要解决的问题

人机交互控制问题：如何设计能够实时优化用户潜在效用的人类感知控制器，使系统能够根据用户偏好进行调节
偏好反馈的实时优化：如何利用二元偏好比较（而非绝对效用值）进行在线优化
闭环稳定性保证：如何在考虑系统瞬态行为的情况下，确保优化过程不会导致系统不稳定

问题的重要性

个体差异：传统控制器跟踪基于大规模人群模型的预定义参考点（如建筑控制中的室内温度），这会引入偏差并导致次优性能，因为无法考虑个体差异
时变效用：没有实时人类反馈，控制器无法响应时变效用，对外部扰动也不鲁棒
人类认知特性：人类更擅长进行相对比较而非绝对评估，因此偏好反馈通常以成对比较形式出现

现有方法的局限性

在线反馈优化(OFO)：现有OFO方法（如网格控制、机器人协调）需要精确的效用值或梯度信息，难以直接应用于人类偏好反馈场景
离线偏好优化：
- 大多数研究考虑静态问题，忽略系统瞬态行为
- 现有梯度估计方法（如18,19）每个时间步需要两次函数评估，不适合在线实现
- 缺乏闭环稳定性分析
稳定性难以量化：偏好反馈的二元特性使整体动态高度非线性，难以分析稳定性
用户知识有限：用户通常对系统动态了解有限，直接遵循其偏好可能导致系统不稳定

研究动机

受最近提出的无模型OFO与单点残差估计8启发，作者旨在开发首个解决实时偏好优化问题并提供闭环保证的工作。

核心贡献

新型OFO控制器：提出首个利用二元偏好反馈优化用户效用并确保闭环稳定性的在线反馈优化控制器
单点评估方案：采用随机探索方案，每个时间步仅需一次效用评估（而非两次），更适合在线实现
理论保证：
- 证明了闭环系统的稳定性（Lemma 1：期望Lyapunov函数有界）
- 建立了最优性保证（Theorem 1：期望距离收敛到O(μ, δ)）
- 量化了系统瞬态对性能的影响
首个闭环保证：据作者所知，这是首个针对实时偏好优化问题提供闭环保证的工作
数值验证：通过热舒适优化问题验证了理论结果的有效性

方法详解

任务定义

系统模型：考虑指数稳定的系统 $x_{k+1} = f(x_k, u_k)$ 其中 $x \in \mathbb{R}^{n_x}$ 是系统状态， $u \in \mathbb{R}^{n_u}$ 是控制输入，存在唯一稳态输入-状态映射 $h: \mathbb{R}^{n_u} \rightarrow \mathbb{R}^{n_x}$ 。

优化目标：在稳态时优化用户效用 $\min_{x,u} \Phi(x, u), \quad \text{s.t. } x = h(u)$ 等价于无约束问题： $\min_u \tilde{\Phi}(u), \quad \text{其中 } \tilde{\Phi}(u) = \Phi(h(u), u)$

偏好反馈模型（Bradley-Terry模型）： $P(\mathbb{1}_{u_1 \succ u_2} = 1) = \sigma(\tilde{\Phi}(u_2) - \tilde{\Phi}(u_1))$ 其中 $\sigma(t) = \frac{1}{1+e^{-t}}$ 是sigmoid函数。

关键假设：

输入-状态映射 $h$ 是Lipschitz连续的
效用函数 $\Phi(x,u)$ 关于 $x$ 是Lipschitz连续的
$\tilde{\Phi}(u)$ 是可微、Lipschitz连续、光滑且强凸的

模型架构

算法流程（Algorithm 1）：

输入: 步长η, 平滑参数δ, 初始输入u₀, 时间步数T
for k = 1, ..., T-1:
    1. 添加随机探索: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
       其中vₖ从(nᵤ-1)维单位球面均匀采样
    
    2. 收集偏好反馈: 
       询问用户比较Φ(xₖ₊₁, uₖ + δvₖ)和Φ(xₖ, uₖ₋₁ + δvₖ₋₁)
       采样 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
    
    3. 更新控制输入:
       uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
end for
输出: uₜ

闭环系统： $x_{k+1} = f(x_k, u_k + \delta v_k)$ $u_{k+1} = u_k + \frac{\eta}{2\delta}\mathbb{1}_{(x_{k+1},u_k+\delta v_k)\succ(x_k,u_{k-1}+\delta v_{k-1})}v_k$

技术创新点

单点残差估计：
- 利用 $x_{k+1}$ 近似 $h(u_k + \delta v_k)$ ，避免需要精确的系统模型
- 每个时间步仅需一次效用评估，而非传统方法的两次
- 基于连续时间步之间的比较，自然融入时间序列结构
概率梯度下降解释：
- 将更新规则解释为概率函数 $p_{u'}(u) = P(\mathbb{1}_{u \succ u'} = 1)$ 的梯度下降
- 证明了最小化 $p_{u'}(u)$ 等价于最小化 $\tilde{\Phi}(u)$ （Lemma 3）
- 将更新写为： $u_{k+1} = u_k - \eta(\nabla p_{u_k}(u_k) + e_k)$
- 其中误差项 $e_k$ 来自用 $x_{k+1}$ 近似 $h(u_k + \delta v_k)$ 和随机梯度估计
误差分析框架：
- 显式量化误差 $e_k$ 的界（Lemma 4）： $\|E[e_k|F_k]\| \leq \sqrt{R_1 V(x_{k-1}, u_{k-1}+\delta v_{k-1}) + R_2}$
- 其中 $R_1 = O(\mu)$ ， $R_2 = O(\mu, \delta^2)$ ， $\mu$ 是系统衰减率
- 系统稳定越快（μ越小），近似误差越小
稳定性与最优性的统一分析：
- 通过Lyapunov函数分析稳定性（Lemma 1）
- 通过期望距离 $E[\|u_k - u^*\|^2]$ 分析最优性（Theorem 1）
- 两者通过系统瞬态行为联系起来

理论结果

稳定性（Lemma 1）： $E[V(x_k, u_k+\delta v_k)] \leq \mu^k E[V(x_0, u_0+\delta v_0)] + \frac{a_1}{1-\mu}(2\delta^2 + \eta + (\frac{\eta}{2\delta})^2)$ 其中 $\mu = \frac{2\alpha_2}{\alpha_1}(1-\frac{\alpha_3}{\alpha_2}) < 1$ 。

最优性（Theorem 1）： $E[\|u_k - u^*\|^2] \leq (\frac{1+\rho}{2})^{k-k'} E[\|u_{k'} - u^*\|^2] + O(\mu, \mu^{k'}, \delta)$ 其中 $\rho = 1 - 2\sigma'(0)m\eta$ 。

关键洞察：

稳态误差由 $O(\mu, \delta)$ 表征
更快的系统稳定（更小的μ）导致更好的性能
存在探索-利用权衡（δ的选择）

实验设置

数据集/系统模型

实验1：二次问题

系统：LTI系统 $x_{k+1} = Ax_k + Bu_k$
矩阵： $A = \begin{bmatrix} c & 1 \\ 0 & c \end{bmatrix}$ ， $B$ 为单位矩阵
参数变化： $c \in \{0.1, 0.7\}$ 以测试不同衰减率
优化目标： $\min (x-x_{ref})^\top(x-x_{ref})$ ，其中 $x_{ref} = [100, 100]^\top$
稳态映射： $H = (I-A)^{-1}B$

实验2：热舒适优化

系统：13状态的建筑LTI模型27
效用函数：PMV (Predictive Mean Vote)模型3
评价指标：PPD (Predicted Percentage of Dissatisfied)指数
目标：识别最小化PPD的室内温度
用户设定：打字活动，穿着运动裤、T恤和鞋子

评价指标

相对误差： $\|x_k - x_{ref}\|/\|x_{ref}\|$ （对数尺度）
温度跟踪：实际温度与最优温度的差异
稳态方差：算法在稳态时的波动程度
超调量：收敛过程中的最大偏离

对比方法

代数系统（橙色线）：假设 $H$ 已知，直接采样 $\mathbb{1}_{u_k+\delta v_k \succ u_{k-1}+\delta v_{k-1}}$
无噪声用户模型： $\mathbb{1} = \text{sign}(\Phi(x_k, u_{k-1}+\delta v_{k-1}) - \Phi(x_{k+1}, u_k+\delta v_k))$
提出的方法（蓝色线）：完整的Algorithm 1

实现细节

步长： $\eta = 0.1$
平滑参数： $\delta = 0.5$
模拟次数：20次独立运行
统计展示：实线为均值，阴影区域为一个标准差
初始条件： $u_0$ 随机初始化

实验结果

主要结果

实验1：二次问题

系统参数	收敛速度	稳态精度	超调量	稳态方差
c=0.1 (快速)	快	高	小	小
c=0.7 (慢速)	慢	相当	大	大

关键发现：

稳态性能：提出的方法（蓝线）和代数系统（橙线）在稳态达到相当的精度水平
瞬态影响：对于较慢的系统（c=0.7），提出的方法表现出更大的超调和更高的稳态方差
理论验证：实验结果与理论预测一致 - 系统衰减率μ影响性能

实验2：热舒适优化

收敛性：算法成功跟踪最优温度（黑色水平线）
噪声影响：
- 有噪声反馈（蓝线）：收敛较慢，存在波动
- 无噪声反馈（橙线）：收敛更快，更稳定
实用性：通过仔细调整η和δ，控制器能够有效跟踪最优点而无大幅超调

实验发现

系统动态的重要性：
- 系统瞬态显著影响算法性能
- 快速稳定的系统（小μ）实现更好的跟踪性能
- 这验证了Lemma 1和Theorem 1中关于μ的理论结果
参数权衡：
- δ：较小的δ减少探索噪声但可能导致局部最优
- η：需要平衡收敛速度和稳定性
- 存在探索-利用权衡
用户模型影响：
- Bradley-Terry模型（概率反馈）引入额外噪声
- 确定性反馈显著提高性能
- 为未来研究替代用户模型提供动机
实际应用潜力：
- 热舒适优化展示了学习人类效用的实际应用潜力
- 单点评估方案适合在线实现
- 算法对初始条件具有鲁棒性

结论与讨论

主要结论

理论贡献：
- 开发了首个利用偏好反馈并提供闭环保证的人类感知控制器
- 显式量化了系统瞬态对性能的影响
- 建立了稳定性和最优性的理论保证
方法优势：
- 每步仅需一次效用评估
- 无需精确系统模型
- 能够处理时变效用和外部扰动
实验验证：
- 理论结果在数值实验中得到验证
- 在热舒适优化任务中展示了实际应用潜力

局限性

假设条件：
- 强凸性假设在某些应用中可能过强
- Bradley-Terry模型假设人类行为完全理性，但实际中人类并非总是理性9
- 需要指数稳定的系统
稳态误差：
- 存在 $O(\mu, \delta)$ 的稳态误差
- 无法完全消除，只能通过调参减小
- 对于非常慢的系统，性能可能下降
用户负担：
- 需要用户在每个时间步提供反馈
- 在实际应用中可能导致用户疲劳
- 未考虑用户反馈延迟
理论-实践差距：
- 确定性反馈模型的理论分析尚未建立
- 实验显示无噪声模型性能更好，但缺乏理论支持
计算复杂度：
- 未讨论大规模系统的可扩展性
- 随机探索在高维空间可能效率低

未来方向

作者明确提出的方向：

扩展理论框架到替代用户模型（如无噪声模型）
实际应用：产品设计、化学选择等
放松假设：非凸效用函数、不稳定系统
多智能体场景：多个用户的偏好聚合

潜在研究方向： 5. 自适应参数调整：在线调整η和δ 6. 用户疲劳建模：减少反馈频率 7. 延迟反馈：处理用户响应延迟 8. 高维优化：更高效的探索策略

深度评价

优点

理论严谨性：

完整的理论框架：从稳定性（Lemma 1）到最优性（Theorem 1）的完整分析链
显式误差界：明确量化了近似误差（Lemma 4），而非仅给出渐近结果
温和假设：虽然有强凸性假设，但其他假设（Lipschitz连续性）在实践中常见
证明完整：所有主要结果都有详细证明（附录）

方法创新性：

首创性：首次将偏好反馈与闭环控制结合，填补了研究空白
单点评估：相比现有方法减少50%的评估次数，显著提高实用性
统一框架：将稳定性和最优性分析统一在同一框架下
概率解释：将二元反馈转化为概率梯度下降，提供直观理解

实验设计：

渐进式验证：从简单二次问题到实际热舒适问题
参数敏感性分析：通过不同c值测试系统动态的影响
统计可靠性：20次独立运行，提供均值和方差
实际相关性：热舒适优化是真实应用场景

写作质量：

结构清晰：从问题定义到理论分析到实验验证，逻辑严密
符号规范：数学符号使用一致且标准
直观解释：在技术细节之外提供了多个Remark进行直观解释

不足

理论局限：

强凸性假设：限制了适用范围，许多实际效用函数（如PPD）是非凸的
渐近结果：Theorem 1给出的界依赖于任意固定的k'，没有给出有限时间的明确收敛率
常数依赖： $O(\mu, \delta)$ 中的常数可能很大，理论界可能过于保守
确定性模型缺失：实验显示无噪声模型性能更好，但缺乏理论分析

实验不足：

对比方法有限：
- 未与其他偏好学习方法（如GP-based方法[14]15）比较
- 未与传统自适应控制方法比较
- 仅与代数系统和无噪声模型比较
参数调优：
- 未系统研究η和δ的选择策略
- 未提供参数选择指南
- 实验中的参数选择似乎是手动调优的
规模限制：
- 仅测试了低维系统（2D和13D）
- 未验证高维情况下的可扩展性
真实用户测试缺失：
- 所有实验基于模拟用户模型
- 未进行真实人类受试者实验
- 无法验证Bradley-Terry模型的实际有效性

方法局限：

探索效率：均匀球面采样在高维空间可能效率低
冷启动问题：算法需要初始的u₀，未讨论如何选择
鲁棒性：未分析对模型失配、测量噪声的鲁棒性
计算成本：未讨论每步的计算复杂度

实用性考虑：

用户负担：每步都需要用户反馈，可能导致疲劳
反馈质量：假设用户能够准确提供偏好，但实际中可能不一致
安全约束：未考虑状态和输入约束，在实际系统中很重要
多目标优化：仅考虑单一效用函数

影响力

对领域的贡献：

开创性工作：开辟了实时偏好优化这一新研究方向
理论基础：为后续研究提供了理论框架和分析工具
跨学科桥梁：连接了控制理论、优化和人机交互领域
应用潜力：为人类感知系统设计提供了新思路

预期影响：

短期：可能引发更多关于偏好反馈控制的研究
中期：可能被应用于建筑控制、个性化推荐等领域
长期：可能影响人机交互系统的设计范式

局限性：

强假设可能限制实际应用
缺乏真实用户实验可能影响可信度
需要更多工程化工作才能实际部署

适用场景

理想应用场景：

建筑控制：
- 个性化温度调节
- 照明控制
- 空气质量管理
- 优势：系统动态相对慢，用户可以提供持续反馈
个性化推荐：
- 产品推荐
- 内容推荐
- 优势：用户习惯于提供比较反馈
医疗保健：
- 个性化治疗方案调整
- 康复训练强度调节
- 优势：强调个体差异
人机协作：
- 机器人辅助任务
- 自动驾驶个性化
- 优势：需要实时适应用户偏好

不适用场景：

快速动态系统：高频交易、飞行控制等（用户无法及时反馈）
高维复杂系统：探索效率低
严格安全约束：未处理约束，可能不安全
多目标冲突：仅考虑单一效用
非凸优化：理论保证失效

改进建议：

结合主动学习减少用户反馈频率
引入安全滤波器处理约束
扩展到多目标场景
开发自适应参数调整策略

参考文献

关键参考文献：

8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
- 本文的主要理论基础
- 提供了单点残差估计的思想
18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
- 偏好反馈梯度估计的经典工作
- 本文改进了其需要两次评估的问题
16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
- 偏好贝叶斯优化的最新进展
- 提供了GP-based方法的对比基准
27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
- 建筑控制的实际系统模型
- 为实验提供了现实场景
9 D. Kahneman & A. Tversky, 2013 - Prospect theory
- 人类决策的非理性行为
- 指出了用户模型假设的局限性

总体评价：这是一篇理论严谨、创新性强的优秀论文，成功地将偏好学习与闭环控制结合，为人机交互系统设计提供了新的理论框架。主要贡献在于首次提供了实时偏好优化的稳定性和最优性保证，且方法具有实用价值（单点评估）。然而，强凸性假设、缺乏真实用户实验和有限的对比实验是其主要不足。未来工作应关注放松假设、进行真实用户研究以及扩展到更复杂的实际应用场景。对于从事人机交互控制、偏好学习或在线优化的研究者，这篇论文值得深入研读。

Human-in-the-loop: Real-time Preference Optimization

Human-in-the-loop: Real-time Preference Optimization

基本信息

摘要

研究背景与动机

要解决的问题

问题的重要性

现有方法的局限性

研究动机

核心贡献

方法详解

任务定义

模型架构

技术创新点

理论结果

实验设置

数据集/系统模型

评价指标

对比方法

实现细节

实验结果

主要结果

实验发现

相关工作

在线反馈优化(OFO)

离线偏好优化

本文的差异化优势

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献