2025-11-24T00:22:17.812402

Human-in-the-loop: Real-time Preference Optimization

Wang, Xu, Jones
Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.
academic

Человек в цикле: оптимизация предпочтений в реальном времени

Основная информация

  • ID статьи: 2506.02225
  • Название: Human-in-the-loop: Real-time Preference Optimization
  • Авторы: Wenbin Wang, Wenjie Xu, Colin N. Jones (Лаборатория автоматического управления EPFL)
  • Классификация: math.OC (оптимизация и управление)
  • Дата публикации: препринт arXiv, версия 2 от 3 ноября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2506.02225

Аннотация

В данной работе исследуется задача оптимизации с обратной связью по предпочтениям, которая имеет широкое применение в инженерных системах, где человек играет центральную роль, таких как управление зданиями и автономное вождение. Существующие исследования в основном сосредоточены на статической оптимизации полезности пользователя и редко рассматривают замкнутое поведение переходных процессов системы. В статье предложен контроллер оптимизации обратной связи в режиме реального времени, который может оптимизировать полезность пользователя, используя попарные сравнительные отзывы, при этом обеспечивая гарантии оптимальности и устойчивости замкнутого контура. Путём добавления сигнала случайного исследования контроллер оценивает градиент на основе двоичной сравнительной обратной связи между двумя последовательными временными шагами. Авторы анализируют замкнутое поведение при взаимодействии контроллера с нелинейной системой и доказывают, что при мягких предположениях контроллер сходится к оптимальной точке без вызывания нестабильности. Теоретические результаты проверены численными экспериментами.

Исследовательский контекст и мотивация

Решаемые проблемы

  1. Задача управления человеко-машинным взаимодействием: как спроектировать контроллер, чувствительный к человеку, который может оптимизировать потенциальную полезность пользователя в реальном времени, позволяя системе адаптироваться к предпочтениям пользователя
  2. Оптимизация в реальном времени с обратной связью по предпочтениям: как использовать двоичные сравнения предпочтений (а не абсолютные значения полезности) для оптимизации в режиме онлайн
  3. Гарантии устойчивости замкнутого контура: как обеспечить устойчивость системы при рассмотрении переходных процессов, чтобы оптимизация не привела к нестабильности

Важность проблемы

  • Индивидуальные различия: традиционные контроллеры отслеживают предопределённые опорные точки на основе моделей больших групп людей (например, комнатная температура в системах управления зданиями), что вводит смещение и приводит к неоптимальной производительности, так как не учитывает индивидуальные различия
  • Изменяющаяся во времени полезность: без обратной связи от человека в реальном времени контроллер не может реагировать на изменяющуюся полезность и не является робастным к внешним возмущениям
  • Когнитивные характеристики человека: люди лучше справляются с относительными сравнениями, чем с абсолютными оценками, поэтому обратная связь по предпочтениям обычно представляется в виде попарных сравнений

Ограничения существующих методов

  1. Оптимизация обратной связи в режиме онлайн (OFO): существующие методы OFO (такие как сеточное управление, координация роботов) требуют точных значений полезности или информации о градиентах, что затрудняет прямое применение к сценариям с обратной связью по предпочтениям человека
  2. Автономная оптимизация предпочтений:
    • большинство исследований рассматривают статические задачи, игнорируя переходные процессы системы
    • существующие методы оценки градиента (такие как 18,19) требуют двух оценок функции на каждом временном шаге, что непригодно для реализации в режиме онлайн
    • отсутствует анализ устойчивости замкнутого контура
  3. Сложность количественной оценки устойчивости: двоичный характер обратной связи по предпочтениям делает общую динамику высоконелинейной, что затрудняет анализ устойчивости
  4. Ограниченные знания пользователя: пользователи обычно имеют ограниченные знания о динамике системы, и прямое следование их предпочтениям может привести к нестабильности системы

Исследовательская мотивация

Вдохновлённые недавно предложенным методом OFO без модели и оценкой остатков в одной точке 8, авторы стремятся разработать первую работу, решающую задачу оптимизации предпочтений в реальном времени и обеспечивающую гарантии замкнутого контура.

Основные вклады

  1. Новый контроллер OFO: предложен первый контроллер оптимизации обратной связи в режиме онлайн, который использует двоичную обратную связь по предпочтениям для оптимизации полезности пользователя и обеспечивает устойчивость замкнутого контура
  2. Схема оценки в одной точке: используется схема случайного исследования, требующая только одной оценки полезности на каждом временном шаге (вместо двух), что лучше подходит для реализации в режиме онлайн
  3. Теоретические гарантии:
    • доказана устойчивость замкнутой системы (Лемма 1: ограниченность функции Ляпунова в ожидании)
    • установлены гарантии оптимальности (Теорема 1: сходимость ожидаемого расстояния к O(μ, δ))
    • количественно определено влияние переходных процессов системы на производительность
  4. Первые гарантии замкнутого контура: по знанию авторов, это первая работа, обеспечивающая гарантии замкнутого контура для задачи оптимизации предпочтений в реальном времени
  5. Численная проверка: теоретические результаты проверены на задаче оптимизации теплового комфорта

Подробное описание метода

Определение задачи

Модель системы: рассматривается экспоненциально устойчивая система xk+1=f(xk,uk)x_{k+1} = f(x_k, u_k) где xRnxx \in \mathbb{R}^{n_x} — состояние системы, uRnuu \in \mathbb{R}^{n_u} — управляющее воздействие, существует уникальное отображение вход-состояние в установившемся режиме h:RnuRnxh: \mathbb{R}^{n_u} \rightarrow \mathbb{R}^{n_x}.

Цель оптимизации: оптимизация полезности пользователя в установившемся режиме minx,uΦ(x,u),при условии x=h(u)\min_{x,u} \Phi(x, u), \quad \text{при условии } x = h(u) эквивалентна задаче без ограничений: minuΦ~(u),где Φ~(u)=Φ(h(u),u)\min_u \tilde{\Phi}(u), \quad \text{где } \tilde{\Phi}(u) = \Phi(h(u), u)

Модель обратной связи по предпочтениям (модель Брэдли-Терри): P(1u1u2=1)=σ(Φ~(u2)Φ~(u1))P(\mathbb{1}_{u_1 \succ u_2} = 1) = \sigma(\tilde{\Phi}(u_2) - \tilde{\Phi}(u_1)) где σ(t)=11+et\sigma(t) = \frac{1}{1+e^{-t}} — сигмоидная функция.

Ключевые предположения:

  1. Отображение вход-состояние hh является липшицевым непрерывным
  2. Функция полезности Φ(x,u)\Phi(x,u) липшицева непрерывна по xx
  3. Φ~(u)\tilde{\Phi}(u) дифференцируема, липшицева непрерывна, гладка и сильно выпукла

Архитектура модели

Процесс алгоритма (Алгоритм 1):

Вход: размер шага η, параметр сглаживания δ, начальное управление u₀, число временных шагов T
для k = 1, ..., T-1:
    1. Добавить случайное исследование: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
       где vₖ равномерно выбирается из (nᵤ-1)-мерной единичной сферы
    
    2. Собрать обратную связь по предпочтениям:
       попросить пользователя сравнить Φ(xₖ₊₁, uₖ + δvₖ) и Φ(xₖ, uₖ₋₁ + δvₖ₋₁)
       выбрать 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
    
    3. Обновить управляющее воздействие:
       uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
конец для
Выход: uₜ

Замкнутая система: xk+1=f(xk,uk+δvk)x_{k+1} = f(x_k, u_k + \delta v_k)uk+1=uk+η2δ1(xk+1,uk+δvk)(xk,uk1+δvk1)vku_{k+1} = u_k + \frac{\eta}{2\delta}\mathbb{1}_{(x_{k+1},u_k+\delta v_k)\succ(x_k,u_{k-1}+\delta v_{k-1})}v_k

Технические инновации

  1. Оценка остатков в одной точке:
    • использование xk+1x_{k+1} для аппроксимации h(uk+δvk)h(u_k + \delta v_k), избегая необходимости точной модели системы
    • требуется только одна оценка полезности на каждом временном шаге вместо традиционных двух
    • сравнение между последовательными временными шагами естественно встраивает временную структуру
  2. Интерпретация вероятностного градиентного спуска:
    • интерпретация правила обновления как градиентного спуска вероятностной функции pu(u)=P(1uu=1)p_{u'}(u) = P(\mathbb{1}_{u \succ u'} = 1)
    • доказано, что минимизация pu(u)p_{u'}(u) эквивалентна минимизации Φ~(u)\tilde{\Phi}(u) (Лемма 3)
    • обновление записывается как: uk+1=ukη(puk(uk)+ek)u_{k+1} = u_k - \eta(\nabla p_{u_k}(u_k) + e_k)
    • где член ошибки eke_k возникает из аппроксимации xk+1x_{k+1} вместо h(uk+δvk)h(u_k + \delta v_k) и стохастической оценки градиента
  3. Структура анализа ошибок:
    • явная количественная оценка границы ошибки eke_k (Лемма 4): E[ekFk]R1V(xk1,uk1+δvk1)+R2\|E[e_k|F_k]\| \leq \sqrt{R_1 V(x_{k-1}, u_{k-1}+\delta v_{k-1}) + R_2}
    • где R1=O(μ)R_1 = O(\mu), R2=O(μ,δ2)R_2 = O(\mu, \delta^2), μ\mu — скорость затухания системы
    • чем быстрее стабилизируется система (меньше μ), тем меньше ошибка аппроксимации
  4. Единый анализ устойчивости и оптимальности:
    • анализ устойчивости через функцию Ляпунова (Лемма 1)
    • анализ оптимальности через ожидаемое расстояние E[uku2]E[\|u_k - u^*\|^2] (Теорема 1)
    • оба связаны через переходные процессы системы

Теоретические результаты

Устойчивость (Лемма 1): E[V(xk,uk+δvk)]μkE[V(x0,u0+δv0)]+a11μ(2δ2+η+(η2δ)2)E[V(x_k, u_k+\delta v_k)] \leq \mu^k E[V(x_0, u_0+\delta v_0)] + \frac{a_1}{1-\mu}(2\delta^2 + \eta + (\frac{\eta}{2\delta})^2) где μ=2α2α1(1α3α2)<1\mu = \frac{2\alpha_2}{\alpha_1}(1-\frac{\alpha_3}{\alpha_2}) < 1.

Оптимальность (Теорема 1): E[uku2](1+ρ2)kkE[uku2]+O(μ,μk,δ)E[\|u_k - u^*\|^2] \leq (\frac{1+\rho}{2})^{k-k'} E[\|u_{k'} - u^*\|^2] + O(\mu, \mu^{k'}, \delta) где ρ=12σ(0)mη\rho = 1 - 2\sigma'(0)m\eta.

Ключевые выводы:

  • ошибка в установившемся режиме характеризуется как O(μ,δ)O(\mu, \delta)
  • более быстрая стабилизация системы (меньшее μ) приводит к лучшей производительности
  • существует компромисс между исследованием и использованием (выбор δ)

Экспериментальная установка

Наборы данных/модели систем

Эксперимент 1: квадратичная задача

  • Система: ЛВИ система xk+1=Axk+Bukx_{k+1} = Ax_k + Bu_k
  • Матрицы: A=[c10c]A = \begin{bmatrix} c & 1 \\ 0 & c \end{bmatrix}, BB — единичная матрица
  • Вариация параметров: c{0.1,0.7}c \in \{0.1, 0.7\} для проверки различных скоростей затухания
  • Цель оптимизации: min(xxref)(xxref)\min (x-x_{ref})^\top(x-x_{ref}), где xref=[100,100]x_{ref} = [100, 100]^\top
  • Отображение в установившемся режиме: H=(IA)1BH = (I-A)^{-1}B

Эксперимент 2: оптимизация теплового комфорта

  • Система: 13-состояние ЛВИ модель здания 27
  • Функция полезности: модель PMV (Predictive Mean Vote)
  • Метрика оценки: индекс PPD (Predicted Percentage of Dissatisfied)
  • Цель: определить комнатную температуру, минимизирующую PPD
  • Параметры пользователя: печать, спортивные штаны, футболка и обувь

Метрики оценки

  1. Относительная ошибка: xkxref/xref\|x_k - x_{ref}\|/\|x_{ref}\| (логарифмическая шкала)
  2. Отслеживание температуры: разница между фактической и оптимальной температурой
  3. Дисперсия в установившемся режиме: колебания алгоритма в установившемся режиме
  4. Перерегулирование: максимальное отклонение во время процесса сходимости

Методы сравнения

  1. Алгебраическая система (оранжевая линия): предполагается известность HH, прямое выборочное получение 1uk+δvkuk1+δvk1\mathbb{1}_{u_k+\delta v_k \succ u_{k-1}+\delta v_{k-1}}
  2. Модель пользователя без шума: 1=sign(Φ(xk,uk1+δvk1)Φ(xk+1,uk+δvk))\mathbb{1} = \text{sign}(\Phi(x_k, u_{k-1}+\delta v_{k-1}) - \Phi(x_{k+1}, u_k+\delta v_k))
  3. Предложенный метод (синяя линия): полный Алгоритм 1

Детали реализации

  • Размер шага: η=0.1\eta = 0.1
  • Параметр сглаживания: δ=0.5\delta = 0.5
  • Количество моделирований: 20 независимых запусков
  • Статистическое представление: сплошная линия — среднее значение, затенённая область — одно стандартное отклонение
  • Начальные условия: u0u_0 инициализируется случайно

Результаты экспериментов

Основные результаты

Эксперимент 1: квадратичная задача

Параметр системыСкорость сходимостиТочность в установившемся режимеПеререгулированиеДисперсия в установившемся режиме
c=0.1 (быстрая)БыстраяВысокаяМалоеМалая
c=0.7 (медленная)МедленнаяСравнимаяБольшоеБольшая

Ключевые находки:

  1. Производительность в установившемся режиме: предложенный метод (синяя линия) и алгебраическая система (оранжевая линия) достигают сравнимого уровня точности в установившемся режиме
  2. Влияние переходных процессов: для более медленной системы (c=0.7) предложенный метод показывает большее перерегулирование и более высокую дисперсию в установившемся режиме
  3. Проверка теории: результаты экспериментов согласуются с теоретическими предсказаниями — скорость затухания системы μ влияет на производительность

Эксперимент 2: оптимизация теплового комфорта

  • Сходимость: алгоритм успешно отслеживает оптимальную температуру (чёрная горизонтальная линия)
  • Влияние шума:
    • обратная связь с шумом (синяя линия): более медленная сходимость, наличие колебаний
    • обратная связь без шума (оранжевая линия): более быстрая сходимость, большая стабильность
  • Практичность: путём тщательной настройки η и δ контроллер может эффективно отслеживать оптимальную точку без значительного перерегулирования

Экспериментальные находки

  1. Важность динамики системы:
    • переходные процессы системы значительно влияют на производительность алгоритма
    • быстро стабилизирующаяся система (малое μ) достигает лучшей производительности отслеживания
    • это подтверждает теоретические результаты о влиянии μ в Лемме 1 и Теореме 1
  2. Компромисс параметров:
    • δ: меньшее δ уменьшает шум исследования, но может привести к локальному оптимуму
    • η: необходимо сбалансировать скорость сходимости и устойчивость
    • существует компромисс между исследованием и использованием
  3. Влияние модели пользователя:
    • модель Брэдли-Терри (вероятностная обратная связь) вводит дополнительный шум
    • детерминированная обратная связь значительно улучшает производительность
    • это мотивирует будущие исследования альтернативных моделей пользователя
  4. Потенциал практического применения:
    • оптимизация теплового комфорта демонстрирует практический потенциал обучения полезности человека
    • схема оценки в одной точке подходит для реализации в режиме онлайн
    • алгоритм является робастным к начальным условиям

Связанные работы

Оптимизация обратной связи в режиме онлайн (OFO)

  • Приложения: сеточное управление 5 и координация роботов 6
  • Теоретические гарантии: первого порядка 7 и нулевого порядка 8
  • Ограничения: требуют точных значений полезности или информации о градиентах

Автономная оптимизация предпочтений

Конечное пространство действий:

  • Концепции оптимальности: победитель Коплэнда 10, победитель Борда 11
  • Алгоритмы: случайное исследование 12, жадный поиск 13

Непрерывное пространство действий:

  • Моделирование ГП: моделирование скрытой полезности гауссовскими процессами
  • Эвристические стратегии: балансировка исследования и использования [14]15
  • Гарантии сожаления: когда полезность находится в RKHS [16]17

Оценка градиента:

  • Существующие методы [18]19: требуют двух оценок на шаг
  • Метод данной работы: требует только одной оценки, лучше подходит для сценариев онлайн

Дифференцирующие преимущества данной работы

  1. Первые гарантии замкнутого контура: рассмотрение переходных процессов системы при оптимизации предпочтений в реальном времени
  2. Оценка в одной точке: более высокая вычислительная эффективность
  3. Полнота теории: одновременное обеспечение гарантий устойчивости и оптимальности
  4. Практичность: применимость к реальным инженерным системам

Заключение и обсуждение

Основные выводы

  1. Теоретический вклад:
    • разработан первый контроллер, чувствительный к человеку, использующий обратную связь по предпочтениям и обеспечивающий гарантии замкнутого контура
    • явно количественно определено влияние переходных процессов системы на производительность
    • установлены теоретические гарантии устойчивости и оптимальности
  2. Преимущества метода:
    • требуется только одна оценка полезности на шаг
    • не требует точной модели системы
    • может обрабатывать изменяющуюся во времени полезность и внешние возмущения
  3. Экспериментальная проверка:
    • теоретические результаты проверены численными экспериментами
    • демонстрирован практический потенциал применения на задаче оптимизации теплового комфорта

Ограничения

  1. Условия предположений:
    • предположение о сильной выпуклости может быть слишком строгим для некоторых приложений
    • модель Брэдли-Терри предполагает полностью рациональное поведение человека, но на практике люди не всегда рациональны 9
    • требуется экспоненциально устойчивая система
  2. Ошибка в установившемся режиме:
    • существует ошибка в установившемся режиме O(μ,δ)O(\mu, \delta)
    • невозможно полностью устранить, можно только уменьшить путём настройки параметров
    • для очень медленных систем производительность может снизиться
  3. Нагрузка на пользователя:
    • требуется обратная связь пользователя на каждом временном шаге
    • может привести к усталости пользователя в практических приложениях
    • не рассмотрена задержка обратной связи пользователя
  4. Разрыв между теорией и практикой:
    • теоретический анализ детерминированной модели обратной связи ещё не установлен
    • эксперименты показывают лучшую производительность модели без шума, но отсутствует теоретическая поддержка
  5. Вычислительная сложность:
    • не обсуждена масштабируемость для больших систем
    • случайное исследование может быть неэффективным в высокомерных пространствах

Направления будущих исследований

Авторы явно предлагают следующие направления:

  1. Расширение теоретической базы на альтернативные модели пользователя (например, модель без шума)
  2. Практические приложения: дизайн продуктов, выбор химических веществ и т.д.
  3. Ослабление предположений: невыпуклые функции полезности, неустойчивые системы
  4. Многоагентные сценарии: агрегация предпочтений нескольких пользователей

Потенциальные направления исследований: 5. Адаптивная настройка параметров: онлайн-настройка η и δ 6. Моделирование усталости пользователя: снижение частоты обратной связи 7. Обработка задержанной обратной связи: учёт задержки ответа пользователя 8. Оптимизация в высоких размерностях: более эффективные стратегии исследования

Глубокая оценка

Преимущества

Теоретическая строгость:

  1. Полная теоретическая база: полная цепь анализа от устойчивости (Лемма 1) к оптимальности (Теорема 1)
  2. Явные границы ошибок: явная количественная оценка ошибок аппроксимации (Лемма 4), а не только асимптотические результаты
  3. Мягкие предположения: хотя предположение о сильной выпуклости присутствует, другие предположения (липшицева непрерывность) часто встречаются на практике
  4. Полные доказательства: все основные результаты имеют подробные доказательства (приложение)

Инновационность метода:

  1. Новаторство: впервые объединены обратная связь по предпочтениям и управление замкнутым контуром, заполнен пробел в исследованиях
  2. Оценка в одной точке: по сравнению с существующими методами сокращение на 50% количества оценок, значительное повышение практичности
  3. Единая база: анализ устойчивости и оптимальности объединены в одной базе
  4. Вероятностная интерпретация: преобразование двоичной обратной связи в вероятностный градиентный спуск, обеспечение интуитивного понимания

Дизайн экспериментов:

  1. Прогрессивная проверка: от простой квадратичной задачи к практической задаче оптимизации теплового комфорта
  2. Анализ чувствительности параметров: проверка влияния динамики системы через различные значения c
  3. Статистическая надёжность: 20 независимых запусков, предоставление среднего значения и дисперсии
  4. Практическая релевантность: оптимизация теплового комфорта — реальный сценарий применения

Качество написания:

  1. Ясная структура: от определения задачи к теоретическому анализу к экспериментальной проверке, логическая последовательность
  2. Стандартная нотация: математическая нотация используется последовательно и стандартно
  3. Интуитивные объяснения: несколько замечаний для интуитивного объяснения за пределами технических деталей

Недостатки

Теоретические ограничения:

  1. Предположение о сильной выпуклости: ограничивает область применения, многие практические функции полезности (например, PPD) невыпуклы
  2. Асимптотические результаты: Теорема 1 даёт границу, зависящую от произвольно фиксированного k', без явной конечной скорости сходимости
  3. Зависимость от констант: константы в O(μ,δ)O(\mu, \delta) могут быть большими, теоретические границы могут быть консервативными
  4. Отсутствие анализа детерминированной модели: эксперименты показывают лучшую производительность модели без шума, но отсутствует теоретический анализ

Недостатки экспериментов:

  1. Ограниченные методы сравнения:
    • не сравнивается с другими методами обучения предпочтений (например, методы на основе ГП [14]15)
    • не сравнивается с традиционными методами адаптивного управления
    • сравнение только с алгебраической системой и моделью без шума
  2. Настройка параметров:
    • не проведено систематическое исследование выбора η и δ
    • не предоставлены рекомендации по выбору параметров
    • параметры в экспериментах, похоже, выбраны вручную
  3. Ограничения масштаба:
    • проверены только низкомерные системы (2D и 13D)
    • не проверена масштабируемость в высокомерных случаях
  4. Отсутствие тестирования с реальными пользователями:
    • все эксперименты основаны на смоделированной модели пользователя
    • не проведены эксперименты с реальными испытуемыми
    • невозможно проверить практическую эффективность модели Брэдли-Терри

Ограничения метода:

  1. Эффективность исследования: равномерная выборка на сфере может быть неэффективной в высокомерных пространствах
  2. Проблема холодного старта: алгоритм требует начального u₀, не обсуждается выбор
  3. Робастность: не проведён анализ робастности к ошибкам модели, шумам измерений
  4. Вычислительные затраты: не обсуждена вычислительная сложность каждого шага

Практические соображения:

  1. Нагрузка на пользователя: требуется обратная связь пользователя на каждом шаге, может привести к усталости
  2. Качество обратной связи: предполагается, что пользователь может точно предоставить предпочтения, но на практике может быть непоследовательность
  3. Ограничения безопасности: не рассмотрены ограничения на состояния и входы, важные в реальных системах
  4. Многокритериальная оптимизация: рассматривается только одна функция полезности

Влияние

Вклад в область:

  1. Новаторская работа: открывает новое направление исследований — оптимизация предпочтений в реальном времени
  2. Теоретическая база: предоставляет теоретическую базу и инструменты анализа для последующих исследований
  3. Междисциплинарный мост: соединяет теорию управления, оптимизацию и взаимодействие человека и машины
  4. Потенциал применения: предлагает новые идеи для проектирования систем, чувствительных к человеку

Ожидаемое влияние:

  • Краткосрочное: может вызвать больше исследований по управлению с обратной связью по предпочтениям
  • Среднесрочное: может быть применено в управлении зданиями, персонализированных рекомендациях и других областях
  • Долгосрочное: может повлиять на парадигму проектирования систем взаимодействия человека и машины

Ограничения:

  • строгие предположения могут ограничить практическое применение
  • отсутствие экспериментов с реальными пользователями может повлиять на достоверность
  • требуется больше инженерной работы для практического развёртывания

Применимые сценарии

Идеальные сценарии применения:

  1. Управление зданиями:
    • персонализированная регулировка температуры
    • управление освещением
    • управление качеством воздуха
    • преимущество: система имеет относительно медленную динамику, пользователь может предоставить постоянную обратную связь
  2. Персонализированные рекомендации:
    • рекомендации продуктов
    • рекомендации контента
    • преимущество: пользователи привыкли предоставлять сравнительную обратную связь
  3. Здравоохранение:
    • персонализированная корректировка плана лечения
    • регулировка интенсивности реабилитационных тренировок
    • преимущество: подчёркивает индивидуальные различия
  4. Человеко-машинное сотрудничество:
    • робот-помощник для задач
    • персонализация автономного вождения
    • преимущество: требует адаптации к предпочтениям пользователя в реальном времени

Неприменимые сценарии:

  1. Системы с быстрой динамикой: высокочастотная торговля, управление полётом и т.д. (пользователь не может своевременно предоставить обратную связь)
  2. Высокомерные сложные системы: низкая эффективность исследования
  3. Строгие ограничения безопасности: не обрабатываются ограничения, может быть небезопасно
  4. Конфликтующие многокритериальные цели: рассматривается только одна полезность
  5. Невыпуклая оптимизация: теоретические гарантии не применяются

Рекомендации по улучшению:

  • объединить активное обучение для снижения частоты обратной связи пользователя
  • ввести фильтр безопасности для обработки ограничений
  • расширить на многокритериальные сценарии
  • разработать стратегию адаптивной настройки параметров

Библиография

Ключевые ссылки:

  1. 8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
    • основная теоретическая база данной работы
    • предоставляет идею оценки остатков в одной точке
  2. 18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
    • классическая работа по оценке градиента с обратной связью по предпочтениям
    • данная работа улучшает требование двух оценок
  3. 16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
    • последние достижения в байесовской оптимизации предпочтений
    • предоставляет базис для сравнения методов на основе ГП
  4. 27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
    • реальная модель системы управления зданиями
    • предоставляет реальный сценарий для экспериментов
  5. 9 D. Kahneman & A. Tversky, 2013 - Prospect theory
    • нерациональное поведение человека при принятии решений
    • указывает на ограничения предположений о модели пользователя

Общая оценка: это отличная статья с строгой теорией и сильной инновационностью, успешно объединяющая обучение предпочтений и управление замкнутым контуром, предоставляющая новую теоретическую базу для проектирования систем взаимодействия человека и машины. Основной вклад заключается в первом обеспечении гарантий устойчивости и оптимальности для оптимизации предпочтений в реальном времени, и метод имеет практическую ценность (оценка в одной точке). Однако предположение о сильной выпуклости, отсутствие экспериментов с реальными пользователями и ограниченные методы сравнения являются основными недостатками. Будущая работа должна сосредоточиться на ослаблении предположений, проведении исследований с реальными пользователями и расширении на более сложные практические сценарии применения. Для исследователей, работающих в области управления взаимодействием человека и машины, обучения предпочтениям или оптимизации в режиме онлайн, эта статья заслуживает тщательного изучения.