Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.
academic
Человек в цикле: оптимизация предпочтений в реальном времени
В данной работе исследуется задача оптимизации с обратной связью по предпочтениям, которая имеет широкое применение в инженерных системах, где человек играет центральную роль, таких как управление зданиями и автономное вождение. Существующие исследования в основном сосредоточены на статической оптимизации полезности пользователя и редко рассматривают замкнутое поведение переходных процессов системы. В статье предложен контроллер оптимизации обратной связи в режиме реального времени, который может оптимизировать полезность пользователя, используя попарные сравнительные отзывы, при этом обеспечивая гарантии оптимальности и устойчивости замкнутого контура. Путём добавления сигнала случайного исследования контроллер оценивает градиент на основе двоичной сравнительной обратной связи между двумя последовательными временными шагами. Авторы анализируют замкнутое поведение при взаимодействии контроллера с нелинейной системой и доказывают, что при мягких предположениях контроллер сходится к оптимальной точке без вызывания нестабильности. Теоретические результаты проверены численными экспериментами.
Задача управления человеко-машинным взаимодействием: как спроектировать контроллер, чувствительный к человеку, который может оптимизировать потенциальную полезность пользователя в реальном времени, позволяя системе адаптироваться к предпочтениям пользователя
Оптимизация в реальном времени с обратной связью по предпочтениям: как использовать двоичные сравнения предпочтений (а не абсолютные значения полезности) для оптимизации в режиме онлайн
Гарантии устойчивости замкнутого контура: как обеспечить устойчивость системы при рассмотрении переходных процессов, чтобы оптимизация не привела к нестабильности
Индивидуальные различия: традиционные контроллеры отслеживают предопределённые опорные точки на основе моделей больших групп людей (например, комнатная температура в системах управления зданиями), что вводит смещение и приводит к неоптимальной производительности, так как не учитывает индивидуальные различия
Изменяющаяся во времени полезность: без обратной связи от человека в реальном времени контроллер не может реагировать на изменяющуюся полезность и не является робастным к внешним возмущениям
Когнитивные характеристики человека: люди лучше справляются с относительными сравнениями, чем с абсолютными оценками, поэтому обратная связь по предпочтениям обычно представляется в виде попарных сравнений
Оптимизация обратной связи в режиме онлайн (OFO): существующие методы OFO (такие как сеточное управление, координация роботов) требуют точных значений полезности или информации о градиентах, что затрудняет прямое применение к сценариям с обратной связью по предпочтениям человека
Автономная оптимизация предпочтений:
большинство исследований рассматривают статические задачи, игнорируя переходные процессы системы
существующие методы оценки градиента (такие как 18,19) требуют двух оценок функции на каждом временном шаге, что непригодно для реализации в режиме онлайн
отсутствует анализ устойчивости замкнутого контура
Сложность количественной оценки устойчивости: двоичный характер обратной связи по предпочтениям делает общую динамику высоконелинейной, что затрудняет анализ устойчивости
Ограниченные знания пользователя: пользователи обычно имеют ограниченные знания о динамике системы, и прямое следование их предпочтениям может привести к нестабильности системы
Вдохновлённые недавно предложенным методом OFO без модели и оценкой остатков в одной точке 8, авторы стремятся разработать первую работу, решающую задачу оптимизации предпочтений в реальном времени и обеспечивающую гарантии замкнутого контура.
Новый контроллер OFO: предложен первый контроллер оптимизации обратной связи в режиме онлайн, который использует двоичную обратную связь по предпочтениям для оптимизации полезности пользователя и обеспечивает устойчивость замкнутого контура
Схема оценки в одной точке: используется схема случайного исследования, требующая только одной оценки полезности на каждом временном шаге (вместо двух), что лучше подходит для реализации в режиме онлайн
Теоретические гарантии:
доказана устойчивость замкнутой системы (Лемма 1: ограниченность функции Ляпунова в ожидании)
установлены гарантии оптимальности (Теорема 1: сходимость ожидаемого расстояния к O(μ, δ))
количественно определено влияние переходных процессов системы на производительность
Первые гарантии замкнутого контура: по знанию авторов, это первая работа, обеспечивающая гарантии замкнутого контура для задачи оптимизации предпочтений в реальном времени
Численная проверка: теоретические результаты проверены на задаче оптимизации теплового комфорта
Модель системы: рассматривается экспоненциально устойчивая система
xk+1=f(xk,uk)
где x∈Rnx — состояние системы, u∈Rnu — управляющее воздействие, существует уникальное отображение вход-состояние в установившемся режиме h:Rnu→Rnx.
Цель оптимизации: оптимизация полезности пользователя в установившемся режиме
minx,uΦ(x,u),приусловииx=h(u)
эквивалентна задаче без ограничений:
minuΦ~(u),гдеΦ~(u)=Φ(h(u),u)
Модель обратной связи по предпочтениям (модель Брэдли-Терри):
P(1u1≻u2=1)=σ(Φ~(u2)−Φ~(u1))
где σ(t)=1+e−t1 — сигмоидная функция.
Ключевые предположения:
Отображение вход-состояние h является липшицевым непрерывным
Функция полезности Φ(x,u) липшицева непрерывна по x
Φ~(u) дифференцируема, липшицева непрерывна, гладка и сильно выпукла
Производительность в установившемся режиме: предложенный метод (синяя линия) и алгебраическая система (оранжевая линия) достигают сравнимого уровня точности в установившемся режиме
Влияние переходных процессов: для более медленной системы (c=0.7) предложенный метод показывает большее перерегулирование и более высокую дисперсию в установившемся режиме
Проверка теории: результаты экспериментов согласуются с теоретическими предсказаниями — скорость затухания системы μ влияет на производительность
Эксперимент 2: оптимизация теплового комфорта
Сходимость: алгоритм успешно отслеживает оптимальную температуру (чёрная горизонтальная линия)
Влияние шума:
обратная связь с шумом (синяя линия): более медленная сходимость, наличие колебаний
обратная связь без шума (оранжевая линия): более быстрая сходимость, большая стабильность
Практичность: путём тщательной настройки η и δ контроллер может эффективно отслеживать оптимальную точку без значительного перерегулирования
Расширение теоретической базы на альтернативные модели пользователя (например, модель без шума)
Практические приложения: дизайн продуктов, выбор химических веществ и т.д.
Ослабление предположений: невыпуклые функции полезности, неустойчивые системы
Многоагентные сценарии: агрегация предпочтений нескольких пользователей
Потенциальные направления исследований:
5. Адаптивная настройка параметров: онлайн-настройка η и δ
6. Моделирование усталости пользователя: снижение частоты обратной связи
7. Обработка задержанной обратной связи: учёт задержки ответа пользователя
8. Оптимизация в высоких размерностях: более эффективные стратегии исследования
Полная теоретическая база: полная цепь анализа от устойчивости (Лемма 1) к оптимальности (Теорема 1)
Явные границы ошибок: явная количественная оценка ошибок аппроксимации (Лемма 4), а не только асимптотические результаты
Мягкие предположения: хотя предположение о сильной выпуклости присутствует, другие предположения (липшицева непрерывность) часто встречаются на практике
Полные доказательства: все основные результаты имеют подробные доказательства (приложение)
Инновационность метода:
Новаторство: впервые объединены обратная связь по предпочтениям и управление замкнутым контуром, заполнен пробел в исследованиях
Оценка в одной точке: по сравнению с существующими методами сокращение на 50% количества оценок, значительное повышение практичности
Единая база: анализ устойчивости и оптимальности объединены в одной базе
Вероятностная интерпретация: преобразование двоичной обратной связи в вероятностный градиентный спуск, обеспечение интуитивного понимания
Дизайн экспериментов:
Прогрессивная проверка: от простой квадратичной задачи к практической задаче оптимизации теплового комфорта
Анализ чувствительности параметров: проверка влияния динамики системы через различные значения c
Статистическая надёжность: 20 независимых запусков, предоставление среднего значения и дисперсии
Практическая релевантность: оптимизация теплового комфорта — реальный сценарий применения
Качество написания:
Ясная структура: от определения задачи к теоретическому анализу к экспериментальной проверке, логическая последовательность
Стандартная нотация: математическая нотация используется последовательно и стандартно
Интуитивные объяснения: несколько замечаний для интуитивного объяснения за пределами технических деталей
8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
основная теоретическая база данной работы
предоставляет идею оценки остатков в одной точке
18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
классическая работа по оценке градиента с обратной связью по предпочтениям
данная работа улучшает требование двух оценок
16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
последние достижения в байесовской оптимизации предпочтений
предоставляет базис для сравнения методов на основе ГП
27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
реальная модель системы управления зданиями
предоставляет реальный сценарий для экспериментов
9 D. Kahneman & A. Tversky, 2013 - Prospect theory
нерациональное поведение человека при принятии решений
указывает на ограничения предположений о модели пользователя
Общая оценка: это отличная статья с строгой теорией и сильной инновационностью, успешно объединяющая обучение предпочтений и управление замкнутым контуром, предоставляющая новую теоретическую базу для проектирования систем взаимодействия человека и машины. Основной вклад заключается в первом обеспечении гарантий устойчивости и оптимальности для оптимизации предпочтений в реальном времени, и метод имеет практическую ценность (оценка в одной точке). Однако предположение о сильной выпуклости, отсутствие экспериментов с реальными пользователями и ограниченные методы сравнения являются основными недостатками. Будущая работа должна сосредоточиться на ослаблении предположений, проведении исследований с реальными пользователями и расширении на более сложные практические сценарии применения. Для исследователей, работающих в области управления взаимодействием человека и машины, обучения предпочтениям или оптимизации в режиме онлайн, эта статья заслуживает тщательного изучения.