Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.
academic
Humano en el bucle: Optimización de Preferencias en Tiempo Real
Este artículo investiga problemas de optimización con retroalimentación de preferencias, que tienen aplicaciones generalizadas en sistemas de ingeniería donde los humanos desempeñan un papel central, como el control de edificios y la conducción autónoma. La investigación existente se enfoca principalmente en la optimización estática de la utilidad del usuario, considerando raramente el comportamiento en bucle cerrado del transitorio del sistema. Este artículo propone un controlador de optimización de retroalimentación en línea que puede optimizar la utilidad del usuario utilizando retroalimentación de comparación por pares, mientras proporciona garantías de optimalidad y estabilidad en bucle cerrado. Al añadir una señal de exploración estocástica, el controlador estima el gradiente basado en retroalimentación de utilidad binaria entre dos pasos de tiempo consecutivos. Los autores analizan el comportamiento en bucle cerrado cuando el controlador interactúa con sistemas no lineales y demuestran que, bajo supuestos moderados, el controlador converge al punto óptimo sin causar inestabilidad. Los hallazgos teóricos se verifican mediante experimentos numéricos.
Problema de Control de Interacción Humano-Máquina: Cómo diseñar controladores conscientes del usuario que optimicen en tiempo real la utilidad potencial del usuario, permitiendo que el sistema se ajuste según las preferencias del usuario
Optimización en Tiempo Real con Retroalimentación de Preferencias: Cómo utilizar comparaciones de preferencias binarias (en lugar de valores de utilidad absolutos) para optimización en línea
Garantías de Estabilidad en Bucle Cerrado: Cómo garantizar que el proceso de optimización no cause inestabilidad del sistema, considerando el comportamiento transitorio del sistema
Diferencias Individuales: Los controladores tradicionales rastrean puntos de referencia predefinidos basados en modelos de población a gran escala (como la temperatura interior en control de edificios), lo que introduce desviaciones y conduce a rendimiento subóptimo, ya que no puede considerar diferencias individuales
Utilidad Variante en el Tiempo: Sin retroalimentación humana en tiempo real, el controlador no puede responder a utilidades variantes en el tiempo y tampoco es robusto ante perturbaciones externas
Características Cognitivas Humanas: Los humanos son más hábiles en realizar comparaciones relativas que evaluaciones absolutas, por lo que la retroalimentación de preferencias típicamente se presenta en forma de comparaciones por pares
Optimización de Retroalimentación en Línea (OFO): Los métodos OFO existentes (como control de cuadrícula, coordinación de robots) requieren información de utilidad exacta o gradientes, siendo difícil aplicarlos directamente a escenarios de retroalimentación de preferencias humanas
Optimización de Preferencias Fuera de Línea:
La mayoría de investigaciones consideran problemas estáticos, ignorando el comportamiento transitorio del sistema
Los métodos existentes de estimación de gradientes (como 18,19) requieren dos evaluaciones de función por paso de tiempo, no siendo adecuados para implementación en línea
Falta análisis de estabilidad en bucle cerrado
Dificultad en Cuantificar Estabilidad: La naturaleza binaria de la retroalimentación de preferencias hace que la dinámica general sea altamente no lineal, siendo difícil analizar la estabilidad
Conocimiento Limitado del Usuario: Los usuarios típicamente tienen conocimiento limitado de la dinámica del sistema, y seguir directamente sus preferencias podría causar inestabilidad del sistema
Inspirados por trabajos recientes sobre OFO sin modelo y estimación de residuos de un solo punto 8, los autores tienen como objetivo desarrollar el primer trabajo que aborde el problema de optimización de preferencias en tiempo real y proporcione garantías en bucle cerrado.
Nuevo Controlador OFO: Propone el primer controlador de optimización de retroalimentación en línea que utiliza retroalimentación de preferencias binarias para optimizar la utilidad del usuario mientras asegura estabilidad en bucle cerrado
Esquema de Evaluación de Un Solo Punto: Adopta un esquema de exploración estocástica que requiere solo una evaluación de utilidad por paso de tiempo (en lugar de dos), siendo más adecuado para implementación en línea
Garantías Teóricas:
Demuestra la estabilidad del sistema en bucle cerrado (Lema 1: función de Lyapunov esperada acotada)
Establece garantías de optimalidad (Teorema 1: convergencia de distancia esperada a O(μ, δ))
Cuantifica el impacto del transitorio del sistema en el rendimiento
Primera Garantía en Bucle Cerrado: Según el conocimiento de los autores, este es el primer trabajo que proporciona garantías en bucle cerrado para el problema de optimización de preferencias en tiempo real
Verificación Numérica: Valida los resultados teóricos mediante un problema de optimización de confort térmico
Modelo del Sistema: Considera un sistema exponencialmente estable
xk+1=f(xk,uk)
donde x∈Rnx es el estado del sistema, u∈Rnu es la entrada de control, y existe un mapeo entrada-estado en estado estacionario único h:Rnu→Rnx.
Objetivo de Optimización: Optimizar la utilidad del usuario en estado estacionario
minx,uΦ(x,u),s.t. x=h(u)
equivalente al problema sin restricciones:
minuΦ~(u),donde Φ~(u)=Φ(h(u),u)
Modelo de Retroalimentación de Preferencias (Modelo Bradley-Terry):
P(1u1≻u2=1)=σ(Φ~(u2)−Φ~(u1))
donde σ(t)=1+e−t1 es la función sigmoide.
Supuestos Clave:
El mapeo entrada-estado h es Lipschitz continuo
La función de utilidad Φ(x,u) es Lipschitz continua respecto a x
Φ~(u) es diferenciable, Lipschitz continua, suave y fuertemente convexa
Entrada: Tamaño de paso η, parámetro de suavizado δ, entrada inicial u₀, número de pasos T
para k = 1, ..., T-1:
1. Añadir exploración estocástica: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
donde vₖ se muestrea uniformemente de la esfera unitaria (nᵤ-1)-dimensional
2. Recopilar retroalimentación de preferencias:
Preguntar al usuario comparando Φ(xₖ₊₁, uₖ + δvₖ) y Φ(xₖ, uₖ₋₁ + δvₖ₋₁)
Muestrear 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
3. Actualizar entrada de control:
uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
fin para
Salida: uₜ
Sistema en Bucle Cerrado:
xk+1=f(xk,uk+δvk)uk+1=uk+2δη1(xk+1,uk+δvk)≻(xk,uk−1+δvk−1)vk
Rendimiento en Estado Estacionario: El método propuesto (línea azul) y el sistema algebraico (línea naranja) alcanzan niveles de precisión comparables en estado estacionario
Impacto del Transitorio: Para sistemas más lentos (c=0.7), el método propuesto muestra mayor sobrepaso y mayor varianza en estado estacionario
Verificación Teórica: Los resultados experimentales son consistentes con las predicciones teóricas - la tasa de decaimiento del sistema μ afecta el rendimiento
Experimento 2: Optimización de Confort Térmico
Convergencia: El algoritmo rastrea exitosamente la temperatura óptima (línea horizontal negra)
Impacto del Ruido:
Retroalimentación con ruido (línea azul): Convergencia más lenta, con fluctuaciones
Retroalimentación sin ruido (línea naranja): Convergencia más rápida, más estable
Practicidad: Con ajuste cuidadoso de η y δ, el controlador puede rastrear efectivamente el punto óptimo sin sobrepaso significativo
Direcciones explícitamente propuestas por los autores:
Extender Marco Teórico a modelos de usuario alternativos (como modelo sin ruido)
Aplicaciones Prácticas: Diseño de productos, selección química, etc.
Relajar Supuestos: Funciones de utilidad no convexas, sistemas inestables
Escenarios Multiagente: Agregación de preferencias de múltiples usuarios
Direcciones de investigación potenciales:
5. Ajuste Adaptativo de Parámetros: Ajustar η y δ en línea
6. Modelado de Fatiga del Usuario: Reducir frecuencia de retroalimentación
7. Retroalimentación con Retraso: Manejar retrasos en respuesta del usuario
8. Optimización de Alta Dimensión: Estrategias de exploración más eficientes
8 Z. He et al., 2023 - Optimización de retroalimentación no lineal sin modelo
Base teórica principal de este artículo
Proporciona idea de estimación de residuos de un solo punto
18 Y. Yue & T. Joachims, 2009 - Optimización interactiva de recuperación de información
Trabajo clásico en estimación de gradiente de retroalimentación de preferencias
Este artículo mejora su problema de requerir dos evaluaciones
16 W. Xu et al., 2024 - Optimización bayesiana preferencial con principios
Progreso reciente en optimización bayesiana de preferencias
Proporciona referencia de comparación para métodos basados en GP
27 Y. Lian et al., 2023 - Control de edificio robusto adaptativo basado en datos
Modelo de sistema real para control de edificios
Proporciona escenario realista para experimentos
9 D. Kahneman & A. Tversky, 2013 - Teoría de perspectiva
Comportamiento no racional de decisión humana
Señala limitaciones del supuesto del modelo de usuario
Evaluación General: Este es un artículo excelente con rigor teórico y fuerte innovación, que combina exitosamente aprendizaje de preferencias con control en bucle cerrado, proporcionando nuevo marco teórico para diseño de sistemas de interacción humano-máquina. Las principales contribuciones radican en proporcionar por primera vez garantías de estabilidad y optimalidad para optimización de preferencias en tiempo real, y el método tiene valor práctico (evaluación de un solo punto). Sin embargo, el supuesto de convexidad fuerte, falta de experimentos con usuarios reales y experimentos de comparación limitados son sus principales insuficiencias. El trabajo futuro debe enfocarse en relajar supuestos, conducir investigación con usuarios reales y extender a escenarios de aplicación más complejos y prácticos. Para investigadores trabajando en control de interacción humano-máquina, aprendizaje de preferencias u optimización en línea, este artículo merece lectura profunda.