2025-11-24T00:22:17.812402

Human-in-the-loop: Real-time Preference Optimization

Wang, Xu, Jones

Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.

academic

Humano en el bucle: Optimización de Preferencias en Tiempo Real

Información Básica

ID del Artículo: 2506.02225
Título: Human-in-the-loop: Real-time Preference Optimization
Autores: Wenbin Wang, Wenjie Xu, Colin N. Jones (Laboratorio de Control Automático, EPFL)
Clasificación: math.OC (Optimización y Control)
Fecha de Publicación: Preimpresión arXiv, 3 de noviembre de 2025, versión v2
Enlace del Artículo: https://arxiv.org/abs/2506.02225

Resumen

Este artículo investiga problemas de optimización con retroalimentación de preferencias, que tienen aplicaciones generalizadas en sistemas de ingeniería donde los humanos desempeñan un papel central, como el control de edificios y la conducción autónoma. La investigación existente se enfoca principalmente en la optimización estática de la utilidad del usuario, considerando raramente el comportamiento en bucle cerrado del transitorio del sistema. Este artículo propone un controlador de optimización de retroalimentación en línea que puede optimizar la utilidad del usuario utilizando retroalimentación de comparación por pares, mientras proporciona garantías de optimalidad y estabilidad en bucle cerrado. Al añadir una señal de exploración estocástica, el controlador estima el gradiente basado en retroalimentación de utilidad binaria entre dos pasos de tiempo consecutivos. Los autores analizan el comportamiento en bucle cerrado cuando el controlador interactúa con sistemas no lineales y demuestran que, bajo supuestos moderados, el controlador converge al punto óptimo sin causar inestabilidad. Los hallazgos teóricos se verifican mediante experimentos numéricos.

Antecedentes de Investigación y Motivación

Problemas a Resolver

Problema de Control de Interacción Humano-Máquina: Cómo diseñar controladores conscientes del usuario que optimicen en tiempo real la utilidad potencial del usuario, permitiendo que el sistema se ajuste según las preferencias del usuario
Optimización en Tiempo Real con Retroalimentación de Preferencias: Cómo utilizar comparaciones de preferencias binarias (en lugar de valores de utilidad absolutos) para optimización en línea
Garantías de Estabilidad en Bucle Cerrado: Cómo garantizar que el proceso de optimización no cause inestabilidad del sistema, considerando el comportamiento transitorio del sistema

Importancia del Problema

Diferencias Individuales: Los controladores tradicionales rastrean puntos de referencia predefinidos basados en modelos de población a gran escala (como la temperatura interior en control de edificios), lo que introduce desviaciones y conduce a rendimiento subóptimo, ya que no puede considerar diferencias individuales
Utilidad Variante en el Tiempo: Sin retroalimentación humana en tiempo real, el controlador no puede responder a utilidades variantes en el tiempo y tampoco es robusto ante perturbaciones externas
Características Cognitivas Humanas: Los humanos son más hábiles en realizar comparaciones relativas que evaluaciones absolutas, por lo que la retroalimentación de preferencias típicamente se presenta en forma de comparaciones por pares

Limitaciones de Métodos Existentes

Optimización de Retroalimentación en Línea (OFO): Los métodos OFO existentes (como control de cuadrícula, coordinación de robots) requieren información de utilidad exacta o gradientes, siendo difícil aplicarlos directamente a escenarios de retroalimentación de preferencias humanas
Optimización de Preferencias Fuera de Línea:
- La mayoría de investigaciones consideran problemas estáticos, ignorando el comportamiento transitorio del sistema
- Los métodos existentes de estimación de gradientes (como 18,19) requieren dos evaluaciones de función por paso de tiempo, no siendo adecuados para implementación en línea
- Falta análisis de estabilidad en bucle cerrado
Dificultad en Cuantificar Estabilidad: La naturaleza binaria de la retroalimentación de preferencias hace que la dinámica general sea altamente no lineal, siendo difícil analizar la estabilidad
Conocimiento Limitado del Usuario: Los usuarios típicamente tienen conocimiento limitado de la dinámica del sistema, y seguir directamente sus preferencias podría causar inestabilidad del sistema

Motivación de la Investigación

Inspirados por trabajos recientes sobre OFO sin modelo y estimación de residuos de un solo punto 8, los autores tienen como objetivo desarrollar el primer trabajo que aborde el problema de optimización de preferencias en tiempo real y proporcione garantías en bucle cerrado.

Contribuciones Principales

Nuevo Controlador OFO: Propone el primer controlador de optimización de retroalimentación en línea que utiliza retroalimentación de preferencias binarias para optimizar la utilidad del usuario mientras asegura estabilidad en bucle cerrado
Esquema de Evaluación de Un Solo Punto: Adopta un esquema de exploración estocástica que requiere solo una evaluación de utilidad por paso de tiempo (en lugar de dos), siendo más adecuado para implementación en línea
Garantías Teóricas:
- Demuestra la estabilidad del sistema en bucle cerrado (Lema 1: función de Lyapunov esperada acotada)
- Establece garantías de optimalidad (Teorema 1: convergencia de distancia esperada a O(μ, δ))
- Cuantifica el impacto del transitorio del sistema en el rendimiento
Primera Garantía en Bucle Cerrado: Según el conocimiento de los autores, este es el primer trabajo que proporciona garantías en bucle cerrado para el problema de optimización de preferencias en tiempo real
Verificación Numérica: Valida los resultados teóricos mediante un problema de optimización de confort térmico

Explicación Detallada del Método

Definición de la Tarea

Modelo del Sistema: Considera un sistema exponencialmente estable $x_{k+1} = f(x_k, u_k)$ donde $x \in \mathbb{R}^{n_x}$ es el estado del sistema, $u \in \mathbb{R}^{n_u}$ es la entrada de control, y existe un mapeo entrada-estado en estado estacionario único $h: \mathbb{R}^{n_u} \rightarrow \mathbb{R}^{n_x}$ .

Objetivo de Optimización: Optimizar la utilidad del usuario en estado estacionario $\min_{x,u} \Phi(x, u), \quad \text{s.t. } x = h(u)$ equivalente al problema sin restricciones: $\min_u \tilde{\Phi}(u), \quad \text{donde } \tilde{\Phi}(u) = \Phi(h(u), u)$

Modelo de Retroalimentación de Preferencias (Modelo Bradley-Terry): $P(\mathbb{1}_{u_1 \succ u_2} = 1) = \sigma(\tilde{\Phi}(u_2) - \tilde{\Phi}(u_1))$ donde $\sigma(t) = \frac{1}{1+e^{-t}}$ es la función sigmoide.

Supuestos Clave:

El mapeo entrada-estado $h$ es Lipschitz continuo
La función de utilidad $\Phi(x,u)$ es Lipschitz continua respecto a $x$
$\tilde{\Phi}(u)$ es diferenciable, Lipschitz continua, suave y fuertemente convexa

Arquitectura del Modelo

Flujo del Algoritmo (Algoritmo 1):

Entrada: Tamaño de paso η, parámetro de suavizado δ, entrada inicial u₀, número de pasos T
para k = 1, ..., T-1:
    1. Añadir exploración estocástica: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
       donde vₖ se muestrea uniformemente de la esfera unitaria (nᵤ-1)-dimensional
    
    2. Recopilar retroalimentación de preferencias: 
       Preguntar al usuario comparando Φ(xₖ₊₁, uₖ + δvₖ) y Φ(xₖ, uₖ₋₁ + δvₖ₋₁)
       Muestrear 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
    
    3. Actualizar entrada de control:
       uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
fin para
Salida: uₜ

Sistema en Bucle Cerrado: $x_{k+1} = f(x_k, u_k + \delta v_k)$ $u_{k+1} = u_k + \frac{\eta}{2\delta}\mathbb{1}_{(x_{k+1},u_k+\delta v_k)\succ(x_k,u_{k-1}+\delta v_{k-1})}v_k$

Puntos de Innovación Técnica

Estimación de Residuos de Un Solo Punto:
- Utiliza $x_{k+1}$ para aproximar $h(u_k + \delta v_k)$ , evitando la necesidad de un modelo de sistema exacto
- Requiere solo una evaluación de utilidad por paso de tiempo, en lugar de dos en métodos tradicionales
- Basado en comparaciones entre pasos de tiempo consecutivos, integrando naturalmente la estructura de series temporales
Interpretación de Descenso de Gradiente Probabilístico:
- Interpreta la regla de actualización como descenso de gradiente de la función probabilística $p_{u'}(u) = P(\mathbb{1}_{u \succ u'} = 1)$
- Demuestra que minimizar $p_{u'}(u)$ es equivalente a minimizar $\tilde{\Phi}(u)$ (Lema 3)
- Escribe la actualización como: $u_{k+1} = u_k - \eta(\nabla p_{u_k}(u_k) + e_k)$
- Donde el término de error $e_k$ proviene de aproximar $h(u_k + \delta v_k)$ con $x_{k+1}$ y la estimación estocástica de gradiente
Marco de Análisis de Errores:
- Cuantifica explícitamente la cota del error $e_k$ (Lema 4): $\|E[e_k|F_k]\| \leq \sqrt{R_1 V(x_{k-1}, u_{k-1}+\delta v_{k-1}) + R_2}$
- Donde $R_1 = O(\mu)$ , $R_2 = O(\mu, \delta^2)$ , y $\mu$ es la tasa de decaimiento del sistema
- Cuanto más rápido se estabiliza el sistema (μ más pequeño), menor es el error de aproximación
Análisis Unificado de Estabilidad y Optimalidad:
- Analiza la estabilidad a través de la función de Lyapunov (Lema 1)
- Analiza la optimalidad a través de la distancia esperada $E[\|u_k - u^*\|^2]$ (Teorema 1)
- Vincula ambas a través del comportamiento transitorio del sistema

Resultados Teóricos

Estabilidad (Lema 1): $E[V(x_k, u_k+\delta v_k)] \leq \mu^k E[V(x_0, u_0+\delta v_0)] + \frac{a_1}{1-\mu}(2\delta^2 + \eta + (\frac{\eta}{2\delta})^2)$ donde $\mu = \frac{2\alpha_2}{\alpha_1}(1-\frac{\alpha_3}{\alpha_2}) < 1$ .

Optimalidad (Teorema 1): $E[\|u_k - u^*\|^2] \leq (\frac{1+\rho}{2})^{k-k'} E[\|u_{k'} - u^*\|^2] + O(\mu, \mu^{k'}, \delta)$ donde $\rho = 1 - 2\sigma'(0)m\eta$ .

Perspectivas Clave:

El error en estado estacionario se caracteriza por $O(\mu, \delta)$
Una estabilización más rápida del sistema (μ más pequeño) conduce a mejor rendimiento
Existe un equilibrio exploración-explotación (selección de δ)

Configuración Experimental

Conjunto de Datos/Modelo del Sistema

Experimento 1: Problema Cuadrático

Sistema: Sistema LTI $x_{k+1} = Ax_k + Bu_k$
Matrices: $A = \begin{bmatrix} c & 1 \\ 0 & c \end{bmatrix}$ , $B$ es matriz identidad
Variación de Parámetros: $c \in \{0.1, 0.7\}$ para probar diferentes tasas de decaimiento
Objetivo de Optimización: $\min (x-x_{ref})^\top(x-x_{ref})$ , donde $x_{ref} = [100, 100]^\top$
Mapeo en Estado Estacionario: $H = (I-A)^{-1}B$

Experimento 2: Optimización de Confort Térmico

Sistema: Modelo LTI de edificio con 13 estados 27
Función de Utilidad: Modelo PMV (Voto Medio Predictivo) 3
Métrica de Evaluación: Índice PPD (Porcentaje Predicho de Insatisfechos)
Objetivo: Identificar la temperatura interior que minimiza PPD
Configuración del Usuario: Actividad de escritura, vistiendo pantalones deportivos, camiseta y zapatos

Métricas de Evaluación

Error Relativo: $\|x_k - x_{ref}\|/\|x_{ref}\|$ (escala logarítmica)
Seguimiento de Temperatura: Diferencia entre temperatura real y temperatura óptima
Varianza en Estado Estacionario: Fluctuación del algoritmo en estado estacionario
Sobrepaso: Desviación máxima durante el proceso de convergencia

Métodos de Comparación

Sistema Algebraico (línea naranja): Asume que $H$ es conocido, muestrea directamente $\mathbb{1}_{u_k+\delta v_k \succ u_{k-1}+\delta v_{k-1}}$
Modelo de Usuario sin Ruido: $\mathbb{1} = \text{sign}(\Phi(x_k, u_{k-1}+\delta v_{k-1}) - \Phi(x_{k+1}, u_k+\delta v_k))$
Método Propuesto (línea azul): Algoritmo 1 completo

Detalles de Implementación

Tamaño de Paso: $\eta = 0.1$
Parámetro de Suavizado: $\delta = 0.5$
Número de Simulaciones: 20 ejecuciones independientes
Presentación Estadística: Línea sólida para media, región sombreada para una desviación estándar
Condiciones Iniciales: $u_0$ inicializado aleatoriamente

Resultados Experimentales

Resultados Principales

Experimento 1: Problema Cuadrático

Parámetro del Sistema	Velocidad de Convergencia	Precisión en Estado Estacionario	Sobrepaso	Varianza en Estado Estacionario
c=0.1 (rápido)	Rápida	Alta	Pequeño	Pequeña
c=0.7 (lento)	Lenta	Comparable	Grande	Grande

Hallazgos Clave:

Rendimiento en Estado Estacionario: El método propuesto (línea azul) y el sistema algebraico (línea naranja) alcanzan niveles de precisión comparables en estado estacionario
Impacto del Transitorio: Para sistemas más lentos (c=0.7), el método propuesto muestra mayor sobrepaso y mayor varianza en estado estacionario
Verificación Teórica: Los resultados experimentales son consistentes con las predicciones teóricas - la tasa de decaimiento del sistema μ afecta el rendimiento

Experimento 2: Optimización de Confort Térmico

Convergencia: El algoritmo rastrea exitosamente la temperatura óptima (línea horizontal negra)
Impacto del Ruido:
- Retroalimentación con ruido (línea azul): Convergencia más lenta, con fluctuaciones
- Retroalimentación sin ruido (línea naranja): Convergencia más rápida, más estable
Practicidad: Con ajuste cuidadoso de η y δ, el controlador puede rastrear efectivamente el punto óptimo sin sobrepaso significativo

Hallazgos Experimentales

Importancia de la Dinámica del Sistema:
- El transitorio del sistema afecta significativamente el rendimiento del algoritmo
- Los sistemas que se estabilizan rápidamente (μ pequeño) logran mejor rendimiento de seguimiento
- Esto valida los resultados teóricos sobre μ en Lema 1 y Teorema 1
Equilibrio de Parámetros:
- δ: Un δ más pequeño reduce el ruido de exploración pero puede llevar a óptimos locales
- η: Necesita equilibrar velocidad de convergencia y estabilidad
- Existe un equilibrio exploración-explotación
Impacto del Modelo de Usuario:
- El modelo Bradley-Terry (retroalimentación probabilística) introduce ruido adicional
- La retroalimentación determinística mejora significativamente el rendimiento
- Proporciona motivación para investigar modelos de usuario alternativos en futuras investigaciones
Potencial de Aplicación Práctica:
- La optimización de confort térmico demuestra el potencial de aplicación práctica del aprendizaje de utilidad humana
- El esquema de evaluación de un solo punto es adecuado para implementación en línea
- El algoritmo es robusto ante condiciones iniciales

Trabajo Relacionado

Optimización de Retroalimentación en Línea (OFO)

Aplicaciones: Control de cuadrícula 5 y coordinación de robots 6
Garantías Teóricas: Fórmulas de primer orden 7 y orden cero 8
Limitaciones: Requiere valores de utilidad exactos o información de gradientes

Optimización de Preferencias Fuera de Línea

Espacio de Acciones Finito:

Conceptos de Optimalidad: Ganador de Copeland 10, Ganador de Borda 11
Algoritmos: Exploración estocástica 12, búsqueda codiciosa 13

Espacio de Acciones Continuo:

Modelado con GP: Modelar utilidad latente con procesos gaussianos
Políticas Heurísticas: Equilibrar exploración y explotación [14]15
Garantías de Arrepentimiento: Cuando la utilidad está en RKHS [16]17

Estimación de Gradientes:

Métodos Existentes [18]19: Requieren dos evaluaciones por paso
Método de Este Artículo: Solo requiere una evaluación, más adecuado para escenarios en línea

Ventajas Diferenciadas de Este Artículo

Primera Garantía en Bucle Cerrado: Optimización de preferencias en tiempo real considerando el transitorio del sistema
Evaluación de Un Solo Punto: Mayor eficiencia computacional
Completitud Teórica: Proporciona simultáneamente garantías de estabilidad y optimalidad
Practicidad: Adecuado para sistemas de ingeniería reales

Conclusiones y Discusión

Conclusiones Principales

Contribuciones Teóricas:
- Desarrolla el primer controlador consciente del usuario que utiliza retroalimentación de preferencias y proporciona garantías en bucle cerrado
- Cuantifica explícitamente el impacto del transitorio del sistema en el rendimiento
- Establece garantías teóricas de estabilidad y optimalidad
Ventajas del Método:
- Requiere solo una evaluación de utilidad por paso
- No necesita modelo de sistema exacto
- Puede manejar utilidades variantes en el tiempo y perturbaciones externas
Verificación Experimental:
- Los resultados teóricos se verifican en experimentos numéricos
- Demuestra potencial de aplicación práctica en tareas de optimización de confort térmico

Limitaciones

Condiciones de Supuestos:
- El supuesto de convexidad fuerte puede ser demasiado restrictivo en algunas aplicaciones
- El modelo Bradley-Terry asume comportamiento humano completamente racional, pero en la práctica los humanos no siempre son racionales 9
- Requiere sistemas exponencialmente estables
Error en Estado Estacionario:
- Existe error en estado estacionario de $O(\mu, \delta)$
- No puede eliminarse completamente, solo reducirse mediante ajuste de parámetros
- Para sistemas muy lentos, el rendimiento puede degradarse
Carga del Usuario:
- Requiere retroalimentación del usuario en cada paso de tiempo
- En aplicaciones prácticas puede causar fatiga del usuario
- No considera retrasos en la retroalimentación del usuario
Brecha Teoría-Práctica:
- El análisis teórico del modelo de retroalimentación determinista aún no se ha establecido
- Los experimentos muestran que el modelo sin ruido tiene mejor rendimiento, pero carece de apoyo teórico
Complejidad Computacional:
- No se discute la escalabilidad para sistemas de gran escala
- La exploración estocástica puede ser ineficiente en espacios de alta dimensión

Direcciones Futuras

Direcciones explícitamente propuestas por los autores:

Extender Marco Teórico a modelos de usuario alternativos (como modelo sin ruido)
Aplicaciones Prácticas: Diseño de productos, selección química, etc.
Relajar Supuestos: Funciones de utilidad no convexas, sistemas inestables
Escenarios Multiagente: Agregación de preferencias de múltiples usuarios

Direcciones de investigación potenciales: 5. Ajuste Adaptativo de Parámetros: Ajustar η y δ en línea 6. Modelado de Fatiga del Usuario: Reducir frecuencia de retroalimentación 7. Retroalimentación con Retraso: Manejar retrasos en respuesta del usuario 8. Optimización de Alta Dimensión: Estrategias de exploración más eficientes

Evaluación Profunda

Fortalezas

Rigor Teórico:

Marco Teórico Completo: Análisis completo desde estabilidad (Lema 1) hasta optimalidad (Teorema 1)
Cotas de Error Explícitas: Cuantifica claramente errores de aproximación (Lema 4), no solo resultados asintóticos
Supuestos Moderados: Aunque hay supuesto de convexidad fuerte, otros supuestos (continuidad Lipschitz) son comunes en la práctica
Pruebas Completas: Todos los resultados principales tienen pruebas detalladas (apéndice)

Innovación del Método:

Originalidad: Primera combinación de retroalimentación de preferencias con control en bucle cerrado, llenando un vacío de investigación
Evaluación de Un Solo Punto: Reduce 50% de evaluaciones comparado con métodos existentes, mejorando significativamente la practicidad
Marco Unificado: Análisis de estabilidad y optimalidad bajo el mismo marco
Interpretación Probabilística: Convierte retroalimentación binaria en descenso de gradiente probabilístico, proporcionando comprensión intuitiva

Diseño Experimental:

Verificación Progresiva: Desde problemas cuadráticos simples hasta problemas reales de confort térmico
Análisis de Sensibilidad de Parámetros: Prueba impacto de dinámica del sistema mediante diferentes valores de c
Confiabilidad Estadística: 20 ejecuciones independientes, proporcionando media y varianza
Relevancia Práctica: Optimización de confort térmico es escenario de aplicación real

Calidad de Escritura:

Estructura Clara: Desde definición de problema hasta análisis teórico hasta verificación experimental, lógica rigurosa
Notación Estándar: Uso consistente y estándar de símbolos matemáticos
Explicaciones Intuitivas: Múltiples Observaciones proporcionan interpretación intuitiva más allá de detalles técnicos

Insuficiencias

Limitaciones Teóricas:

Supuesto de Convexidad Fuerte: Limita rango de aplicabilidad, muchas funciones de utilidad prácticas (como PPD) son no convexas
Resultados Asintóticos: Teorema 1 proporciona cota dependiente de k' fijo arbitrario, sin tasa de convergencia de tiempo finito explícita
Dependencia de Constantes: Las constantes en $O(\mu, \delta)$ pueden ser grandes, las cotas teóricas pueden ser conservadoras
Falta de Modelo Determinista: Los experimentos muestran mejor rendimiento del modelo sin ruido, pero carece de análisis teórico

Insuficiencias Experimentales:

Métodos de Comparación Limitados:
- No compara con otros métodos de aprendizaje de preferencias (métodos basados en GP [14]15)
- No compara con métodos de control adaptativo tradicional
- Solo compara con sistema algebraico y modelo sin ruido
Ajuste de Parámetros:
- No investiga sistemáticamente estrategia de selección de η y δ
- No proporciona guía para selección de parámetros
- La selección de parámetros en experimentos parece ser ajuste manual
Limitación de Escala:
- Solo prueba sistemas de baja dimensión (2D y 13D)
- No verifica escalabilidad en casos de alta dimensión
Falta de Pruebas con Usuarios Reales:
- Todos los experimentos basados en modelo de usuario simulado
- Sin experimentos con sujetos humanos reales
- No puede verificar efectividad real del modelo Bradley-Terry

Limitaciones del Método:

Eficiencia de Exploración: Muestreo uniforme de esfera puede ser ineficiente en espacios de alta dimensión
Problema de Arranque en Frío: El algoritmo requiere u₀ inicial, no se discute cómo seleccionar
Robustez: No analiza robustez ante desajuste de modelo, ruido de medición
Costo Computacional: No se discute complejidad computacional por paso

Consideraciones de Practicidad:

Carga del Usuario: Requiere retroalimentación del usuario en cada paso, puede causar fatiga
Calidad de Retroalimentación: Asume usuarios pueden proporcionar preferencias precisas, pero en práctica pueden ser inconsistentes
Restricciones de Seguridad: No considera restricciones de estado e entrada, muy importantes en sistemas reales
Optimización Multiobjetivo: Solo considera función de utilidad única

Impacto

Contribución al Campo:

Trabajo Pionero: Abre nueva dirección de investigación en optimización de preferencias en tiempo real
Base Teórica: Proporciona marco teórico y herramientas de análisis para investigación posterior
Puente Interdisciplinario: Conecta teoría de control, optimización e interacción humano-máquina
Potencial de Aplicación: Proporciona nuevas perspectivas para diseño de sistemas conscientes del usuario

Impacto Esperado:

Corto Plazo: Probablemente inspire más investigación sobre control de retroalimentación de preferencias
Mediano Plazo: Posible aplicación en control de edificios, recomendación personalizada, etc.
Largo Plazo: Posible influencia en paradigma de diseño de sistemas de interacción humano-máquina

Limitaciones:

Supuestos fuertes pueden limitar aplicación práctica
Falta de experimentos con usuarios reales puede afectar credibilidad
Requiere más trabajo de ingeniería para despliegue real

Escenarios Aplicables

Escenarios de Aplicación Ideal:

Control de Edificios:
- Ajuste personalizado de temperatura
- Control de iluminación
- Gestión de calidad de aire
- Ventaja: Dinámica del sistema relativamente lenta, usuarios pueden proporcionar retroalimentación continua
Recomendación Personalizada:
- Recomendación de productos
- Recomendación de contenido
- Ventaja: Los usuarios están acostumbrados a proporcionar retroalimentación de comparación
Cuidado de la Salud:
- Ajuste de plan de tratamiento personalizado
- Ajuste de intensidad de entrenamiento de rehabilitación
- Ventaja: Enfatiza diferencias individuales
Colaboración Humano-Máquina:
- Tareas asistidas por robot
- Conducción autónoma personalizada
- Ventaja: Necesita adaptarse en tiempo real a preferencias del usuario

Escenarios No Aplicables:

Sistemas de Dinámica Rápida: Comercio de alta frecuencia, control de vuelo, etc. (usuarios no pueden retroalimentar a tiempo)
Sistemas Complejos de Alta Dimensión: Eficiencia de exploración baja
Restricciones de Seguridad Estrictas: No maneja restricciones, puede no ser seguro
Conflicto Multiobjetivo: Solo considera utilidad única
Optimización No Convexa: Garantías teóricas fallan

Recomendaciones de Mejora:

Combinar con aprendizaje activo para reducir frecuencia de retroalimentación del usuario
Introducir filtro de seguridad para manejar restricciones
Extender a escenarios multiobjetivo
Desarrollar estrategia de ajuste adaptativo de parámetros

Referencias

Referencias Clave:

8 Z. He et al., 2023 - Optimización de retroalimentación no lineal sin modelo
- Base teórica principal de este artículo
- Proporciona idea de estimación de residuos de un solo punto
18 Y. Yue & T. Joachims, 2009 - Optimización interactiva de recuperación de información
- Trabajo clásico en estimación de gradiente de retroalimentación de preferencias
- Este artículo mejora su problema de requerir dos evaluaciones
16 W. Xu et al., 2024 - Optimización bayesiana preferencial con principios
- Progreso reciente en optimización bayesiana de preferencias
- Proporciona referencia de comparación para métodos basados en GP
27 Y. Lian et al., 2023 - Control de edificio robusto adaptativo basado en datos
- Modelo de sistema real para control de edificios
- Proporciona escenario realista para experimentos
9 D. Kahneman & A. Tversky, 2013 - Teoría de perspectiva
- Comportamiento no racional de decisión humana
- Señala limitaciones del supuesto del modelo de usuario

Evaluación General: Este es un artículo excelente con rigor teórico y fuerte innovación, que combina exitosamente aprendizaje de preferencias con control en bucle cerrado, proporcionando nuevo marco teórico para diseño de sistemas de interacción humano-máquina. Las principales contribuciones radican en proporcionar por primera vez garantías de estabilidad y optimalidad para optimización de preferencias en tiempo real, y el método tiene valor práctico (evaluación de un solo punto). Sin embargo, el supuesto de convexidad fuerte, falta de experimentos con usuarios reales y experimentos de comparación limitados son sus principales insuficiencias. El trabajo futuro debe enfocarse en relajar supuestos, conducir investigación con usuarios reales y extender a escenarios de aplicación más complejos y prácticos. Para investigadores trabajando en control de interacción humano-máquina, aprendizaje de preferencias u optimización en línea, este artículo merece lectura profunda.