Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.
academic
Human-in-the-loop: Ottimizzazione delle Preferenze in Tempo Reale
Questo articolo affronta il problema dell'ottimizzazione con retroazione di preferenza, che ha ampie applicazioni in sistemi ingegneristici incentrati sull'uomo come il controllo degli edifici e la guida autonoma. La ricerca esistente si concentra principalmente sull'ottimizzazione statica dell'utilità dell'utente, considerando raramente il comportamento in anello chiuso del transitorio del sistema. L'articolo propone un controllore di ottimizzazione con retroazione online che può ottimizzare l'utilità dell'utente utilizzando retroazione di confronto a coppie, fornendo al contempo garanzie di ottimalità e stabilità in anello chiuso. Aggiungendo segnali di esplorazione stocastica, il controllore stima il gradiente basato su retroazione di utilità binaria tra due passi temporali consecutivi. Gli autori analizzano il comportamento in anello chiuso quando il controllore interagisce con sistemi non lineari e dimostrano che, sotto ipotesi moderate, il controllore converge al punto ottimale senza causare instabilità. I risultati teorici sono verificati mediante esperimenti numerici.
Problema di controllo dell'interazione uomo-macchina: Come progettare controllori consapevoli dell'utente che ottimizzano l'utilità potenziale dell'utente in tempo reale, consentendo al sistema di adattarsi alle preferenze dell'utente
Ottimizzazione in tempo reale con retroazione di preferenza: Come utilizzare confronti di preferenza binaria (anziché valori di utilità assoluti) per l'ottimizzazione online
Garanzie di stabilità in anello chiuso: Come garantire che il processo di ottimizzazione non causi instabilità del sistema, considerando il comportamento transitorio
Differenze individuali: I controllori tradizionali seguono punti di riferimento predefiniti basati su modelli di popolazione su larga scala (come la temperatura ambiente nel controllo degli edifici), introducendo deviazioni e prestazioni subottimali poiché non possono considerare le differenze individuali
Utilità variabile nel tempo: Senza retroazione umana in tempo reale, il controllore non può rispondere a utilità variabili nel tempo e non è robusto rispetto alle perturbazioni esterne
Caratteristiche cognitive umane: Gli umani sono più bravi nel fare confronti relativi piuttosto che valutazioni assolute, quindi la retroazione di preferenza si presenta tipicamente sotto forma di confronti a coppie
Ottimizzazione con retroazione online (OFO): I metodi OFO esistenti (come il controllo della griglia, il coordinamento robotico) richiedono informazioni precise di utilità o gradiente, difficili da applicare direttamente a scenari di retroazione di preferenza umana
Ottimizzazione di preferenza offline:
La maggior parte della ricerca considera problemi statici, ignorando il comportamento transitorio del sistema
I metodi di stima del gradiente esistenti (come 18,19) richiedono due valutazioni di funzione per passo temporale, inadatti all'implementazione online
Manca l'analisi della stabilità in anello chiuso
Difficoltà nella quantificazione della stabilità: La natura binaria della retroazione di preferenza rende la dinamica complessiva altamente non lineare, difficile da analizzare
Conoscenza limitata dell'utente: Gli utenti hanno tipicamente conoscenza limitata della dinamica del sistema, seguire direttamente le loro preferenze potrebbe causare instabilità
Ispirati dal recente OFO senza modello e dalla stima residuale a punto singolo 8, gli autori mirano a sviluppare il primo lavoro che affronti il problema dell'ottimizzazione di preferenza in tempo reale fornendo garanzie in anello chiuso.
Nuovo controllore OFO: Propone il primo controllore di ottimizzazione con retroazione online che utilizza retroazione di preferenza binaria per ottimizzare l'utilità dell'utente garantendo stabilità in anello chiuso
Schema di valutazione a punto singolo: Adotta uno schema di esplorazione stocastica che richiede solo una valutazione di utilità per passo temporale (anziché due), più adatto all'implementazione online
Garanzie teoriche:
Dimostra la stabilità del sistema in anello chiuso (Lemma 1: funzione di Lyapunov attesa limitata)
Stabilisce garanzie di ottimalità (Teorema 1: convergenza della distanza attesa a O(μ, δ))
Quantifica l'impatto del transitorio del sistema sulle prestazioni
Prime garanzie in anello chiuso: Secondo gli autori, questo è il primo lavoro che fornisce garanzie in anello chiuso per il problema dell'ottimizzazione di preferenza in tempo reale
Verifica numerica: Valida i risultati teorici attraverso il problema di ottimizzazione del comfort termico
Modello del sistema: Considera un sistema esponenzialmente stabile
xk+1=f(xk,uk)
dove x∈Rnx è lo stato del sistema, u∈Rnu è l'ingresso di controllo, esiste una mappatura unica ingresso-stato a regime stazionario h:Rnu→Rnx.
Obiettivo di ottimizzazione: Ottimizzare l'utilità dell'utente a regime stazionario
minx,uΦ(x,u),s.t. x=h(u)
equivalente al problema senza vincoli:
minuΦ~(u),dove Φ~(u)=Φ(h(u),u)
Modello di retroazione di preferenza (Modello Bradley-Terry):
P(1u1≻u2=1)=σ(Φ~(u2)−Φ~(u1))
dove σ(t)=1+e−t1 è la funzione sigmoid.
Ipotesi chiave:
La mappatura ingresso-stato h è Lipschitz continua
La funzione di utilità Φ(x,u) è Lipschitz continua rispetto a x
Φ~(u) è differenziabile, Lipschitz continua, liscia e fortemente convessa
Input: passo η, parametro di smoothing δ, ingresso iniziale u₀, numero di passi T
for k = 1, ..., T-1:
1. Aggiungi esplorazione stocastica: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
dove vₖ è campionato uniformemente dalla sfera unitaria (nᵤ-1)-dimensionale
2. Raccogli retroazione di preferenza:
Chiedi all'utente di confrontare Φ(xₖ₊₁, uₖ + δvₖ) e Φ(xₖ, uₖ₋₁ + δvₖ₋₁)
Campiona 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
3. Aggiorna ingresso di controllo:
uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
end for
Output: uₜ
Sistema in anello chiuso:
xk+1=f(xk,uk+δvk)uk+1=uk+2δη1(xk+1,uk+δvk)≻(xk,uk−1+δvk−1)vk
Prestazioni a regime stazionario: Il metodo proposto (linea blu) e il sistema algebrico (linea arancione) raggiungono livelli di precisione comparabili a regime stazionario
Impatto del transitorio: Per sistemi più lenti (c=0.7), il metodo proposto mostra maggiore sovraelongazione e varianza a regime stazionario più alta
Verifica teorica: I risultati sperimentali sono coerenti con le previsioni teoriche - il tasso di decadimento del sistema μ influenza le prestazioni
Esperimento 2: Ottimizzazione del Comfort Termico
Convergenza: L'algoritmo insegue con successo la temperatura ottimale (linea orizzontale nera)
Impatto del rumore:
Retroazione con rumore (linea blu): Convergenza più lenta, con fluttuazioni
Retroazione senza rumore (linea arancione): Convergenza più veloce, più stabile
Praticità: Con attento aggiustamento di η e δ, il controllore può inseguire efficacemente il punto ottimale senza significativa sovraelongazione
Estensione del quadro teorico a modelli utente alternativi (come modelli senza rumore)
Applicazioni pratiche: Progettazione di prodotti, scelta chimica, ecc.
Rilassamento delle ipotesi: Funzioni di utilità non convesse, sistemi instabili
Scenari multi-agente: Aggregazione di preferenze di più utenti
Potenziali direzioni di ricerca:
5. Aggiustamento adattivo dei parametri: Aggiustamento online di η e δ
6. Modellazione dell'affaticamento dell'utente: Riduzione della frequenza di retroazione
7. Retroazione ritardata: Gestione del ritardo nella risposta dell'utente
8. Ottimizzazione ad alta dimensione: Strategie di esplorazione più efficienti
8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
Fondamento teorico principale di questo articolo
Fornisce l'idea della stima residuale a punto singolo
18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
Lavoro classico sulla stima del gradiente di retroazione di preferenza
Questo articolo migliora il problema di richiedere due valutazioni
16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
Progressi recenti nell'ottimizzazione bayesiana di preferenza
Fornisce benchmark di confronto per metodi basati su GP
27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
Modello di sistema reale per il controllo degli edifici
Fornisce scenario realistico per gli esperimenti
9 D. Kahneman & A. Tversky, 2013 - Prospect theory
Comportamento irrazionale nella decisione umana
Indica le limitazioni delle ipotesi del modello utente
Valutazione complessiva: Questo è un articolo eccellente con rigore teorico e forte innovazione che combina con successo l'apprendimento di preferenza con il controllo in anello chiuso, fornendo un nuovo quadro teorico per la progettazione di sistemi di interazione uomo-macchina. I contributi principali risiedono nel fornire per la prima volta garanzie di stabilità e ottimalità per l'ottimizzazione di preferenza in tempo reale, e il metodo ha valore pratico (valutazione a punto singolo). Tuttavia, l'ipotesi di forte convessità, la mancanza di esperimenti con utenti reali e esperimenti di confronto limitati sono le principali insufficienze. I lavori futuri dovrebbero concentrarsi sul rilassamento delle ipotesi, sulla conduzione di ricerche con utenti reali e sull'estensione a scenari di applicazione più complessi e reali. Per i ricercatori che lavorano su controllo di interazione uomo-macchina, apprendimento di preferenza o ottimizzazione online, questo articolo merita una lettura approfondita.