2025-11-24T00:22:17.812402

Human-in-the-loop: Real-time Preference Optimization

Wang, Xu, Jones

Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.

academic

Human-in-the-loop: Ottimizzazione delle Preferenze in Tempo Reale

Informazioni Fondamentali

ID Articolo: 2506.02225
Titolo: Human-in-the-loop: Real-time Preference Optimization
Autori: Wenbin Wang, Wenjie Xu, Colin N. Jones (Laboratorio di Controllo Automatico EPFL)
Classificazione: math.OC (Ottimizzazione e Controllo)
Data di Pubblicazione: Preprint arXiv, versione v2 del 3 novembre 2025
Link Articolo: https://arxiv.org/abs/2506.02225

Riassunto

Questo articolo affronta il problema dell'ottimizzazione con retroazione di preferenza, che ha ampie applicazioni in sistemi ingegneristici incentrati sull'uomo come il controllo degli edifici e la guida autonoma. La ricerca esistente si concentra principalmente sull'ottimizzazione statica dell'utilità dell'utente, considerando raramente il comportamento in anello chiuso del transitorio del sistema. L'articolo propone un controllore di ottimizzazione con retroazione online che può ottimizzare l'utilità dell'utente utilizzando retroazione di confronto a coppie, fornendo al contempo garanzie di ottimalità e stabilità in anello chiuso. Aggiungendo segnali di esplorazione stocastica, il controllore stima il gradiente basato su retroazione di utilità binaria tra due passi temporali consecutivi. Gli autori analizzano il comportamento in anello chiuso quando il controllore interagisce con sistemi non lineari e dimostrano che, sotto ipotesi moderate, il controllore converge al punto ottimale senza causare instabilità. I risultati teorici sono verificati mediante esperimenti numerici.

Contesto di Ricerca e Motivazione

Problemi da Risolvere

Problema di controllo dell'interazione uomo-macchina: Come progettare controllori consapevoli dell'utente che ottimizzano l'utilità potenziale dell'utente in tempo reale, consentendo al sistema di adattarsi alle preferenze dell'utente
Ottimizzazione in tempo reale con retroazione di preferenza: Come utilizzare confronti di preferenza binaria (anziché valori di utilità assoluti) per l'ottimizzazione online
Garanzie di stabilità in anello chiuso: Come garantire che il processo di ottimizzazione non causi instabilità del sistema, considerando il comportamento transitorio

Importanza del Problema

Differenze individuali: I controllori tradizionali seguono punti di riferimento predefiniti basati su modelli di popolazione su larga scala (come la temperatura ambiente nel controllo degli edifici), introducendo deviazioni e prestazioni subottimali poiché non possono considerare le differenze individuali
Utilità variabile nel tempo: Senza retroazione umana in tempo reale, il controllore non può rispondere a utilità variabili nel tempo e non è robusto rispetto alle perturbazioni esterne
Caratteristiche cognitive umane: Gli umani sono più bravi nel fare confronti relativi piuttosto che valutazioni assolute, quindi la retroazione di preferenza si presenta tipicamente sotto forma di confronti a coppie

Limitazioni dei Metodi Esistenti

Ottimizzazione con retroazione online (OFO): I metodi OFO esistenti (come il controllo della griglia, il coordinamento robotico) richiedono informazioni precise di utilità o gradiente, difficili da applicare direttamente a scenari di retroazione di preferenza umana
Ottimizzazione di preferenza offline:
- La maggior parte della ricerca considera problemi statici, ignorando il comportamento transitorio del sistema
- I metodi di stima del gradiente esistenti (come 18,19) richiedono due valutazioni di funzione per passo temporale, inadatti all'implementazione online
- Manca l'analisi della stabilità in anello chiuso
Difficoltà nella quantificazione della stabilità: La natura binaria della retroazione di preferenza rende la dinamica complessiva altamente non lineare, difficile da analizzare
Conoscenza limitata dell'utente: Gli utenti hanno tipicamente conoscenza limitata della dinamica del sistema, seguire direttamente le loro preferenze potrebbe causare instabilità

Motivazione della Ricerca

Ispirati dal recente OFO senza modello e dalla stima residuale a punto singolo 8, gli autori mirano a sviluppare il primo lavoro che affronti il problema dell'ottimizzazione di preferenza in tempo reale fornendo garanzie in anello chiuso.

Contributi Principali

Nuovo controllore OFO: Propone il primo controllore di ottimizzazione con retroazione online che utilizza retroazione di preferenza binaria per ottimizzare l'utilità dell'utente garantendo stabilità in anello chiuso
Schema di valutazione a punto singolo: Adotta uno schema di esplorazione stocastica che richiede solo una valutazione di utilità per passo temporale (anziché due), più adatto all'implementazione online
Garanzie teoriche:
- Dimostra la stabilità del sistema in anello chiuso (Lemma 1: funzione di Lyapunov attesa limitata)
- Stabilisce garanzie di ottimalità (Teorema 1: convergenza della distanza attesa a O(μ, δ))
- Quantifica l'impatto del transitorio del sistema sulle prestazioni
Prime garanzie in anello chiuso: Secondo gli autori, questo è il primo lavoro che fornisce garanzie in anello chiuso per il problema dell'ottimizzazione di preferenza in tempo reale
Verifica numerica: Valida i risultati teorici attraverso il problema di ottimizzazione del comfort termico

Spiegazione Dettagliata del Metodo

Definizione del Compito

Modello del sistema: Considera un sistema esponenzialmente stabile $x_{k+1} = f(x_k, u_k)$ dove $x \in \mathbb{R}^{n_x}$ è lo stato del sistema, $u \in \mathbb{R}^{n_u}$ è l'ingresso di controllo, esiste una mappatura unica ingresso-stato a regime stazionario $h: \mathbb{R}^{n_u} \rightarrow \mathbb{R}^{n_x}$ .

Obiettivo di ottimizzazione: Ottimizzare l'utilità dell'utente a regime stazionario $\min_{x,u} \Phi(x, u), \quad \text{s.t. } x = h(u)$ equivalente al problema senza vincoli: $\min_u \tilde{\Phi}(u), \quad \text{dove } \tilde{\Phi}(u) = \Phi(h(u), u)$

Modello di retroazione di preferenza (Modello Bradley-Terry): $P(\mathbb{1}_{u_1 \succ u_2} = 1) = \sigma(\tilde{\Phi}(u_2) - \tilde{\Phi}(u_1))$ dove $\sigma(t) = \frac{1}{1+e^{-t}}$ è la funzione sigmoid.

Ipotesi chiave:

La mappatura ingresso-stato $h$ è Lipschitz continua
La funzione di utilità $\Phi(x,u)$ è Lipschitz continua rispetto a $x$
$\tilde{\Phi}(u)$ è differenziabile, Lipschitz continua, liscia e fortemente convessa

Architettura del Modello

Flusso dell'algoritmo (Algoritmo 1):

Input: passo η, parametro di smoothing δ, ingresso iniziale u₀, numero di passi T
for k = 1, ..., T-1:
    1. Aggiungi esplorazione stocastica: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
       dove vₖ è campionato uniformemente dalla sfera unitaria (nᵤ-1)-dimensionale
    
    2. Raccogli retroazione di preferenza: 
       Chiedi all'utente di confrontare Φ(xₖ₊₁, uₖ + δvₖ) e Φ(xₖ, uₖ₋₁ + δvₖ₋₁)
       Campiona 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
    
    3. Aggiorna ingresso di controllo:
       uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
end for
Output: uₜ

Sistema in anello chiuso: $x_{k+1} = f(x_k, u_k + \delta v_k)$ $u_{k+1} = u_k + \frac{\eta}{2\delta}\mathbb{1}_{(x_{k+1},u_k+\delta v_k)\succ(x_k,u_{k-1}+\delta v_{k-1})}v_k$

Punti di Innovazione Tecnica

Stima residuale a punto singolo:
- Utilizza $x_{k+1}$ per approssimare $h(u_k + \delta v_k)$ , evitando la necessità di un modello di sistema preciso
- Richiede solo una valutazione di utilità per passo temporale, anziché il metodo tradizionale di due
- Basato su confronti tra passi temporali consecutivi, si integra naturalmente nella struttura della serie temporale
Interpretazione della discesa del gradiente probabilistico:
- Interpreta la regola di aggiornamento come discesa del gradiente della funzione probabilistica $p_{u'}(u) = P(\mathbb{1}_{u \succ u'} = 1)$
- Dimostra che minimizzare $p_{u'}(u)$ è equivalente a minimizzare $\tilde{\Phi}(u)$ (Lemma 3)
- Scrive l'aggiornamento come: $u_{k+1} = u_k - \eta(\nabla p_{u_k}(u_k) + e_k)$
- dove il termine di errore $e_k$ proviene dall'approssimazione di $h(u_k + \delta v_k)$ con $x_{k+1}$ e dalla stima stocastica del gradiente
Quadro di analisi dell'errore:
- Quantifica esplicitamente il limite dell'errore $e_k$ (Lemma 4): $\|E[e_k|F_k]\| \leq \sqrt{R_1 V(x_{k-1}, u_{k-1}+\delta v_{k-1}) + R_2}$
- dove $R_1 = O(\mu)$ , $R_2 = O(\mu, \delta^2)$ , $\mu$ è il tasso di decadimento del sistema
- Più veloce è la stabilizzazione del sistema (μ più piccolo), minore è l'errore di approssimazione
Analisi unificata di stabilità e ottimalità:
- Analizza la stabilità attraverso la funzione di Lyapunov (Lemma 1)
- Analizza l'ottimalità attraverso la distanza attesa $E[\|u_k - u^*\|^2]$ (Teorema 1)
- Collega i due attraverso il comportamento transitorio del sistema

Risultati Teorici

Stabilità (Lemma 1): $E[V(x_k, u_k+\delta v_k)] \leq \mu^k E[V(x_0, u_0+\delta v_0)] + \frac{a_1}{1-\mu}(2\delta^2 + \eta + (\frac{\eta}{2\delta})^2)$ dove $\mu = \frac{2\alpha_2}{\alpha_1}(1-\frac{\alpha_3}{\alpha_2}) < 1$ .

Ottimalità (Teorema 1): $E[\|u_k - u^*\|^2] \leq (\frac{1+\rho}{2})^{k-k'} E[\|u_{k'} - u^*\|^2] + O(\mu, \mu^{k'}, \delta)$ dove $\rho = 1 - 2\sigma'(0)m\eta$ .

Intuizioni chiave:

L'errore a regime stazionario è caratterizzato da $O(\mu, \delta)$
Una stabilizzazione più veloce del sistema (μ più piccolo) porta a prestazioni migliori
Esiste un compromesso esplorazione-sfruttamento (scelta di δ)

Configurazione Sperimentale

Dataset/Modelli di Sistema

Esperimento 1: Problema Quadratico

Sistema: Sistema LTI $x_{k+1} = Ax_k + Bu_k$
Matrici: $A = \begin{bmatrix} c & 1 \\ 0 & c \end{bmatrix}$ , $B$ è la matrice identità
Variazione parametri: $c \in \{0.1, 0.7\}$ per testare diversi tassi di decadimento
Obiettivo di ottimizzazione: $\min (x-x_{ref})^\top(x-x_{ref})$ , dove $x_{ref} = [100, 100]^\top$
Mappatura a regime stazionario: $H = (I-A)^{-1}B$

Esperimento 2: Ottimizzazione del Comfort Termico

Sistema: Modello LTI di edificio a 13 stati 27
Funzione di utilità: Modello PMV (Predictive Mean Vote) 3
Indice di valutazione: Indice PPD (Predicted Percentage of Dissatisfied)
Obiettivo: Identificare la temperatura ambiente che minimizza il PPD
Configurazione utente: Attività di digitazione, abbigliamento con pantaloni sportivi, maglietta e scarpe

Metriche di Valutazione

Errore relativo: $\|x_k - x_{ref}\|/\|x_{ref}\|$ (scala logaritmica)
Inseguimento della temperatura: Differenza tra temperatura effettiva e temperatura ottimale
Varianza a regime stazionario: Fluttuazione dell'algoritmo a regime stazionario
Sovraelongazione: Massima deviazione durante il processo di convergenza

Metodi di Confronto

Sistema algebrico (linea arancione): Assume che $H$ sia noto, campiona direttamente $\mathbb{1}_{u_k+\delta v_k \succ u_{k-1}+\delta v_{k-1}}$
Modello utente senza rumore: $\mathbb{1} = \text{sign}(\Phi(x_k, u_{k-1}+\delta v_{k-1}) - \Phi(x_{k+1}, u_k+\delta v_k))$
Metodo proposto (linea blu): Algoritmo 1 completo

Dettagli di Implementazione

Passo: $\eta = 0.1$
Parametro di smoothing: $\delta = 0.5$
Numero di simulazioni: 20 esecuzioni indipendenti
Presentazione statistica: Linea solida per la media, area ombreggiata per una deviazione standard
Condizioni iniziali: $u_0$ inizializzato casualmente

Risultati Sperimentali

Risultati Principali

Esperimento 1: Problema Quadratico

Parametri del Sistema	Velocità di Convergenza	Precisione a Regime	Sovraelongazione	Varianza a Regime
c=0.1 (veloce)	Veloce	Alta	Piccola	Piccola
c=0.7 (lento)	Lenta	Comparabile	Grande	Grande

Risultati chiave:

Prestazioni a regime stazionario: Il metodo proposto (linea blu) e il sistema algebrico (linea arancione) raggiungono livelli di precisione comparabili a regime stazionario
Impatto del transitorio: Per sistemi più lenti (c=0.7), il metodo proposto mostra maggiore sovraelongazione e varianza a regime stazionario più alta
Verifica teorica: I risultati sperimentali sono coerenti con le previsioni teoriche - il tasso di decadimento del sistema μ influenza le prestazioni

Esperimento 2: Ottimizzazione del Comfort Termico

Convergenza: L'algoritmo insegue con successo la temperatura ottimale (linea orizzontale nera)
Impatto del rumore:
- Retroazione con rumore (linea blu): Convergenza più lenta, con fluttuazioni
- Retroazione senza rumore (linea arancione): Convergenza più veloce, più stabile
Praticità: Con attento aggiustamento di η e δ, il controllore può inseguire efficacemente il punto ottimale senza significativa sovraelongazione

Risultati Sperimentali

Importanza della dinamica del sistema:
- Il transitorio del sistema influisce significativamente sulle prestazioni dell'algoritmo
- I sistemi che si stabilizzano velocemente (μ piccolo) raggiungono migliori prestazioni di inseguimento
- Questo verifica i risultati teorici su μ nei Lemma 1 e Teorema 1
Compromessi parametrici:
- δ: Un δ più piccolo riduce il rumore di esplorazione ma potrebbe portare a ottimi locali
- η: Necessita di bilanciare velocità di convergenza e stabilità
- Esiste un compromesso esplorazione-sfruttamento
Impatto del modello utente:
- Il modello Bradley-Terry (retroazione probabilistica) introduce rumore aggiuntivo
- La retroazione deterministica migliora significativamente le prestazioni
- Fornisce motivazione per ricerche future su modelli utente alternativi
Potenziale di applicazione pratica:
- L'ottimizzazione del comfort termico dimostra il potenziale di applicazione pratica nell'apprendimento dell'utilità umana
- Lo schema di valutazione a punto singolo è adatto all'implementazione online
- L'algoritmo è robusto rispetto alle condizioni iniziali

Lavori Correlati

Ottimizzazione con Retroazione Online (OFO)

Applicazioni: Controllo della griglia 5 e coordinamento robotico 6
Garanzie teoriche: Formule del primo ordine 7 e ordine zero 8
Limitazioni: Richiede valori di utilità precisi o informazioni di gradiente

Ottimizzazione di Preferenza Offline

Spazio di azione finito:

Concetti di ottimalità: Vincitore Copeland 10, vincitore Borda 11
Algoritmi: Esplorazione stocastica 12, ricerca greedy 13

Spazio di azione continuo:

Modellazione GP: Modellazione dell'utilità latente con processi gaussiani
Strategie euristiche: Bilanciamento esplorazione-sfruttamento [14]15
Garanzie di rimpianto: Quando l'utilità è in RKHS [16]17

Stima del gradiente:

Metodi esistenti [18]19: Richiedono due valutazioni per passo
Metodo di questo articolo: Richiede solo una valutazione, più adatto a scenari online

Vantaggi Differenziali di Questo Articolo

Prime garanzie in anello chiuso: Ottimizzazione di preferenza in tempo reale considerando il transitorio del sistema
Valutazione a punto singolo: Efficienza computazionale più alta
Completezza teorica: Fornisce sia garanzie di stabilità che di ottimalità
Praticità: Adatto a sistemi ingegneristici reali

Conclusioni e Discussione

Conclusioni Principali

Contributi teorici:
- Sviluppa il primo controllore consapevole dell'utente che utilizza retroazione di preferenza fornendo garanzie in anello chiuso
- Quantifica esplicitamente l'impatto del transitorio del sistema sulle prestazioni
- Stabilisce garanzie teoriche di stabilità e ottimalità
Vantaggi del metodo:
- Richiede solo una valutazione di utilità per passo
- Non richiede un modello di sistema preciso
- Può gestire utilità variabili nel tempo e perturbazioni esterne
Verifica sperimentale:
- I risultati teorici sono verificati negli esperimenti numerici
- Dimostra il potenziale di applicazione pratica nel compito di ottimizzazione del comfort termico

Limitazioni

Condizioni di ipotesi:
- L'ipotesi di forte convessità potrebbe essere troppo restrittiva in alcune applicazioni
- Il modello Bradley-Terry assume comportamento umano completamente razionale, ma in realtà gli umani non sono sempre razionali 9
- Richiede sistemi esponenzialmente stabili
Errore a regime stazionario:
- Esiste un errore a regime stazionario di $O(\mu, \delta)$
- Non può essere completamente eliminato, solo ridotto attraverso l'aggiustamento dei parametri
- Per sistemi molto lenti, le prestazioni potrebbero diminuire
Carico dell'utente:
- Richiede retroazione dell'utente ad ogni passo temporale
- Potrebbe causare affaticamento dell'utente nelle applicazioni pratiche
- Non considera il ritardo della retroazione dell'utente
Divario tra teoria e pratica:
- L'analisi teorica del modello di retroazione deterministica non è ancora stabilita
- Gli esperimenti mostrano che il modello senza rumore ha prestazioni migliori, ma manca il supporto teorico
Complessità computazionale:
- Non discute la scalabilità per sistemi su larga scala
- L'esplorazione stocastica potrebbe avere bassa efficienza in spazi ad alta dimensione

Direzioni Future

Direzioni esplicitamente proposte dagli autori:

Estensione del quadro teorico a modelli utente alternativi (come modelli senza rumore)
Applicazioni pratiche: Progettazione di prodotti, scelta chimica, ecc.
Rilassamento delle ipotesi: Funzioni di utilità non convesse, sistemi instabili
Scenari multi-agente: Aggregazione di preferenze di più utenti

Potenziali direzioni di ricerca: 5. Aggiustamento adattivo dei parametri: Aggiustamento online di η e δ 6. Modellazione dell'affaticamento dell'utente: Riduzione della frequenza di retroazione 7. Retroazione ritardata: Gestione del ritardo nella risposta dell'utente 8. Ottimizzazione ad alta dimensione: Strategie di esplorazione più efficienti

Valutazione Approfondita

Punti di Forza

Rigore teorico:

Quadro teorico completo: Analisi completa dalla stabilità (Lemma 1) all'ottimalità (Teorema 1)
Limiti di errore espliciti: Quantificazione esplicita dell'errore di approssimazione (Lemma 4), non solo risultati asintotici
Ipotesi moderate: Sebbene vi sia l'ipotesi di forte convessità, altre ipotesi (continuità Lipschitz) sono comuni nella pratica
Prove complete: Tutti i risultati principali hanno prove dettagliate (appendice)

Innovazione del metodo:

Originalità: Primo a combinare retroazione di preferenza con controllo in anello chiuso, colmando un vuoto di ricerca
Valutazione a punto singolo: Riduce del 50% il numero di valutazioni rispetto ai metodi esistenti, migliorando significativamente la praticità
Quadro unificato: Analizza stabilità e ottimalità nello stesso quadro
Interpretazione probabilistica: Converte retroazione binaria in discesa del gradiente probabilistico, fornendo comprensione intuitiva

Progettazione sperimentale:

Verifica progressiva: Da semplici problemi quadratici a problemi di comfort termico reali
Analisi di sensibilità parametrica: Test dell'impatto della dinamica del sistema attraverso diversi valori di c
Affidabilità statistica: 20 esecuzioni indipendenti, fornisce media e varianza
Rilevanza pratica: L'ottimizzazione del comfort termico è uno scenario di applicazione reale

Qualità della scrittura:

Struttura chiara: Dalla definizione del problema all'analisi teorica alla verifica sperimentale, logica rigorosa
Notazione standardizzata: Uso coerente e standard della notazione matematica
Spiegazione intuitiva: Fornisce molteplici Osservazioni per spiegazione intuitiva oltre ai dettagli tecnici

Insufficienze

Limitazioni teoriche:

Ipotesi di forte convessità: Limita l'ambito di applicabilità, molte funzioni di utilità pratiche (come PPD) sono non convesse
Risultati asintotici: Il Teorema 1 fornisce limiti che dipendono da k' arbitrariamente fisso, senza tassi di convergenza a tempo finito espliciti
Dipendenza dalle costanti: Le costanti in $O(\mu, \delta)$ potrebbero essere grandi, i limiti teorici potrebbero essere troppo conservatori
Mancanza di modello determinista: Gli esperimenti mostrano che il modello senza rumore ha prestazioni migliori, ma manca l'analisi teorica

Insufficienze sperimentali:

Metodi di confronto limitati:
- Non confronta con altri metodi di apprendimento di preferenza (come metodi basati su GP [14]15)
- Non confronta con metodi di controllo adattivo tradizionali
- Confronta solo con sistema algebrico e modello senza rumore
Aggiustamento dei parametri:
- Non studia sistematicamente la strategia di scelta di η e δ
- Non fornisce linee guida per la selezione dei parametri
- La scelta dei parametri negli esperimenti sembra essere aggiustamento manuale
Limitazioni di scala:
- Testa solo sistemi a bassa dimensione (2D e 13D)
- Non verifica la scalabilità in casi ad alta dimensione
Mancanza di test con utenti reali:
- Tutti gli esperimenti basati su modello utente simulato
- Non condotti esperimenti con veri soggetti umani
- Impossibile verificare l'effettiva validità del modello Bradley-Terry

Limitazioni del metodo:

Efficienza di esplorazione: Il campionamento uniforme della sfera potrebbe avere bassa efficienza in spazi ad alta dimensione
Problema di cold start: L'algoritmo richiede u₀ iniziale, non discusso come sceglierlo
Robustezza: Non analizza la robustezza rispetto a errori di modello e rumore di misurazione
Costo computazionale: Non discute la complessità computazionale per passo

Considerazioni di praticità:

Carico dell'utente: Richiede retroazione dell'utente ad ogni passo, potrebbe causare affaticamento
Qualità della retroazione: Assume che l'utente possa fornire preferenze accurate, ma in pratica potrebbe essere incoerente
Vincoli di sicurezza: Non considera vincoli di stato e ingresso, molto importanti nei sistemi reali
Ottimizzazione multi-obiettivo: Considera solo una singola funzione di utilità

Impatto

Contributi al campo:

Lavoro pioneristico: Apre una nuova direzione di ricerca sull'ottimizzazione di preferenza in tempo reale
Fondamento teorico: Fornisce quadro teorico e strumenti di analisi per ricerche successive
Ponte interdisciplinare: Connette teoria del controllo, ottimizzazione e interazione uomo-macchina
Potenziale di applicazione: Fornisce nuove prospettive per la progettazione di sistemi consapevoli dell'utente

Impatto previsto:

Breve termine: Potrebbe stimolare più ricerca sul controllo con retroazione di preferenza
Medio termine: Potrebbe essere applicato al controllo degli edifici, raccomandazioni personalizzate e altri campi
Lungo termine: Potrebbe influenzare il paradigma di progettazione dei sistemi di interazione uomo-macchina

Limitazioni:

Le ipotesi forti potrebbero limitare l'applicazione pratica
La mancanza di esperimenti con utenti reali potrebbe influenzare la credibilità
Richiede più lavoro ingegneristico per il deployment effettivo

Scenari Applicabili

Scenari di applicazione ideali:

Controllo degli edifici:
- Regolazione personalizzata della temperatura
- Controllo dell'illuminazione
- Gestione della qualità dell'aria
- Vantaggi: Dinamica del sistema relativamente lenta, utenti possono fornire retroazione continua
Raccomandazioni personalizzate:
- Raccomandazione di prodotti
- Raccomandazione di contenuti
- Vantaggi: Gli utenti sono abituati a fornire retroazione di confronto
Assistenza sanitaria:
- Aggiustamento personalizzato del piano di trattamento
- Regolazione dell'intensità dell'allenamento di riabilitazione
- Vantaggi: Enfasi sulle differenze individuali
Collaborazione uomo-macchina:
- Compiti assistiti da robot
- Guida autonoma personalizzata
- Vantaggi: Necessità di adattarsi in tempo reale alle preferenze dell'utente

Scenari non applicabili:

Sistemi a dinamica veloce: Trading ad alta frequenza, controllo del volo, ecc. (gli utenti non possono fornire retroazione tempestiva)
Sistemi complessi ad alta dimensione: Bassa efficienza di esplorazione
Vincoli di sicurezza rigorosi: Non gestisce vincoli, potrebbe non essere sicuro
Conflitto multi-obiettivo: Considera solo utilità singola
Ottimizzazione non convessa: Garanzie teoriche falliscono

Suggerimenti di miglioramento:

Combinare con apprendimento attivo per ridurre la frequenza di retroazione dell'utente
Introdurre filtro di sicurezza per gestire vincoli
Estendere a scenari multi-obiettivo
Sviluppare strategie di aggiustamento adattivo dei parametri

Riferimenti

Riferimenti chiave:

8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
- Fondamento teorico principale di questo articolo
- Fornisce l'idea della stima residuale a punto singolo
18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
- Lavoro classico sulla stima del gradiente di retroazione di preferenza
- Questo articolo migliora il problema di richiedere due valutazioni
16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
- Progressi recenti nell'ottimizzazione bayesiana di preferenza
- Fornisce benchmark di confronto per metodi basati su GP
27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
- Modello di sistema reale per il controllo degli edifici
- Fornisce scenario realistico per gli esperimenti
9 D. Kahneman & A. Tversky, 2013 - Prospect theory
- Comportamento irrazionale nella decisione umana
- Indica le limitazioni delle ipotesi del modello utente

Valutazione complessiva: Questo è un articolo eccellente con rigore teorico e forte innovazione che combina con successo l'apprendimento di preferenza con il controllo in anello chiuso, fornendo un nuovo quadro teorico per la progettazione di sistemi di interazione uomo-macchina. I contributi principali risiedono nel fornire per la prima volta garanzie di stabilità e ottimalità per l'ottimizzazione di preferenza in tempo reale, e il metodo ha valore pratico (valutazione a punto singolo). Tuttavia, l'ipotesi di forte convessità, la mancanza di esperimenti con utenti reali e esperimenti di confronto limitati sono le principali insufficienze. I lavori futuri dovrebbero concentrarsi sul rilassamento delle ipotesi, sulla conduzione di ricerche con utenti reali e sull'estensione a scenari di applicazione più complessi e reali. Per i ricercatori che lavorano su controllo di interazione uomo-macchina, apprendimento di preferenza o ottimizzazione online, questo articolo merita una lettura approfondita.