Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.
Dieses Papier untersucht Optimierungsprobleme mit Präferenzrückmeldungen, die in technischen Systemen mit zentraler menschlicher Rolle wie Gebäudesteuerung und autonomem Fahren weit verbreitet sind. Bestehende Forschungen konzentrieren sich hauptsächlich auf statische Nutzenoptimierung von Benutzern und berücksichtigen selten das Verhalten im geschlossenen Regelkreis während der Einschwingvorgänge des Systems. Dieses Papier schlägt einen Online-Rückkopplungsoptimierungsregler vor, der paarweise Vergleichsrückmeldungen nutzen kann, um den Nutzen des Benutzers zu optimieren und gleichzeitig Optimalitäts- und Stabilitätsgarantien im geschlossenen Regelkreis zu bieten. Durch Hinzufügen von Zufallserkundungssignalen schätzt der Regler den Gradienten basierend auf binären Nutzensvergleichen zwischen aufeinanderfolgenden Zeitschritten. Die Autoren analysieren das Verhalten im geschlossenen Regelkreis bei der Wechselwirkung mit nichtlinearen Systemen und beweisen, dass der Regler unter milden Annahmen zum optimalen Punkt konvergiert, ohne Instabilität zu verursachen. Die theoretischen Erkenntnisse werden durch numerische Experimente validiert.
Mensch-Maschine-Steuerungsproblem: Wie entwirft man einen menschengerechten Regler, der die potenzielle Nutzenfunktion des Benutzers in Echtzeit optimiert, damit sich das System an Benutzerpräferenzen anpassen kann?
Echtzeit-Optimierung mit Präferenzrückmeldung: Wie nutzt man binäre Präferenzvergleiche (anstelle von absoluten Nutzenwerten) für Online-Optimierung?
Stabilitätsgarantien im geschlossenen Regelkreis: Wie stellt man sicher, dass der Optimierungsprozess unter Berücksichtigung des Einschwingverhaltens des Systems nicht zu Instabilität führt?
Individuelle Unterschiede: Herkömmliche Regler verfolgen vordefinierte Referenzpunkte basierend auf großflächigen Bevölkerungsmodellen (z. B. Raumtemperatur in der Gebäudesteuerung), was zu Abweichungen und suboptimaler Leistung führt, da individuelle Unterschiede nicht berücksichtigt werden können
Zeitvariable Nutzenfunktion: Ohne Echtzeit-Menschenfeedback kann der Regler nicht auf zeitvariable Nutzenfunktionen reagieren und ist auch nicht robust gegenüber externen Störungen
Menschliche Kognitionsmerkmale: Menschen sind besser im relativen Vergleich als in absoluten Bewertungen, daher treten Präferenzrückmeldungen typischerweise in Form von paarweisen Vergleichen auf
Online-Rückkopplungsoptimierung (OFO): Bestehende OFO-Methoden (wie Gittersteuerung, Roboterkoordination) erfordern genaue Nutzenwerte oder Gradienteninformationen und lassen sich schwer direkt auf Szenarien mit menschlichen Präferenzrückmeldungen anwenden
Offline-Präferenzoptimierung:
Die meisten Arbeiten betrachten statische Probleme und ignorieren das Einschwingverhalten des Systems
Bestehende Gradientenschätzungsmethoden (wie 18, 19) erfordern zwei Funktionsbewertungen pro Zeitschritt, was sich für Online-Implementierung nicht eignet
Mangel an Stabilitätsanalyse im geschlossenen Regelkreis
Schwierig zu quantifizierende Stabilität: Die binäre Natur von Präferenzrückmeldungen macht die Gesamtdynamik hochgradig nichtlinear und schwer zu analysieren
Begrenzte Benutzerkenntnisse: Benutzer haben typischerweise begrenzte Kenntnisse über die Systemdynamik, und das direkte Befolgen ihrer Präferenzen könnte zu Systeminstabilität führen
Inspiriert durch die kürzlich vorgeschlagene modellfreie OFO mit Einzelpunkt-Residuenschätzung 8 zielt dieses Papier darauf ab, die erste Arbeit zu entwickeln, die das Echtzeit-Präferenzoptimierungsproblem löst und Garantien im geschlossenen Regelkreis bietet.
Neuartiger OFO-Regler: Vorschlag des ersten Online-Rückkopplungsoptimierungsreglers, der binäre Präferenzrückmeldungen nutzt, um den Benutzernutzen zu optimieren und gleichzeitig die Stabilität im geschlossenen Regelkreis sicherzustellen
Einzelpunkt-Bewertungsschema: Verwendung eines Zufallserkundungsschemas, das pro Zeitschritt nur eine Nutzenbewertung erfordert (anstelle von zwei), was sich besser für Online-Implementierung eignet
Theoretische Garantien:
Beweis der Stabilität des Systems im geschlossenen Regelkreis (Lemma 1: Erwartete Lyapunov-Funktion ist beschränkt)
Etablierung von Optimalitätsgarantien (Theorem 1: Erwartete Distanz konvergiert zu O(μ, δ))
Quantifizierung der Auswirkung des Einschwingverhaltens auf die Leistung
Erste Garantie im geschlossenen Regelkreis: Nach Aussage der Autoren ist dies die erste Arbeit, die Garantien im geschlossenen Regelkreis für das Echtzeit-Präferenzoptimierungsproblem bietet
Numerische Validierung: Validierung der theoretischen Ergebnisse durch Wärmekomfortoptimierungsprobleme
Systemmodell: Betrachten Sie ein exponentiell stabiles System
xk+1=f(xk,uk)
wobei x∈Rnx der Systemzustand ist, u∈Rnu die Steuerungseingabe ist, und es existiert eine eindeutige stationäre Eingabe-Zustands-Abbildung h:Rnu→Rnx.
Optimierungsziel: Optimierung des Benutzernutzens im stationären Zustand
minx,uΦ(x,u),s.t. x=h(u)
äquivalent zum uneingeschränkten Problem:
minuΦ~(u),wobei Φ~(u)=Φ(h(u),u)
Präferenzrückmeldungsmodell (Bradley-Terry-Modell):
P(1u1≻u2=1)=σ(Φ~(u2)−Φ~(u1))
wobei σ(t)=1+e−t1 die Sigmoid-Funktion ist.
Schlüsselannahmen:
Die Eingabe-Zustands-Abbildung h ist Lipschitz-stetig
Die Nutzenfunktion Φ(x,u) ist bezüglich x Lipschitz-stetig
Φ~(u) ist differenzierbar, Lipschitz-stetig, glatt und stark konvex
Eingabe: Schrittweite η, Glättungsparameter δ,
anfängliche Eingabe u₀, Anzahl der Zeitschritte T
für k = 1, ..., T-1:
1. Zufallserkundung hinzufügen: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
wobei vₖ gleichmäßig aus der (nᵤ-1)-dimensionalen
Einheitssphäre abgetastet wird
2. Präferenzrückmeldung sammeln:
Benutzer wird gefragt, Φ(xₖ₊₁, uₖ + δvₖ) und
Φ(xₖ, uₖ₋₁ + δvₖ₋₁) zu vergleichen
Abtastung von 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
3. Steuerungseingabe aktualisieren:
uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
Ende für
Ausgabe: uₜ
System im geschlossenen Regelkreis:
xk+1=f(xk,uk+δvk)uk+1=uk+2δη1(xk+1,uk+δvk)≻(xk,uk−1+δvk−1)vk
Stationäre Leistung: Die vorgeschlagene Methode (blaue Linie) und das algebraische System (orange Linie) erreichen im stationären Zustand vergleichbare Genauigkeitsniveaus
Einschwingeffekt: Bei langsameren Systemen (c=0.7) zeigt die vorgeschlagene Methode größere Übersteuerung und höhere stationäre Varianz
Theoretische Validierung: Experimentelle Ergebnisse stimmen mit theoretischen Vorhersagen überein - die Systemabklingrate μ beeinflusst die Leistung
Experiment 2: Wärmekomfortoptimierung
Konvergenz: Der Algorithmus verfolgt erfolgreich die optimale Temperatur (schwarze horizontale Linie)
Rauscheinfluss:
Mit Rausch-Rückmeldung (blaue Linie): Langsamere Konvergenz, Schwankungen vorhanden
Ohne Rausch-Rückmeldung (orange Linie): Schnellere Konvergenz, stabiler
Praktikabilität: Durch sorgfältige Anpassung von η und δ kann der Regler den optimalen Punkt effektiv verfolgen, ohne große Übersteuerung
8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
Haupttheoretische Grundlage dieses Papiers
Bietet Idee der Einzelpunkt-Residuenschätzung
18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
Klassische Arbeit zur Gradientenschätzung mit Präferenzrückmeldung
Dieses Papier verbessert das Problem der zwei erforderlichen Bewertungen
16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
Neueste Fortschritte in Präferenz-Bayes-Optimierung
Bietet Vergleichsmaßstab für GP-basierte Methoden
27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
Praktisches Systemmodell für Gebäudesteuerung
Bietet realistisches Szenario für Experimente
9 D. Kahneman & A. Tversky, 2013 - Prospect theory
Irrationales menschliches Entscheidungsverhalten
Weist auf Einschränkungen der Benutzermodellierungsannahmen hin
Gesamtbewertung: Dies ist ein theoretisch streng verfasstes und hochinnovatives Papier, das erfolgreich Präferenzlernen mit geschlossener Regelkreissteuerung kombiniert und einen neuen theoretischen Rahmen für die Gestaltung von Mensch-Maschine-Interaktionssystemen bietet. Die Hauptbeiträge liegen in der erstmaligen Bereitstellung von Stabilitäts- und Optimalitätsgarantien für Echtzeit-Präferenzoptimierung und der praktischen Wertigkeit der Methode (Einzelpunkt-Bewertung). Die starke Konvexitätsannahme, das Fehlen echter Benutzertests und begrenzte Vergleichsexperimente sind jedoch die Hauptmängel. Zukünftige Arbeiten sollten sich auf die Lockerung von Annahmen, echte Benutzerstudien und Erweiterung auf komplexere praktische Anwendungsszenarien konzentrieren. Für Forscher, die sich mit Mensch-Maschine-Interaktionssteuerung, Präferenzlernen oder Online-Optimierung befassen, ist dieses Papier lesenswert.