2025-11-24T00:22:17.812402

Human-in-the-loop: Real-time Preference Optimization

Wang, Xu, Jones

Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.

academic

Human-in-the-loop: Echtzeit-Präferenzoptimierung

Grundinformationen

Papier-ID: 2506.02225
Titel: Human-in-the-loop: Real-time Preference Optimization
Autoren: Wenbin Wang, Wenjie Xu, Colin N. Jones (EPFL Laboratorium für automatische Steuerung)
Klassifizierung: math.OC (Optimierung und Steuerung)
Veröffentlichungszeit: arXiv Preprint, 3. November 2025, Version 2
Papier-Link: https://arxiv.org/abs/2506.02225

Zusammenfassung

Dieses Papier untersucht Optimierungsprobleme mit Präferenzrückmeldungen, die in technischen Systemen mit zentraler menschlicher Rolle wie Gebäudesteuerung und autonomem Fahren weit verbreitet sind. Bestehende Forschungen konzentrieren sich hauptsächlich auf statische Nutzenoptimierung von Benutzern und berücksichtigen selten das Verhalten im geschlossenen Regelkreis während der Einschwingvorgänge des Systems. Dieses Papier schlägt einen Online-Rückkopplungsoptimierungsregler vor, der paarweise Vergleichsrückmeldungen nutzen kann, um den Nutzen des Benutzers zu optimieren und gleichzeitig Optimalitäts- und Stabilitätsgarantien im geschlossenen Regelkreis zu bieten. Durch Hinzufügen von Zufallserkundungssignalen schätzt der Regler den Gradienten basierend auf binären Nutzensvergleichen zwischen aufeinanderfolgenden Zeitschritten. Die Autoren analysieren das Verhalten im geschlossenen Regelkreis bei der Wechselwirkung mit nichtlinearen Systemen und beweisen, dass der Regler unter milden Annahmen zum optimalen Punkt konvergiert, ohne Instabilität zu verursachen. Die theoretischen Erkenntnisse werden durch numerische Experimente validiert.

Forschungshintergrund und Motivation

Zu lösende Probleme

Mensch-Maschine-Steuerungsproblem: Wie entwirft man einen menschengerechten Regler, der die potenzielle Nutzenfunktion des Benutzers in Echtzeit optimiert, damit sich das System an Benutzerpräferenzen anpassen kann?
Echtzeit-Optimierung mit Präferenzrückmeldung: Wie nutzt man binäre Präferenzvergleiche (anstelle von absoluten Nutzenwerten) für Online-Optimierung?
Stabilitätsgarantien im geschlossenen Regelkreis: Wie stellt man sicher, dass der Optimierungsprozess unter Berücksichtigung des Einschwingverhaltens des Systems nicht zu Instabilität führt?

Bedeutung des Problems

Individuelle Unterschiede: Herkömmliche Regler verfolgen vordefinierte Referenzpunkte basierend auf großflächigen Bevölkerungsmodellen (z. B. Raumtemperatur in der Gebäudesteuerung), was zu Abweichungen und suboptimaler Leistung führt, da individuelle Unterschiede nicht berücksichtigt werden können
Zeitvariable Nutzenfunktion: Ohne Echtzeit-Menschenfeedback kann der Regler nicht auf zeitvariable Nutzenfunktionen reagieren und ist auch nicht robust gegenüber externen Störungen
Menschliche Kognitionsmerkmale: Menschen sind besser im relativen Vergleich als in absoluten Bewertungen, daher treten Präferenzrückmeldungen typischerweise in Form von paarweisen Vergleichen auf

Einschränkungen bestehender Methoden

Online-Rückkopplungsoptimierung (OFO): Bestehende OFO-Methoden (wie Gittersteuerung, Roboterkoordination) erfordern genaue Nutzenwerte oder Gradienteninformationen und lassen sich schwer direkt auf Szenarien mit menschlichen Präferenzrückmeldungen anwenden
Offline-Präferenzoptimierung:
- Die meisten Arbeiten betrachten statische Probleme und ignorieren das Einschwingverhalten des Systems
- Bestehende Gradientenschätzungsmethoden (wie 18, 19) erfordern zwei Funktionsbewertungen pro Zeitschritt, was sich für Online-Implementierung nicht eignet
- Mangel an Stabilitätsanalyse im geschlossenen Regelkreis
Schwierig zu quantifizierende Stabilität: Die binäre Natur von Präferenzrückmeldungen macht die Gesamtdynamik hochgradig nichtlinear und schwer zu analysieren
Begrenzte Benutzerkenntnisse: Benutzer haben typischerweise begrenzte Kenntnisse über die Systemdynamik, und das direkte Befolgen ihrer Präferenzen könnte zu Systeminstabilität führen

Forschungsmotivation

Inspiriert durch die kürzlich vorgeschlagene modellfreie OFO mit Einzelpunkt-Residuenschätzung 8 zielt dieses Papier darauf ab, die erste Arbeit zu entwickeln, die das Echtzeit-Präferenzoptimierungsproblem löst und Garantien im geschlossenen Regelkreis bietet.

Kernbeiträge

Neuartiger OFO-Regler: Vorschlag des ersten Online-Rückkopplungsoptimierungsreglers, der binäre Präferenzrückmeldungen nutzt, um den Benutzernutzen zu optimieren und gleichzeitig die Stabilität im geschlossenen Regelkreis sicherzustellen
Einzelpunkt-Bewertungsschema: Verwendung eines Zufallserkundungsschemas, das pro Zeitschritt nur eine Nutzenbewertung erfordert (anstelle von zwei), was sich besser für Online-Implementierung eignet
Theoretische Garantien:
- Beweis der Stabilität des Systems im geschlossenen Regelkreis (Lemma 1: Erwartete Lyapunov-Funktion ist beschränkt)
- Etablierung von Optimalitätsgarantien (Theorem 1: Erwartete Distanz konvergiert zu O(μ, δ))
- Quantifizierung der Auswirkung des Einschwingverhaltens auf die Leistung
Erste Garantie im geschlossenen Regelkreis: Nach Aussage der Autoren ist dies die erste Arbeit, die Garantien im geschlossenen Regelkreis für das Echtzeit-Präferenzoptimierungsproblem bietet
Numerische Validierung: Validierung der theoretischen Ergebnisse durch Wärmekomfortoptimierungsprobleme

Methodische Details

Aufgabendefinition

Systemmodell: Betrachten Sie ein exponentiell stabiles System $x_{k+1} = f(x_k, u_k)$ wobei $x \in \mathbb{R}^{n_x}$ der Systemzustand ist, $u \in \mathbb{R}^{n_u}$ die Steuerungseingabe ist, und es existiert eine eindeutige stationäre Eingabe-Zustands-Abbildung $h: \mathbb{R}^{n_u} \rightarrow \mathbb{R}^{n_x}$ .

Optimierungsziel: Optimierung des Benutzernutzens im stationären Zustand $\min_{x,u} \Phi(x, u), \quad \text{s.t. } x = h(u)$ äquivalent zum uneingeschränkten Problem: $\min_u \tilde{\Phi}(u), \quad \text{wobei } \tilde{\Phi}(u) = \Phi(h(u), u)$

Präferenzrückmeldungsmodell (Bradley-Terry-Modell): $P(\mathbb{1}_{u_1 \succ u_2} = 1) = \sigma(\tilde{\Phi}(u_2) - \tilde{\Phi}(u_1))$ wobei $\sigma(t) = \frac{1}{1+e^{-t}}$ die Sigmoid-Funktion ist.

Schlüsselannahmen:

Die Eingabe-Zustands-Abbildung $h$ ist Lipschitz-stetig
Die Nutzenfunktion $\Phi(x,u)$ ist bezüglich $x$ Lipschitz-stetig
$\tilde{\Phi}(u)$ ist differenzierbar, Lipschitz-stetig, glatt und stark konvex

Modellarchitektur

Algorithmusablauf (Algorithmus 1):

Eingabe: Schrittweite η, Glättungsparameter δ, 
         anfängliche Eingabe u₀, Anzahl der Zeitschritte T
für k = 1, ..., T-1:
    1. Zufallserkundung hinzufügen: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
       wobei vₖ gleichmäßig aus der (nᵤ-1)-dimensionalen 
       Einheitssphäre abgetastet wird
    
    2. Präferenzrückmeldung sammeln: 
       Benutzer wird gefragt, Φ(xₖ₊₁, uₖ + δvₖ) und 
       Φ(xₖ, uₖ₋₁ + δvₖ₋₁) zu vergleichen
       Abtastung von 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
    
    3. Steuerungseingabe aktualisieren:
       uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
Ende für
Ausgabe: uₜ

System im geschlossenen Regelkreis: $x_{k+1} = f(x_k, u_k + \delta v_k)$ $u_{k+1} = u_k + \frac{\eta}{2\delta}\mathbb{1}_{(x_{k+1},u_k+\delta v_k)\succ(x_k,u_{k-1}+\delta v_{k-1})}v_k$

Technische Innovationen

Einzelpunkt-Residuenschätzung:
- Verwendung von $x_{k+1}$ zur Approximation von $h(u_k + \delta v_k)$ , um die Notwendigkeit eines genauen Systemmodells zu vermeiden
- Nur eine Nutzenbewertung pro Zeitschritt erforderlich, anstelle der zwei Bewertungen traditioneller Methoden
- Basierend auf Vergleichen zwischen aufeinanderfolgenden Zeitschritten, natürlich in die Zeitreihenstruktur integriert
Probabilistische Gradient-Abstiegs-Interpretation:
- Interpretation der Aktualisierungsregel als Gradient-Abstieg der Wahrscheinlichkeitsfunktion $p_{u'}(u) = P(\mathbb{1}_{u \succ u'} = 1)$
- Beweis, dass die Minimierung von $p_{u'}(u)$ äquivalent zur Minimierung von $\tilde{\Phi}(u)$ ist (Lemma 3)
- Schreiben der Aktualisierung als: $u_{k+1} = u_k - \eta(\nabla p_{u_k}(u_k) + e_k)$
- wobei der Fehlerterm $e_k$ aus der Approximation von $h(u_k + \delta v_k)$ durch $x_{k+1}$ und der stochastischen Gradientenschätzung stammt
Fehleranalysegerüst:
- Explizite Quantifizierung der Fehlergrenze $e_k$ (Lemma 4): $\|E[e_k|F_k]\| \leq \sqrt{R_1 V(x_{k-1}, u_{k-1}+\delta v_{k-1}) + R_2}$
- wobei $R_1 = O(\mu)$ , $R_2 = O(\mu, \delta^2)$ , $\mu$ ist die Systemabklingrate
- Je schneller das System stabil wird (je kleiner μ), desto kleiner ist der Approximationsfehler
Einheitliche Analyse von Stabilität und Optimalität:
- Stabilitätsanalyse durch Lyapunov-Funktion (Lemma 1)
- Optimalitätsanalyse durch erwartete Distanz $E[\|u_k - u^*\|^2]$ (Theorem 1)
- Beide sind durch das Einschwingverhalten des Systems verbunden

Theoretische Ergebnisse

Stabilität (Lemma 1): $E[V(x_k, u_k+\delta v_k)] \leq \mu^k E[V(x_0, u_0+\delta v_0)] + \frac{a_1}{1-\mu}(2\delta^2 + \eta + (\frac{\eta}{2\delta})^2)$ wobei $\mu = \frac{2\alpha_2}{\alpha_1}(1-\frac{\alpha_3}{\alpha_2}) < 1$ .

Optimalität (Theorem 1): $E[\|u_k - u^*\|^2] \leq (\frac{1+\rho}{2})^{k-k'} E[\|u_{k'} - u^*\|^2] + O(\mu, \mu^{k'}, \delta)$ wobei $\rho = 1 - 2\sigma'(0)m\eta$ .

Schlüsseleinsichten:

Der stationäre Fehler wird durch $O(\mu, \delta)$ charakterisiert
Schnellere Systemstabilisierung (kleineres μ) führt zu besserer Leistung
Es existiert ein Explorations-Exploitations-Kompromiss (Wahl von δ)

Experimentelle Einrichtung

Datensätze/Systemmodelle

Experiment 1: Quadratisches Problem

System: LTI-System $x_{k+1} = Ax_k + Bu_k$
Matrizen: $A = \begin{bmatrix} c & 1 \\ 0 & c \end{bmatrix}$ , $B$ ist die Einheitsmatrix
Parametervariation: $c \in \{0.1, 0.7\}$ zum Testen verschiedener Abklingraten
Optimierungsziel: $\min (x-x_{ref})^\top(x-x_{ref})$ , wobei $x_{ref} = [100, 100]^\top$
Stationäre Abbildung: $H = (I-A)^{-1}B$

Experiment 2: Wärmekomfortoptimierung

System: 13-Zustands-LTI-Gebäudemodell 27
Nutzenfunktion: PMV-Modell (Predictive Mean Vote) 3
Bewertungsmetrik: PPD-Index (Predicted Percentage of Dissatisfied)
Ziel: Identifikation der Raumtemperatur, die PPD minimiert
Benutzereinstellung: Schreibaktivität, Kleidung aus Sportshorts, T-Shirt und Schuhen

Bewertungsmetriken

Relativer Fehler: $\|x_k - x_{ref}\|/\|x_{ref}\|$ (logarithmische Skala)
Temperaturverfolgung: Differenz zwischen tatsächlicher und optimaler Temperatur
Stationäre Varianz: Schwankung des Algorithmus im stationären Zustand
Überschwinger: Maximale Abweichung während des Konvergenzprozesses

Vergleichsmethoden

Algebraisches System (orange Linie): Annahme, dass $H$ bekannt ist, direkte Abtastung von $\mathbb{1}_{u_k+\delta v_k \succ u_{k-1}+\delta v_{k-1}}$
Rauschfreies Benutzermodell: $\mathbb{1} = \text{sign}(\Phi(x_k, u_{k-1}+\delta v_{k-1}) - \Phi(x_{k+1}, u_k+\delta v_k))$
Vorgeschlagene Methode (blaue Linie): Vollständiger Algorithmus 1

Implementierungsdetails

Schrittweite: $\eta = 0.1$
Glättungsparameter: $\delta = 0.5$
Anzahl der Simulationen: 20 unabhängige Durchläufe
Statistische Darstellung: Durchlinie ist der Mittelwert, schattierter Bereich ist eine Standardabweichung
Anfangsbedingungen: $u_0$ wird zufällig initialisiert

Experimentelle Ergebnisse

Hauptergebnisse

Experiment 1: Quadratisches Problem

Systemparameter	Konvergenzgeschwindigkeit	Stationäre Genauigkeit	Überschwinger	Stationäre Varianz
c=0.1 (schnell)	Schnell	Hoch	Klein	Klein
c=0.7 (langsam)	Langsam	Vergleichbar	Groß	Groß

Schlüsselfunde:

Stationäre Leistung: Die vorgeschlagene Methode (blaue Linie) und das algebraische System (orange Linie) erreichen im stationären Zustand vergleichbare Genauigkeitsniveaus
Einschwingeffekt: Bei langsameren Systemen (c=0.7) zeigt die vorgeschlagene Methode größere Übersteuerung und höhere stationäre Varianz
Theoretische Validierung: Experimentelle Ergebnisse stimmen mit theoretischen Vorhersagen überein - die Systemabklingrate μ beeinflusst die Leistung

Experiment 2: Wärmekomfortoptimierung

Konvergenz: Der Algorithmus verfolgt erfolgreich die optimale Temperatur (schwarze horizontale Linie)
Rauscheinfluss:
- Mit Rausch-Rückmeldung (blaue Linie): Langsamere Konvergenz, Schwankungen vorhanden
- Ohne Rausch-Rückmeldung (orange Linie): Schnellere Konvergenz, stabiler
Praktikabilität: Durch sorgfältige Anpassung von η und δ kann der Regler den optimalen Punkt effektiv verfolgen, ohne große Übersteuerung

Experimentelle Erkenntnisse

Bedeutung der Systemdynamik:
- Das Einschwingverhalten des Systems beeinflusst die Algorithmusleistung erheblich
- Schnell stabilisierende Systeme (kleines μ) erreichen bessere Verfolgungsleistung
- Dies validiert die theoretischen Ergebnisse bezüglich μ in Lemma 1 und Theorem 1
Parameterkompromisse:
- δ: Kleineres δ reduziert Explorationslärm, könnte aber zu lokalen Optima führen
- η: Muss Konvergenzgeschwindigkeit und Stabilität ausgleichen
- Es existiert ein Explorations-Exploitations-Kompromiss
Benutzermodelleinfluss:
- Bradley-Terry-Modell (probabilistische Rückmeldung) führt zusätzliches Rauschen ein
- Deterministische Rückmeldung verbessert die Leistung erheblich
- Motiviert zukünftige Forschung zu alternativen Benutzermodellen
Praktisches Anwendungspotenzial:
- Wärmekomfortoptimierung demonstriert praktisches Anwendungspotenzial zum Lernen menschlicher Nutzenfunktionen
- Einzelpunkt-Bewertungsschema eignet sich für Online-Implementierung
- Der Algorithmus ist robust gegenüber Anfangsbedingungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretische Beiträge:
- Entwicklung des ersten menschengerechten Reglers, der Präferenzrückmeldungen nutzt und Garantien im geschlossenen Regelkreis bietet
- Explizite Quantifizierung der Auswirkung des Einschwingverhaltens auf die Leistung
- Etablierung theoretischer Garantien für Stabilität und Optimalität
Methodische Vorteile:
- Nur eine Nutzenbewertung pro Schritt erforderlich
- Kein genaues Systemmodell erforderlich
- Kann zeitvariable Nutzenfunktionen und externe Störungen handhaben
Experimentelle Validierung:
- Theoretische Ergebnisse werden in numerischen Experimenten validiert
- Demonstriert praktisches Anwendungspotenzial in Wärmekomfortoptimierungsaufgaben

Einschränkungen

Annahmebedingungen:
- Starke Konvexitätsannahme könnte in einigen Anwendungen zu restriktiv sein
- Bradley-Terry-Modell setzt vollständig rationales menschliches Verhalten voraus, aber Menschen sind nicht immer rational 9
- Erfordert exponentiell stabiles System
Stationärer Fehler:
- Existiert stationärer Fehler von $O(\mu, \delta)$
- Kann nicht vollständig eliminiert werden, nur durch Parameteranpassung reduziert
- Bei sehr langsamen Systemen könnte die Leistung sinken
Benutzerbelastung:
- Erfordert Benutzerfeedback bei jedem Zeitschritt
- Könnte in praktischen Anwendungen zu Benutzerermüdung führen
- Berücksichtigt keine Rückmeldungsverzögerung
Theorie-Praxis-Lücke:
- Theoretische Analyse des deterministischen Rückmeldungsmodells fehlt noch
- Experimente zeigen bessere Leistung des rauschfreien Modells, aber theoretische Unterstützung fehlt
Rechenkomplexität:
- Skalierbarkeit für großflächige Systeme nicht diskutiert
- Zufallserkundung könnte in hochdimensionalen Räumen ineffizient sein

Zukünftige Richtungen

Vom Autor explizit vorgeschlagene Richtungen:

Erweiterung des theoretischen Rahmens auf alternative Benutzermodelle (z. B. rauschfreie Modelle)
Praktische Anwendungen: Produktdesign, Chemieauswahl usw.
Lockerung von Annahmen: Nicht-konvexe Nutzenfunktionen, instabile Systeme
Multi-Agent-Szenarien: Präferenzaggregation mehrerer Benutzer

Potenzielle Forschungsrichtungen: 5. Adaptive Parameteranpassung: Online-Anpassung von η und δ 6. Benutzerermüdungsmodellierung: Reduzierung der Rückmeldungshäufigkeit 7. Verzögerte Rückmeldung: Umgang mit Benutzerverzögerungen 8. Hochdimensionale Optimierung: Effizientere Explorationsstrategien

Tiefgreifende Bewertung

Stärken

Theoretische Strenge:

Vollständiger theoretischer Rahmen: Vollständige Analysekette von Stabilität (Lemma 1) bis Optimalität (Theorem 1)
Explizite Fehlergrenzen: Klare Quantifizierung von Approximationsfehlern (Lemma 4), nicht nur asymptotische Ergebnisse
Milde Annahmen: Obwohl starke Konvexitätsannahme vorhanden, sind andere Annahmen (Lipschitz-Stetigkeit) in der Praxis häufig
Vollständige Beweise: Alle Hauptergebnisse haben detaillierte Beweise (Anhang)

Methodische Innovation:

Neuartigkeit: Erste Kombination von Präferenzrückmeldung mit geschlossener Regelkreissteuerung, füllt Forschungslücke
Einzelpunkt-Bewertung: 50% Reduktion der Bewertungsanzahl im Vergleich zu bestehenden Methoden, erhebliche Verbesserung der Praktikabilität
Einheitlicher Rahmen: Vereinheitlichte Analyse von Stabilität und Optimalität im gleichen Rahmen
Probabilistische Interpretation: Umwandlung binärer Rückmeldung in probabilistischen Gradient-Abstieg, bietet intuitive Verständnis

Experimentelles Design:

Progressive Validierung: Von einfachen quadratischen Problemen zu praktischen Wärmekomfortproblemen
Parametersensitivitätsanalyse: Test des Systemdynamikeinflusses durch verschiedene c-Werte
Statistische Zuverlässigkeit: 20 unabhängige Durchläufe, Bereitstellung von Mittelwert und Varianz
Praktische Relevanz: Wärmekomfortoptimierung ist echtes Anwendungsszenario

Schreibqualität:

Klare Struktur: Von Problemdefinition über theoretische Analyse bis experimentelle Validierung, logisch konsistent
Standardisierte Notation: Mathematische Symbole konsistent und standardisiert
Intuitive Erklärungen: Mehrere Bemerkungen zur intuitiven Erklärung neben technischen Details

Mängel

Theoretische Einschränkungen:

Starke Konvexitätsannahme: Begrenzt den Anwendungsbereich, viele praktische Nutzenfunktionen (wie PPD) sind nicht konvex
Asymptotische Ergebnisse: Theorem 1 gibt Grenzen abhängig von beliebig festgelegtem k' an, keine explizite endliche Konvergenzrate
Konstanten-Abhängigkeit: Konstanten in $O(\mu, \delta)$ könnten groß sein, theoretische Grenzen möglicherweise zu konservativ
Fehlende deterministische Modellanalyse: Experimente zeigen bessere Leistung des rauschfreien Modells, aber theoretische Analyse fehlt

Experimentelle Mängel:

Begrenzte Vergleichsmethoden:
- Kein Vergleich mit anderen Präferenzlernmethoden (wie GP-basierte Methoden [14]15)
- Kein Vergleich mit traditionellen adaptiven Steuerungsmethoden
- Nur Vergleich mit algebraischem System und rauschfreiem Modell
Parameteroptimierung:
- Keine systematische Untersuchung der Wahl von η und δ
- Keine Richtlinien zur Parameterauswahl
- Parameterauswahl in Experimenten scheint manuell optimiert zu sein
Skalierungsbegrenzungen:
- Nur Tests mit niedrigdimensionalen Systemen (2D und 13D)
- Skalierbarkeit in hochdimensionalen Fällen nicht validiert
Fehlende echte Benutzertests:
- Alle Experimente basieren auf simulierten Benutzermodellen
- Keine Experimente mit echten menschlichen Versuchspersonen
- Praktische Gültigkeit des Bradley-Terry-Modells nicht validiert

Methodische Einschränkungen:

Explorationseffizienz: Gleichmäßige Kugelflächenabtastung könnte in hochdimensionalen Räumen ineffizient sein
Kaltstartproblem: Algorithmus benötigt anfängliches u₀, Auswahl nicht diskutiert
Robustheit: Keine Analyse der Robustheit gegenüber Modellunsicherheit und Messlärm
Rechenkomplexität: Rechenkomplexität pro Schritt nicht diskutiert

Praktische Überlegungen:

Benutzerbelastung: Rückmeldung bei jedem Schritt erforderlich, könnte zu Benutzerermüdung führen
Rückmeldungsqualität: Setzt voraus, dass Benutzer Präferenzen genau angeben können, aber in der Praxis möglicherweise inkonsistent
Sicherheitsbeschränkungen: Berücksichtigt keine Zustands- und Eingabebeschränkungen, wichtig in echten Systemen
Multi-Objective-Optimierung: Berücksichtigt nur einzelne Nutzenfunktion

Einfluss

Beitrag zum Forschungsgebiet:

Bahnbrechende Arbeit: Eröffnet neue Forschungsrichtung der Echtzeit-Präferenzoptimierung
Theoretische Grundlagen: Bietet theoretischen Rahmen und Analysewerkzeuge für nachfolgende Forschung
Interdisziplinäre Brücke: Verbindet Steuerungstheorie, Optimierung und Mensch-Maschine-Interaktion
Anwendungspotenzial: Bietet neue Perspektiven für menschengerechte Systemgestaltung

Erwarteter Einfluss:

Kurzfristig: Könnte mehr Forschung zu Präferenzrückmeldungssteuerung auslösen
Mittelfristig: Könnte in Gebäudesteuerung, personalisierter Empfehlung usw. angewendet werden
Langfristig: Könnte Designparadigma für Mensch-Maschine-Interaktionssysteme beeinflussen

Einschränkungen:

Starke Annahmen könnten praktische Anwendung begrenzen
Mangel an echten Benutzertests könnte Glaubwürdigkeit beeinflussen
Erfordert mehr technische Arbeit für praktische Bereitstellung

Anwendbare Szenarien

Ideale Anwendungsszenarien:

Gebäudesteuerung:
- Personalisierte Temperaturregelung
- Beleuchtungssteuerung
- Luftqualitätsverwaltung
- Vorteil: Systemdynamik relativ langsam, Benutzer können kontinuierliche Rückmeldung geben
Personalisierte Empfehlung:
- Produktempfehlung
- Inhaltsempfehlung
- Vorteil: Benutzer gewöhnt an Vergleichsrückmeldung
Gesundheitswesen:
- Personalisierte Behandlungsplanoptimierung
- Anpassung der Rehabilitationstrainingsintensität
- Vorteil: Betonung individueller Unterschiede
Mensch-Maschine-Zusammenarbeit:
- Robotergestützte Aufgabenunterstützung
- Personalisiertes autonomes Fahren
- Vorteil: Erfordert Echtzeitanpassung an Benutzerpräferenzen

Nicht anwendbare Szenarien:

Schnelle dynamische Systeme: Hochfrequenzhandel, Flugsteuerung usw. (Benutzer kann nicht zeitnah reagieren)
Hochdimensionale komplexe Systeme: Niedrige Explorationseffizienz
Strikte Sicherheitsbeschränkungen: Keine Behandlung von Beschränkungen, möglicherweise unsicher
Multi-Objective-Konflikte: Berücksichtigt nur einzelne Nutzenfunktion
Nicht-konvexe Optimierung: Theoretische Garantien ungültig

Verbesserungsvorschläge:

Kombination mit aktivem Lernen zur Reduzierung der Rückmeldungshäufigkeit
Einführung von Sicherheitsfiltern zur Behandlung von Beschränkungen
Erweiterung auf Multi-Objective-Szenarien
Entwicklung adaptiver Parameteranpassungsstrategien

Referenzen

Schlüsselreferenzen:

8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
- Haupttheoretische Grundlage dieses Papiers
- Bietet Idee der Einzelpunkt-Residuenschätzung
18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
- Klassische Arbeit zur Gradientenschätzung mit Präferenzrückmeldung
- Dieses Papier verbessert das Problem der zwei erforderlichen Bewertungen
16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
- Neueste Fortschritte in Präferenz-Bayes-Optimierung
- Bietet Vergleichsmaßstab für GP-basierte Methoden
27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
- Praktisches Systemmodell für Gebäudesteuerung
- Bietet realistisches Szenario für Experimente
9 D. Kahneman & A. Tversky, 2013 - Prospect theory
- Irrationales menschliches Entscheidungsverhalten
- Weist auf Einschränkungen der Benutzermodellierungsannahmen hin

Gesamtbewertung: Dies ist ein theoretisch streng verfasstes und hochinnovatives Papier, das erfolgreich Präferenzlernen mit geschlossener Regelkreissteuerung kombiniert und einen neuen theoretischen Rahmen für die Gestaltung von Mensch-Maschine-Interaktionssystemen bietet. Die Hauptbeiträge liegen in der erstmaligen Bereitstellung von Stabilitäts- und Optimalitätsgarantien für Echtzeit-Präferenzoptimierung und der praktischen Wertigkeit der Methode (Einzelpunkt-Bewertung). Die starke Konvexitätsannahme, das Fehlen echter Benutzertests und begrenzte Vergleichsexperimente sind jedoch die Hauptmängel. Zukünftige Arbeiten sollten sich auf die Lockerung von Annahmen, echte Benutzerstudien und Erweiterung auf komplexere praktische Anwendungsszenarien konzentrieren. Für Forscher, die sich mit Mensch-Maschine-Interaktionssteuerung, Präferenzlernen oder Online-Optimierung befassen, ist dieses Papier lesenswert.