2025-11-24T00:22:17.812402

Human-in-the-loop: Real-time Preference Optimization

Wang, Xu, Jones
Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.
academic

Human-in-the-loop: Echtzeit-Präferenzoptimierung

Grundinformationen

  • Papier-ID: 2506.02225
  • Titel: Human-in-the-loop: Real-time Preference Optimization
  • Autoren: Wenbin Wang, Wenjie Xu, Colin N. Jones (EPFL Laboratorium für automatische Steuerung)
  • Klassifizierung: math.OC (Optimierung und Steuerung)
  • Veröffentlichungszeit: arXiv Preprint, 3. November 2025, Version 2
  • Papier-Link: https://arxiv.org/abs/2506.02225

Zusammenfassung

Dieses Papier untersucht Optimierungsprobleme mit Präferenzrückmeldungen, die in technischen Systemen mit zentraler menschlicher Rolle wie Gebäudesteuerung und autonomem Fahren weit verbreitet sind. Bestehende Forschungen konzentrieren sich hauptsächlich auf statische Nutzenoptimierung von Benutzern und berücksichtigen selten das Verhalten im geschlossenen Regelkreis während der Einschwingvorgänge des Systems. Dieses Papier schlägt einen Online-Rückkopplungsoptimierungsregler vor, der paarweise Vergleichsrückmeldungen nutzen kann, um den Nutzen des Benutzers zu optimieren und gleichzeitig Optimalitäts- und Stabilitätsgarantien im geschlossenen Regelkreis zu bieten. Durch Hinzufügen von Zufallserkundungssignalen schätzt der Regler den Gradienten basierend auf binären Nutzensvergleichen zwischen aufeinanderfolgenden Zeitschritten. Die Autoren analysieren das Verhalten im geschlossenen Regelkreis bei der Wechselwirkung mit nichtlinearen Systemen und beweisen, dass der Regler unter milden Annahmen zum optimalen Punkt konvergiert, ohne Instabilität zu verursachen. Die theoretischen Erkenntnisse werden durch numerische Experimente validiert.

Forschungshintergrund und Motivation

Zu lösende Probleme

  1. Mensch-Maschine-Steuerungsproblem: Wie entwirft man einen menschengerechten Regler, der die potenzielle Nutzenfunktion des Benutzers in Echtzeit optimiert, damit sich das System an Benutzerpräferenzen anpassen kann?
  2. Echtzeit-Optimierung mit Präferenzrückmeldung: Wie nutzt man binäre Präferenzvergleiche (anstelle von absoluten Nutzenwerten) für Online-Optimierung?
  3. Stabilitätsgarantien im geschlossenen Regelkreis: Wie stellt man sicher, dass der Optimierungsprozess unter Berücksichtigung des Einschwingverhaltens des Systems nicht zu Instabilität führt?

Bedeutung des Problems

  • Individuelle Unterschiede: Herkömmliche Regler verfolgen vordefinierte Referenzpunkte basierend auf großflächigen Bevölkerungsmodellen (z. B. Raumtemperatur in der Gebäudesteuerung), was zu Abweichungen und suboptimaler Leistung führt, da individuelle Unterschiede nicht berücksichtigt werden können
  • Zeitvariable Nutzenfunktion: Ohne Echtzeit-Menschenfeedback kann der Regler nicht auf zeitvariable Nutzenfunktionen reagieren und ist auch nicht robust gegenüber externen Störungen
  • Menschliche Kognitionsmerkmale: Menschen sind besser im relativen Vergleich als in absoluten Bewertungen, daher treten Präferenzrückmeldungen typischerweise in Form von paarweisen Vergleichen auf

Einschränkungen bestehender Methoden

  1. Online-Rückkopplungsoptimierung (OFO): Bestehende OFO-Methoden (wie Gittersteuerung, Roboterkoordination) erfordern genaue Nutzenwerte oder Gradienteninformationen und lassen sich schwer direkt auf Szenarien mit menschlichen Präferenzrückmeldungen anwenden
  2. Offline-Präferenzoptimierung:
    • Die meisten Arbeiten betrachten statische Probleme und ignorieren das Einschwingverhalten des Systems
    • Bestehende Gradientenschätzungsmethoden (wie 18, 19) erfordern zwei Funktionsbewertungen pro Zeitschritt, was sich für Online-Implementierung nicht eignet
    • Mangel an Stabilitätsanalyse im geschlossenen Regelkreis
  3. Schwierig zu quantifizierende Stabilität: Die binäre Natur von Präferenzrückmeldungen macht die Gesamtdynamik hochgradig nichtlinear und schwer zu analysieren
  4. Begrenzte Benutzerkenntnisse: Benutzer haben typischerweise begrenzte Kenntnisse über die Systemdynamik, und das direkte Befolgen ihrer Präferenzen könnte zu Systeminstabilität führen

Forschungsmotivation

Inspiriert durch die kürzlich vorgeschlagene modellfreie OFO mit Einzelpunkt-Residuenschätzung 8 zielt dieses Papier darauf ab, die erste Arbeit zu entwickeln, die das Echtzeit-Präferenzoptimierungsproblem löst und Garantien im geschlossenen Regelkreis bietet.

Kernbeiträge

  1. Neuartiger OFO-Regler: Vorschlag des ersten Online-Rückkopplungsoptimierungsreglers, der binäre Präferenzrückmeldungen nutzt, um den Benutzernutzen zu optimieren und gleichzeitig die Stabilität im geschlossenen Regelkreis sicherzustellen
  2. Einzelpunkt-Bewertungsschema: Verwendung eines Zufallserkundungsschemas, das pro Zeitschritt nur eine Nutzenbewertung erfordert (anstelle von zwei), was sich besser für Online-Implementierung eignet
  3. Theoretische Garantien:
    • Beweis der Stabilität des Systems im geschlossenen Regelkreis (Lemma 1: Erwartete Lyapunov-Funktion ist beschränkt)
    • Etablierung von Optimalitätsgarantien (Theorem 1: Erwartete Distanz konvergiert zu O(μ, δ))
    • Quantifizierung der Auswirkung des Einschwingverhaltens auf die Leistung
  4. Erste Garantie im geschlossenen Regelkreis: Nach Aussage der Autoren ist dies die erste Arbeit, die Garantien im geschlossenen Regelkreis für das Echtzeit-Präferenzoptimierungsproblem bietet
  5. Numerische Validierung: Validierung der theoretischen Ergebnisse durch Wärmekomfortoptimierungsprobleme

Methodische Details

Aufgabendefinition

Systemmodell: Betrachten Sie ein exponentiell stabiles System xk+1=f(xk,uk)x_{k+1} = f(x_k, u_k) wobei xRnxx \in \mathbb{R}^{n_x} der Systemzustand ist, uRnuu \in \mathbb{R}^{n_u} die Steuerungseingabe ist, und es existiert eine eindeutige stationäre Eingabe-Zustands-Abbildung h:RnuRnxh: \mathbb{R}^{n_u} \rightarrow \mathbb{R}^{n_x}.

Optimierungsziel: Optimierung des Benutzernutzens im stationären Zustand minx,uΦ(x,u),s.t. x=h(u)\min_{x,u} \Phi(x, u), \quad \text{s.t. } x = h(u) äquivalent zum uneingeschränkten Problem: minuΦ~(u),wobei Φ~(u)=Φ(h(u),u)\min_u \tilde{\Phi}(u), \quad \text{wobei } \tilde{\Phi}(u) = \Phi(h(u), u)

Präferenzrückmeldungsmodell (Bradley-Terry-Modell): P(1u1u2=1)=σ(Φ~(u2)Φ~(u1))P(\mathbb{1}_{u_1 \succ u_2} = 1) = \sigma(\tilde{\Phi}(u_2) - \tilde{\Phi}(u_1)) wobei σ(t)=11+et\sigma(t) = \frac{1}{1+e^{-t}} die Sigmoid-Funktion ist.

Schlüsselannahmen:

  1. Die Eingabe-Zustands-Abbildung hh ist Lipschitz-stetig
  2. Die Nutzenfunktion Φ(x,u)\Phi(x,u) ist bezüglich xx Lipschitz-stetig
  3. Φ~(u)\tilde{\Phi}(u) ist differenzierbar, Lipschitz-stetig, glatt und stark konvex

Modellarchitektur

Algorithmusablauf (Algorithmus 1):

Eingabe: Schrittweite η, Glättungsparameter δ, 
         anfängliche Eingabe u₀, Anzahl der Zeitschritte T
für k = 1, ..., T-1:
    1. Zufallserkundung hinzufügen: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
       wobei vₖ gleichmäßig aus der (nᵤ-1)-dimensionalen 
       Einheitssphäre abgetastet wird
    
    2. Präferenzrückmeldung sammeln: 
       Benutzer wird gefragt, Φ(xₖ₊₁, uₖ + δvₖ) und 
       Φ(xₖ, uₖ₋₁ + δvₖ₋₁) zu vergleichen
       Abtastung von 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
    
    3. Steuerungseingabe aktualisieren:
       uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
Ende für
Ausgabe: uₜ

System im geschlossenen Regelkreis: xk+1=f(xk,uk+δvk)x_{k+1} = f(x_k, u_k + \delta v_k)uk+1=uk+η2δ1(xk+1,uk+δvk)(xk,uk1+δvk1)vku_{k+1} = u_k + \frac{\eta}{2\delta}\mathbb{1}_{(x_{k+1},u_k+\delta v_k)\succ(x_k,u_{k-1}+\delta v_{k-1})}v_k

Technische Innovationen

  1. Einzelpunkt-Residuenschätzung:
    • Verwendung von xk+1x_{k+1} zur Approximation von h(uk+δvk)h(u_k + \delta v_k), um die Notwendigkeit eines genauen Systemmodells zu vermeiden
    • Nur eine Nutzenbewertung pro Zeitschritt erforderlich, anstelle der zwei Bewertungen traditioneller Methoden
    • Basierend auf Vergleichen zwischen aufeinanderfolgenden Zeitschritten, natürlich in die Zeitreihenstruktur integriert
  2. Probabilistische Gradient-Abstiegs-Interpretation:
    • Interpretation der Aktualisierungsregel als Gradient-Abstieg der Wahrscheinlichkeitsfunktion pu(u)=P(1uu=1)p_{u'}(u) = P(\mathbb{1}_{u \succ u'} = 1)
    • Beweis, dass die Minimierung von pu(u)p_{u'}(u) äquivalent zur Minimierung von Φ~(u)\tilde{\Phi}(u) ist (Lemma 3)
    • Schreiben der Aktualisierung als: uk+1=ukη(puk(uk)+ek)u_{k+1} = u_k - \eta(\nabla p_{u_k}(u_k) + e_k)
    • wobei der Fehlerterm eke_k aus der Approximation von h(uk+δvk)h(u_k + \delta v_k) durch xk+1x_{k+1} und der stochastischen Gradientenschätzung stammt
  3. Fehleranalysegerüst:
    • Explizite Quantifizierung der Fehlergrenze eke_k (Lemma 4): E[ekFk]R1V(xk1,uk1+δvk1)+R2\|E[e_k|F_k]\| \leq \sqrt{R_1 V(x_{k-1}, u_{k-1}+\delta v_{k-1}) + R_2}
    • wobei R1=O(μ)R_1 = O(\mu), R2=O(μ,δ2)R_2 = O(\mu, \delta^2), μ\mu ist die Systemabklingrate
    • Je schneller das System stabil wird (je kleiner μ), desto kleiner ist der Approximationsfehler
  4. Einheitliche Analyse von Stabilität und Optimalität:
    • Stabilitätsanalyse durch Lyapunov-Funktion (Lemma 1)
    • Optimalitätsanalyse durch erwartete Distanz E[uku2]E[\|u_k - u^*\|^2] (Theorem 1)
    • Beide sind durch das Einschwingverhalten des Systems verbunden

Theoretische Ergebnisse

Stabilität (Lemma 1): E[V(xk,uk+δvk)]μkE[V(x0,u0+δv0)]+a11μ(2δ2+η+(η2δ)2)E[V(x_k, u_k+\delta v_k)] \leq \mu^k E[V(x_0, u_0+\delta v_0)] + \frac{a_1}{1-\mu}(2\delta^2 + \eta + (\frac{\eta}{2\delta})^2) wobei μ=2α2α1(1α3α2)<1\mu = \frac{2\alpha_2}{\alpha_1}(1-\frac{\alpha_3}{\alpha_2}) < 1.

Optimalität (Theorem 1): E[uku2](1+ρ2)kkE[uku2]+O(μ,μk,δ)E[\|u_k - u^*\|^2] \leq (\frac{1+\rho}{2})^{k-k'} E[\|u_{k'} - u^*\|^2] + O(\mu, \mu^{k'}, \delta) wobei ρ=12σ(0)mη\rho = 1 - 2\sigma'(0)m\eta.

Schlüsseleinsichten:

  • Der stationäre Fehler wird durch O(μ,δ)O(\mu, \delta) charakterisiert
  • Schnellere Systemstabilisierung (kleineres μ) führt zu besserer Leistung
  • Es existiert ein Explorations-Exploitations-Kompromiss (Wahl von δ)

Experimentelle Einrichtung

Datensätze/Systemmodelle

Experiment 1: Quadratisches Problem

  • System: LTI-System xk+1=Axk+Bukx_{k+1} = Ax_k + Bu_k
  • Matrizen: A=[c10c]A = \begin{bmatrix} c & 1 \\ 0 & c \end{bmatrix}, BB ist die Einheitsmatrix
  • Parametervariation: c{0.1,0.7}c \in \{0.1, 0.7\} zum Testen verschiedener Abklingraten
  • Optimierungsziel: min(xxref)(xxref)\min (x-x_{ref})^\top(x-x_{ref}), wobei xref=[100,100]x_{ref} = [100, 100]^\top
  • Stationäre Abbildung: H=(IA)1BH = (I-A)^{-1}B

Experiment 2: Wärmekomfortoptimierung

  • System: 13-Zustands-LTI-Gebäudemodell 27
  • Nutzenfunktion: PMV-Modell (Predictive Mean Vote) 3
  • Bewertungsmetrik: PPD-Index (Predicted Percentage of Dissatisfied)
  • Ziel: Identifikation der Raumtemperatur, die PPD minimiert
  • Benutzereinstellung: Schreibaktivität, Kleidung aus Sportshorts, T-Shirt und Schuhen

Bewertungsmetriken

  1. Relativer Fehler: xkxref/xref\|x_k - x_{ref}\|/\|x_{ref}\| (logarithmische Skala)
  2. Temperaturverfolgung: Differenz zwischen tatsächlicher und optimaler Temperatur
  3. Stationäre Varianz: Schwankung des Algorithmus im stationären Zustand
  4. Überschwinger: Maximale Abweichung während des Konvergenzprozesses

Vergleichsmethoden

  1. Algebraisches System (orange Linie): Annahme, dass HH bekannt ist, direkte Abtastung von 1uk+δvkuk1+δvk1\mathbb{1}_{u_k+\delta v_k \succ u_{k-1}+\delta v_{k-1}}
  2. Rauschfreies Benutzermodell: 1=sign(Φ(xk,uk1+δvk1)Φ(xk+1,uk+δvk))\mathbb{1} = \text{sign}(\Phi(x_k, u_{k-1}+\delta v_{k-1}) - \Phi(x_{k+1}, u_k+\delta v_k))
  3. Vorgeschlagene Methode (blaue Linie): Vollständiger Algorithmus 1

Implementierungsdetails

  • Schrittweite: η=0.1\eta = 0.1
  • Glättungsparameter: δ=0.5\delta = 0.5
  • Anzahl der Simulationen: 20 unabhängige Durchläufe
  • Statistische Darstellung: Durchlinie ist der Mittelwert, schattierter Bereich ist eine Standardabweichung
  • Anfangsbedingungen: u0u_0 wird zufällig initialisiert

Experimentelle Ergebnisse

Hauptergebnisse

Experiment 1: Quadratisches Problem

SystemparameterKonvergenzgeschwindigkeitStationäre GenauigkeitÜberschwingerStationäre Varianz
c=0.1 (schnell)SchnellHochKleinKlein
c=0.7 (langsam)LangsamVergleichbarGroßGroß

Schlüsselfunde:

  1. Stationäre Leistung: Die vorgeschlagene Methode (blaue Linie) und das algebraische System (orange Linie) erreichen im stationären Zustand vergleichbare Genauigkeitsniveaus
  2. Einschwingeffekt: Bei langsameren Systemen (c=0.7) zeigt die vorgeschlagene Methode größere Übersteuerung und höhere stationäre Varianz
  3. Theoretische Validierung: Experimentelle Ergebnisse stimmen mit theoretischen Vorhersagen überein - die Systemabklingrate μ beeinflusst die Leistung

Experiment 2: Wärmekomfortoptimierung

  • Konvergenz: Der Algorithmus verfolgt erfolgreich die optimale Temperatur (schwarze horizontale Linie)
  • Rauscheinfluss:
    • Mit Rausch-Rückmeldung (blaue Linie): Langsamere Konvergenz, Schwankungen vorhanden
    • Ohne Rausch-Rückmeldung (orange Linie): Schnellere Konvergenz, stabiler
  • Praktikabilität: Durch sorgfältige Anpassung von η und δ kann der Regler den optimalen Punkt effektiv verfolgen, ohne große Übersteuerung

Experimentelle Erkenntnisse

  1. Bedeutung der Systemdynamik:
    • Das Einschwingverhalten des Systems beeinflusst die Algorithmusleistung erheblich
    • Schnell stabilisierende Systeme (kleines μ) erreichen bessere Verfolgungsleistung
    • Dies validiert die theoretischen Ergebnisse bezüglich μ in Lemma 1 und Theorem 1
  2. Parameterkompromisse:
    • δ: Kleineres δ reduziert Explorationslärm, könnte aber zu lokalen Optima führen
    • η: Muss Konvergenzgeschwindigkeit und Stabilität ausgleichen
    • Es existiert ein Explorations-Exploitations-Kompromiss
  3. Benutzermodelleinfluss:
    • Bradley-Terry-Modell (probabilistische Rückmeldung) führt zusätzliches Rauschen ein
    • Deterministische Rückmeldung verbessert die Leistung erheblich
    • Motiviert zukünftige Forschung zu alternativen Benutzermodellen
  4. Praktisches Anwendungspotenzial:
    • Wärmekomfortoptimierung demonstriert praktisches Anwendungspotenzial zum Lernen menschlicher Nutzenfunktionen
    • Einzelpunkt-Bewertungsschema eignet sich für Online-Implementierung
    • Der Algorithmus ist robust gegenüber Anfangsbedingungen

Verwandte Arbeiten

Online-Rückkopplungsoptimierung (OFO)

  • Anwendungen in Gittersteuerung 5 und Roboterkoordination 6
  • Theoretische Garantien: Erste-Ordnung 7 und Nullte-Ordnung 8 Formeln
  • Einschränkungen: Erfordern genaue Nutzenwerte oder Gradienteninformationen

Offline-Präferenzoptimierung

Endlicher Aktionsraum:

  • Optimalitätskonzepte: Copeland-Gewinner 10, Borda-Gewinner 11
  • Algorithmen: Zufallserkundung 12, Gieriger Suchalgorithmus 13

Kontinuierlicher Aktionsraum:

  • GP-Modellierung: Modellierung latenter Nutzenfunktionen mit Gaußschen Prozessen
  • Heuristische Strategien: Ausgleich von Erkundung und Ausnutzung [14]15
  • Bedauernisgarantien: Wenn Nutzenfunktion in RKHS liegt [16]17

Gradientenschätzung:

  • Bestehende Methoden [18]19: Erfordern zwei Bewertungen pro Schritt
  • Methode dieses Papiers: Nur eine Bewertung erforderlich, besser für Online-Szenarien

Unterscheidungsmerkmale dieses Papiers

  1. Erste Garantie im geschlossenen Regelkreis: Echtzeit-Präferenzoptimierung unter Berücksichtigung des Einschwingverhaltens
  2. Einzelpunkt-Bewertung: Höhere Recheneffizienz
  3. Theoretische Vollständigkeit: Bietet sowohl Stabilitäts- als auch Optimalitätsgarantien
  4. Praktikabilität: Geeignet für echte technische Systeme

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretische Beiträge:
    • Entwicklung des ersten menschengerechten Reglers, der Präferenzrückmeldungen nutzt und Garantien im geschlossenen Regelkreis bietet
    • Explizite Quantifizierung der Auswirkung des Einschwingverhaltens auf die Leistung
    • Etablierung theoretischer Garantien für Stabilität und Optimalität
  2. Methodische Vorteile:
    • Nur eine Nutzenbewertung pro Schritt erforderlich
    • Kein genaues Systemmodell erforderlich
    • Kann zeitvariable Nutzenfunktionen und externe Störungen handhaben
  3. Experimentelle Validierung:
    • Theoretische Ergebnisse werden in numerischen Experimenten validiert
    • Demonstriert praktisches Anwendungspotenzial in Wärmekomfortoptimierungsaufgaben

Einschränkungen

  1. Annahmebedingungen:
    • Starke Konvexitätsannahme könnte in einigen Anwendungen zu restriktiv sein
    • Bradley-Terry-Modell setzt vollständig rationales menschliches Verhalten voraus, aber Menschen sind nicht immer rational 9
    • Erfordert exponentiell stabiles System
  2. Stationärer Fehler:
    • Existiert stationärer Fehler von O(μ,δ)O(\mu, \delta)
    • Kann nicht vollständig eliminiert werden, nur durch Parameteranpassung reduziert
    • Bei sehr langsamen Systemen könnte die Leistung sinken
  3. Benutzerbelastung:
    • Erfordert Benutzerfeedback bei jedem Zeitschritt
    • Könnte in praktischen Anwendungen zu Benutzerermüdung führen
    • Berücksichtigt keine Rückmeldungsverzögerung
  4. Theorie-Praxis-Lücke:
    • Theoretische Analyse des deterministischen Rückmeldungsmodells fehlt noch
    • Experimente zeigen bessere Leistung des rauschfreien Modells, aber theoretische Unterstützung fehlt
  5. Rechenkomplexität:
    • Skalierbarkeit für großflächige Systeme nicht diskutiert
    • Zufallserkundung könnte in hochdimensionalen Räumen ineffizient sein

Zukünftige Richtungen

Vom Autor explizit vorgeschlagene Richtungen:

  1. Erweiterung des theoretischen Rahmens auf alternative Benutzermodelle (z. B. rauschfreie Modelle)
  2. Praktische Anwendungen: Produktdesign, Chemieauswahl usw.
  3. Lockerung von Annahmen: Nicht-konvexe Nutzenfunktionen, instabile Systeme
  4. Multi-Agent-Szenarien: Präferenzaggregation mehrerer Benutzer

Potenzielle Forschungsrichtungen: 5. Adaptive Parameteranpassung: Online-Anpassung von η und δ 6. Benutzerermüdungsmodellierung: Reduzierung der Rückmeldungshäufigkeit 7. Verzögerte Rückmeldung: Umgang mit Benutzerverzögerungen 8. Hochdimensionale Optimierung: Effizientere Explorationsstrategien

Tiefgreifende Bewertung

Stärken

Theoretische Strenge:

  1. Vollständiger theoretischer Rahmen: Vollständige Analysekette von Stabilität (Lemma 1) bis Optimalität (Theorem 1)
  2. Explizite Fehlergrenzen: Klare Quantifizierung von Approximationsfehlern (Lemma 4), nicht nur asymptotische Ergebnisse
  3. Milde Annahmen: Obwohl starke Konvexitätsannahme vorhanden, sind andere Annahmen (Lipschitz-Stetigkeit) in der Praxis häufig
  4. Vollständige Beweise: Alle Hauptergebnisse haben detaillierte Beweise (Anhang)

Methodische Innovation:

  1. Neuartigkeit: Erste Kombination von Präferenzrückmeldung mit geschlossener Regelkreissteuerung, füllt Forschungslücke
  2. Einzelpunkt-Bewertung: 50% Reduktion der Bewertungsanzahl im Vergleich zu bestehenden Methoden, erhebliche Verbesserung der Praktikabilität
  3. Einheitlicher Rahmen: Vereinheitlichte Analyse von Stabilität und Optimalität im gleichen Rahmen
  4. Probabilistische Interpretation: Umwandlung binärer Rückmeldung in probabilistischen Gradient-Abstieg, bietet intuitive Verständnis

Experimentelles Design:

  1. Progressive Validierung: Von einfachen quadratischen Problemen zu praktischen Wärmekomfortproblemen
  2. Parametersensitivitätsanalyse: Test des Systemdynamikeinflusses durch verschiedene c-Werte
  3. Statistische Zuverlässigkeit: 20 unabhängige Durchläufe, Bereitstellung von Mittelwert und Varianz
  4. Praktische Relevanz: Wärmekomfortoptimierung ist echtes Anwendungsszenario

Schreibqualität:

  1. Klare Struktur: Von Problemdefinition über theoretische Analyse bis experimentelle Validierung, logisch konsistent
  2. Standardisierte Notation: Mathematische Symbole konsistent und standardisiert
  3. Intuitive Erklärungen: Mehrere Bemerkungen zur intuitiven Erklärung neben technischen Details

Mängel

Theoretische Einschränkungen:

  1. Starke Konvexitätsannahme: Begrenzt den Anwendungsbereich, viele praktische Nutzenfunktionen (wie PPD) sind nicht konvex
  2. Asymptotische Ergebnisse: Theorem 1 gibt Grenzen abhängig von beliebig festgelegtem k' an, keine explizite endliche Konvergenzrate
  3. Konstanten-Abhängigkeit: Konstanten in O(μ,δ)O(\mu, \delta) könnten groß sein, theoretische Grenzen möglicherweise zu konservativ
  4. Fehlende deterministische Modellanalyse: Experimente zeigen bessere Leistung des rauschfreien Modells, aber theoretische Analyse fehlt

Experimentelle Mängel:

  1. Begrenzte Vergleichsmethoden:
    • Kein Vergleich mit anderen Präferenzlernmethoden (wie GP-basierte Methoden [14]15)
    • Kein Vergleich mit traditionellen adaptiven Steuerungsmethoden
    • Nur Vergleich mit algebraischem System und rauschfreiem Modell
  2. Parameteroptimierung:
    • Keine systematische Untersuchung der Wahl von η und δ
    • Keine Richtlinien zur Parameterauswahl
    • Parameterauswahl in Experimenten scheint manuell optimiert zu sein
  3. Skalierungsbegrenzungen:
    • Nur Tests mit niedrigdimensionalen Systemen (2D und 13D)
    • Skalierbarkeit in hochdimensionalen Fällen nicht validiert
  4. Fehlende echte Benutzertests:
    • Alle Experimente basieren auf simulierten Benutzermodellen
    • Keine Experimente mit echten menschlichen Versuchspersonen
    • Praktische Gültigkeit des Bradley-Terry-Modells nicht validiert

Methodische Einschränkungen:

  1. Explorationseffizienz: Gleichmäßige Kugelflächenabtastung könnte in hochdimensionalen Räumen ineffizient sein
  2. Kaltstartproblem: Algorithmus benötigt anfängliches u₀, Auswahl nicht diskutiert
  3. Robustheit: Keine Analyse der Robustheit gegenüber Modellunsicherheit und Messlärm
  4. Rechenkomplexität: Rechenkomplexität pro Schritt nicht diskutiert

Praktische Überlegungen:

  1. Benutzerbelastung: Rückmeldung bei jedem Schritt erforderlich, könnte zu Benutzerermüdung führen
  2. Rückmeldungsqualität: Setzt voraus, dass Benutzer Präferenzen genau angeben können, aber in der Praxis möglicherweise inkonsistent
  3. Sicherheitsbeschränkungen: Berücksichtigt keine Zustands- und Eingabebeschränkungen, wichtig in echten Systemen
  4. Multi-Objective-Optimierung: Berücksichtigt nur einzelne Nutzenfunktion

Einfluss

Beitrag zum Forschungsgebiet:

  1. Bahnbrechende Arbeit: Eröffnet neue Forschungsrichtung der Echtzeit-Präferenzoptimierung
  2. Theoretische Grundlagen: Bietet theoretischen Rahmen und Analysewerkzeuge für nachfolgende Forschung
  3. Interdisziplinäre Brücke: Verbindet Steuerungstheorie, Optimierung und Mensch-Maschine-Interaktion
  4. Anwendungspotenzial: Bietet neue Perspektiven für menschengerechte Systemgestaltung

Erwarteter Einfluss:

  • Kurzfristig: Könnte mehr Forschung zu Präferenzrückmeldungssteuerung auslösen
  • Mittelfristig: Könnte in Gebäudesteuerung, personalisierter Empfehlung usw. angewendet werden
  • Langfristig: Könnte Designparadigma für Mensch-Maschine-Interaktionssysteme beeinflussen

Einschränkungen:

  • Starke Annahmen könnten praktische Anwendung begrenzen
  • Mangel an echten Benutzertests könnte Glaubwürdigkeit beeinflussen
  • Erfordert mehr technische Arbeit für praktische Bereitstellung

Anwendbare Szenarien

Ideale Anwendungsszenarien:

  1. Gebäudesteuerung:
    • Personalisierte Temperaturregelung
    • Beleuchtungssteuerung
    • Luftqualitätsverwaltung
    • Vorteil: Systemdynamik relativ langsam, Benutzer können kontinuierliche Rückmeldung geben
  2. Personalisierte Empfehlung:
    • Produktempfehlung
    • Inhaltsempfehlung
    • Vorteil: Benutzer gewöhnt an Vergleichsrückmeldung
  3. Gesundheitswesen:
    • Personalisierte Behandlungsplanoptimierung
    • Anpassung der Rehabilitationstrainingsintensität
    • Vorteil: Betonung individueller Unterschiede
  4. Mensch-Maschine-Zusammenarbeit:
    • Robotergestützte Aufgabenunterstützung
    • Personalisiertes autonomes Fahren
    • Vorteil: Erfordert Echtzeitanpassung an Benutzerpräferenzen

Nicht anwendbare Szenarien:

  1. Schnelle dynamische Systeme: Hochfrequenzhandel, Flugsteuerung usw. (Benutzer kann nicht zeitnah reagieren)
  2. Hochdimensionale komplexe Systeme: Niedrige Explorationseffizienz
  3. Strikte Sicherheitsbeschränkungen: Keine Behandlung von Beschränkungen, möglicherweise unsicher
  4. Multi-Objective-Konflikte: Berücksichtigt nur einzelne Nutzenfunktion
  5. Nicht-konvexe Optimierung: Theoretische Garantien ungültig

Verbesserungsvorschläge:

  • Kombination mit aktivem Lernen zur Reduzierung der Rückmeldungshäufigkeit
  • Einführung von Sicherheitsfiltern zur Behandlung von Beschränkungen
  • Erweiterung auf Multi-Objective-Szenarien
  • Entwicklung adaptiver Parameteranpassungsstrategien

Referenzen

Schlüsselreferenzen:

  1. 8 Z. He et al., 2023 - Model-free nonlinear feedback optimization
    • Haupttheoretische Grundlage dieses Papiers
    • Bietet Idee der Einzelpunkt-Residuenschätzung
  2. 18 Y. Yue & T. Joachims, 2009 - Interactively optimizing information retrieval
    • Klassische Arbeit zur Gradientenschätzung mit Präferenzrückmeldung
    • Dieses Papier verbessert das Problem der zwei erforderlichen Bewertungen
  3. 16 W. Xu et al., 2024 - Principled preferential Bayesian optimization
    • Neueste Fortschritte in Präferenz-Bayes-Optimierung
    • Bietet Vergleichsmaßstab für GP-basierte Methoden
  4. 27 Y. Lian et al., 2023 - Adaptive robust data-driven building control
    • Praktisches Systemmodell für Gebäudesteuerung
    • Bietet realistisches Szenario für Experimente
  5. 9 D. Kahneman & A. Tversky, 2013 - Prospect theory
    • Irrationales menschliches Entscheidungsverhalten
    • Weist auf Einschränkungen der Benutzermodellierungsannahmen hin

Gesamtbewertung: Dies ist ein theoretisch streng verfasstes und hochinnovatives Papier, das erfolgreich Präferenzlernen mit geschlossener Regelkreissteuerung kombiniert und einen neuen theoretischen Rahmen für die Gestaltung von Mensch-Maschine-Interaktionssystemen bietet. Die Hauptbeiträge liegen in der erstmaligen Bereitstellung von Stabilitäts- und Optimalitätsgarantien für Echtzeit-Präferenzoptimierung und der praktischen Wertigkeit der Methode (Einzelpunkt-Bewertung). Die starke Konvexitätsannahme, das Fehlen echter Benutzertests und begrenzte Vergleichsexperimente sind jedoch die Hauptmängel. Zukünftige Arbeiten sollten sich auf die Lockerung von Annahmen, echte Benutzerstudien und Erweiterung auf komplexere praktische Anwendungsszenarien konzentrieren. Für Forscher, die sich mit Mensch-Maschine-Interaktionssteuerung, Präferenzlernen oder Online-Optimierung befassen, ist dieses Papier lesenswert.