Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.
यह पेपर वरीयता प्रतिक्रिया के साथ अनुकूलन समस्या का अध्ययन करता है, जिसका व्यापक अनुप्रयोग भवन नियंत्रण और स्वायत्त वाहन जैसी मानव-केंद्रित इंजीनियरिंग प्रणालियों में है। मौजूदा अनुसंधान मुख्य रूप से स्थिर उपयोगकर्ता उपयोगिता अनुकूलन पर केंद्रित है, और प्रणाली के क्षणिक बंद-लूप व्यवहार पर कम ध्यान देता है। यह पेपर एक ऑनलाइन प्रतिक्रिया अनुकूलन नियंत्रक प्रस्तावित करता है जो जोड़ी तुलना प्रतिक्रिया का उपयोग करके उपयोगकर्ता उपयोगिता को अनुकूलित कर सकता है, साथ ही इष्टतमता और बंद-लूप स्थिरता गारंटी प्रदान करता है। यादृच्छिक अन्वेषण संकेत जोड़कर, नियंत्रक लगातार दो समय चरणों के बीच बाइनरी उपयोगिता तुलना प्रतिक्रिया के आधार पर ढाल का अनुमान लगाता है। लेखकों ने नियंत्रक और गैर-रैखिक प्रणालियों के बीच परस्पर क्रिया के समय बंद-लूप व्यवहार का विश्लेषण किया है, और साबित किया है कि हल्के अनुमानों के तहत, नियंत्रक इष्टतम बिंदु पर अभिसरित होता है और कोई अस्थिरता नहीं लाता है। सैद्धांतिक निष्कर्षों को संख्यात्मक प्रयोगों द्वारा सत्यापित किया गया है।
मानव-मशीन इंटरैक्शन नियंत्रण समस्या: ऐसे मानव-जागरूक नियंत्रकों को कैसे डिज़ाइन किया जाए जो उपयोगकर्ता की संभावित उपयोगिता को वास्तविक समय में अनुकूलित कर सकें, जिससे प्रणाली उपयोगकर्ता की वरीयताओं के अनुसार समायोजित हो सके
वरीयता प्रतिक्रिया का वास्तविक समय अनुकूलन: बाइनरी वरीयता तुलना (निरपेक्ष उपयोगिता मानों के बजाय) का उपयोग करके ऑनलाइन अनुकूलन कैसे किया जाए
बंद-लूप स्थिरता गारंटी: प्रणाली के क्षणिक व्यवहार को ध्यान में रखते हुए, यह कैसे सुनिश्चित किया जाए कि अनुकूलन प्रक्रिया प्रणाली की अस्थिरता का कारण नहीं बनेगी
व्यक्तिगत अंतर: पारंपरिक नियंत्रक बड़े पैमाने पर जनसंख्या मॉडल के आधार पर पूर्वनिर्धारित संदर्भ बिंदुओं को ट्रैक करते हैं (जैसे भवन नियंत्रण में इनडोर तापमान), जो विचलन का परिचय देता है और व्यक्तिगत अंतरों को ध्यान में न रखने के कारण उप-इष्टतम प्रदर्शन का कारण बनता है
समय-परिवर्तनशील उपयोगिता: वास्तविक समय मानव प्रतिक्रिया के बिना, नियंत्रक समय-परिवर्तनशील उपयोगिता के लिए प्रतिक्रिया नहीं कर सकता है, और बाहरी व्यवधानों के लिए भी मजबूत नहीं है
मानव संज्ञानात्मक विशेषताएं: मनुष्य निरपेक्ष मूल्यांकन की तुलना में सापेक्ष तुलना में अधिक कुशल हैं, इसलिए वरीयता प्रतिक्रिया आमतौर पर जोड़ी तुलना के रूप में प्रकट होती है
ऑनलाइन प्रतिक्रिया अनुकूलन (OFO): मौजूदा OFO तरीके (जैसे ग्रिड नियंत्रण, रोबोट समन्वय) को सटीक उपयोगिता मानों या ढाल जानकारी की आवश्यकता होती है, जिससे मानव वरीयता प्रतिक्रिया परिदृश्यों में सीधे आवेदन करना मुश्किल है
ऑफलाइन वरीयता अनुकूलन:
अधिकांश अनुसंधान स्थिर समस्याओं पर विचार करते हैं, प्रणाली के क्षणिक व्यवहार को नजरअंदाज करते हैं
मौजूदा ढाल अनुमान विधियां (जैसे 18,19) प्रत्येक समय चरण में दो फ़ंक्शन मूल्यांकन की आवश्यकता होती हैं, ऑनलाइन कार्यान्वयन के लिए अनुपयुक्त हैं
बंद-लूप स्थिरता विश्लेषण की कमी है
स्थिरता को मापना मुश्किल है: वरीयता प्रतिक्रिया की बाइनरी प्रकृति समग्र गतिशीलता को अत्यधिक गैर-रैखिक बनाती है, जिससे स्थिरता का विश्लेषण करना मुश्किल है
सीमित उपयोगकर्ता ज्ञान: उपयोगकर्ता आमतौर पर प्रणाली गतिशीलता के बारे में सीमित जानकारी रखते हैं, उनकी वरीयताओं का सीधे पालन करने से प्रणाली अस्थिर हो सकती है
हाल ही में प्रस्तावित मॉडल-मुक्त OFO और एकल-बिंदु अवशेष अनुमान 8 से प्रेरित होकर, लेखकों का उद्देश्य वास्तविक समय वरीयता अनुकूलन समस्या को हल करने और बंद-लूप गारंटी प्रदान करने वाला पहला काम विकसित करना है।
नया OFO नियंत्रक: बाइनरी वरीयता प्रतिक्रिया का उपयोग करके उपयोगकर्ता उपयोगिता को अनुकूलित करने और बंद-लूप स्थिरता सुनिश्चित करने वाला पहला ऑनलाइन प्रतिक्रिया अनुकूलन नियंत्रक प्रस्तावित करता है
एकल-बिंदु मूल्यांकन योजना: यादृच्छिक अन्वेषण योजना का उपयोग करता है, प्रत्येक समय चरण में केवल एक बार उपयोगिता मूल्यांकन की आवश्यकता होती है (दो के बजाय), ऑनलाइन कार्यान्वयन के लिए अधिक उपयुक्त है
सैद्धांतिक गारंटियां:
बंद-लूप प्रणाली की स्थिरता साबित की गई है (Lemma 1: अपेक्षित Lyapunov फ़ंक्शन सीमित है)
इष्टतमता गारंटी स्थापित की गई है (Theorem 1: अपेक्षित दूरी O(μ, δ) में अभिसरित होती है)
प्रणाली के क्षणिक व्यवहार के प्रदर्शन पर प्रभाव को मापा गया है
पहली बंद-लूप गारंटी: लेखकों के ज्ञान के अनुसार, यह वास्तविक समय वरीयता अनुकूलन समस्या के लिए बंद-लूप गारंटी प्रदान करने वाला पहला काम है
संख्यात्मक सत्यापन: तापीय आराम अनुकूलन समस्या के माध्यम से सैद्धांतिक परिणामों की प्रभावशीलता को सत्यापित किया गया है
प्रणाली मॉडल: घातीय रूप से स्थिर प्रणाली पर विचार करें
xk+1=f(xk,uk)
जहां x∈Rnx प्रणाली स्थिति है, u∈Rnu नियंत्रण इनपुट है, एक अद्वितीय स्थिर-अवस्था इनपुट-स्थिति मानचित्र h:Rnu→Rnx मौजूद है।
अनुकूलन उद्देश्य: स्थिर-अवस्था में उपयोगकर्ता उपयोगिता को अनुकूलित करें
minx,uΦ(x,u),s.t. x=h(u)
समतुल्य बिना-बाधा समस्या:
minuΦ~(u),जहांΦ~(u)=Φ(h(u),u)
वरीयता प्रतिक्रिया मॉडल (Bradley-Terry मॉडल):
P(1u1≻u2=1)=σ(Φ~(u2)−Φ~(u1))
जहां σ(t)=1+e−t1 sigmoid फ़ंक्शन है।
मुख्य अनुमान:
इनपुट-स्थिति मानचित्र h Lipschitz सतत है
उपयोगिता फ़ंक्शन Φ(x,u)x के संबंध में Lipschitz सतत है
Φ~(u) अवकलनीय, Lipschitz सतत, चिकना और दृढ़ता से उत्तल है
इनपुट: चरण आकार η, चिकनाई पैरामीटर δ, प्रारंभिक इनपुट u₀, समय चरण T
for k = 1, ..., T-1:
1. यादृच्छिक अन्वेषण जोड़ें: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
जहां vₖ (nᵤ-1)-आयामी इकाई गोले से समान रूप से नमूना किया गया है
2. वरीयता प्रतिक्रिया एकत्र करें:
उपयोगकर्ता से Φ(xₖ₊₁, uₖ + δvₖ) और Φ(xₖ, uₖ₋₁ + δvₖ₋₁) की तुलना करने के लिए पूछें
नमूना 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
3. नियंत्रण इनपुट अपडेट करें:
uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
end for
आउटपुट: uₜ
सैद्धांतिक ढांचे का विस्तार वैकल्पिक उपयोगकर्ता मॉडल (जैसे शोर-मुक्त मॉडल) तक
व्यावहारिक अनुप्रयोग: उत्पाद डिजाइन, रासायनिक चयन आदि
अनुमानों को शिथिल करना: गैर-उत्तल उपयोगिता फ़ंक्शन, अस्थिर प्रणाली
बहु-एजेंट परिदृश्य: कई उपयोगकर्ताओं की वरीयताओं का एकीकरण
संभावित अनुसंधान दिशाएं:
5. स्व-अनुकूली पैरामीटर समायोजन: η और δ को ऑनलाइन समायोजित करें
6. उपयोगकर्ता थकान मॉडलिंग: प्रतिक्रिया आवृत्ति कम करें
7. विलंबित प्रतिक्रिया: उपयोगकर्ता प्रतिक्रिया विलंब को संभालें
8. उच्च-आयामी अनुकूलन: अधिक कुशल अन्वेषण रणनीतियां
8 Z. He et al., 2023 - मॉडल-मुक्त गैर-रैखिक प्रतिक्रिया अनुकूलन
इस पेपर का मुख्य सैद्धांतिक आधार
एकल-बिंदु अवशेष अनुमान का विचार प्रदान करता है
18 Y. Yue & T. Joachims, 2009 - सूचना पुनर्प्राप्ति को इंटरैक्टिवली अनुकूलित करना
वरीयता प्रतिक्रिया ढाल अनुमान का शास्त्रीय कार्य
इस पेपर ने दो मूल्यांकन की आवश्यकता की समस्या में सुधार किया है
16 W. Xu et al., 2024 - सिद्धांत-आधारित वरीयता बेयेसियन अनुकूलन
वरीयता बेयेसियन अनुकूलन की नवीनतम प्रगति
GP-आधारित विधि के लिए तुलना आधार प्रदान करता है
27 Y. Lian et al., 2023 - अनुकूली मजबूत डेटा-संचालित भवन नियंत्रण
भवन नियंत्रण का वास्तविक प्रणाली मॉडल
प्रयोग के लिए वास्तविक परिदृश्य प्रदान करता है
9 D. Kahneman & A. Tversky, 2013 - संभावना सिद्धांत
मानव निर्णय का तर्कहीन व्यवहार
उपयोगकर्ता मॉडल अनुमानों की सीमाओं को इंगित करता है
समग्र मूल्यांकन: यह एक सैद्धांतिक रूप से कठोर, उच्च नवाचार वाला उत्कृष्ट पेपर है जो वरीयता सीखने को बंद-लूप नियंत्रण के साथ सफलतापूर्वक जोड़ता है, मानव-मशीन इंटरैक्शन प्रणाली डिजाइन के लिए एक नया सैद्धांतिक ढांचा प्रदान करता है। मुख्य योगदान वास्तविक समय वरीयता अनुकूलन के लिए पहली बार स्थिरता और इष्टतमता गारंटी प्रदान करना है, और विधि व्यावहारिक मूल्य रखती है (एकल-बिंदु मूल्यांकन)। हालांकि, दृढ़ उत्तलता अनुमान, वास्तविक उपयोगकर्ता प्रयोगों की कमी और सीमित तुलना प्रयोग इसकी मुख्य कमियां हैं। भविष्य के कार्य को अनुमानों को शिथिल करने, वास्तविक उपयोगकर्ता अनुसंधान करने और अधिक जटिल व्यावहारिक अनुप्रयोग परिदृश्यों तक विस्तारित करने पर ध्यान केंद्रित करना चाहिए। मानव-मशीन इंटरैक्शन नियंत्रण, वरीयता सीखने या ऑनलाइन अनुकूलन में काम करने वाले शोधकर्ताओं के लिए, यह पेपर गहन अध्ययन के लायक है।