Optimization with preference feedback is an active research area with many applications in engineering systems where humans play a central role, such as building control and autonomous vehicles. While most existing studies focus on optimizing a static user utility, few have investigated its closed-loop behavior that accounts for system transients. In this work, we propose an online feedback optimization controller that can optimize user utility using pairwise comparison feedback with both optimality and closed-loop stability guarantees. By adding a random exploration signal, the controller estimates the gradient based on the binary utility comparison feedback between two consecutive time steps. We analyze its closed-loop behavior when interacting with a nonlinear plant and show that, under mild assumptions, the controller converges to the optimal point without inducing instability. Theoretical findings are further validated through numerical experiments.
تدرس هذه الورقة مشاكل التحسين مع ردود الفعل المتعلقة بالتفضيلات، والتي لها تطبيقات واسعة في الأنظمة الهندسية التي يكون الإنسان فيها محوريًا، مثل التحكم في المباني والقيادة الذاتية. يركز البحث الحالي بشكل أساسي على تحسين الفائدة الثابتة للمستخدم، مع إهمال السلوك الحلقي المغلق للنظام أثناء الانتقال. تقترح هذه الورقة وحدة تحكم تحسين ردود فعل عبر الإنترنت يمكنها الاستفادة من ردود الفعل المقارنة الثنائية لتحسين فائدة المستخدم، مع توفير ضمانات الأمثلية والاستقرار الحلقي المغلق. من خلال إضافة إشارة استكشاف عشوائية، تقدر وحدة التحكم التدرج بناءً على ردود الفعل المقارنة الثنائية بين خطوتي زمن متتاليتين. يحلل المؤلفون السلوك الحلقي المغلق عند تفاعل وحدة التحكم مع الأنظمة غير الخطية، ويثبتون أنه في ظل افتراضات معتدلة، تتقارب وحدة التحكم إلى النقطة المثلى دون التسبب في عدم استقرار. تم التحقق من النتائج النظرية من خلال التجارب الرقمية.
مشكلة التحكم بالتفاعل البشري: كيفية تصميم وحدة تحكم تدرك الإنسان يمكنها تحسين فائدة المستخدم المحتملة في الوقت الفعلي، مما يسمح للنظام بالتكيف وفقًا لتفضيلات المستخدم
التحسين الفوري لردود الفعل المتعلقة بالتفضيلات: كيفية الاستفادة من المقارنات الثنائية للتفضيلات (بدلاً من قيم الفائدة المطلقة) للتحسين عبر الإنترنت
ضمانات الاستقرار الحلقي المغلق: كيفية ضمان عدم تسبب عملية التحسين في عدم استقرار النظام مع الأخذ في الاعتبار السلوك الانتقالي للنظام
الاختلافات الفردية: تتبع وحدات التحكم التقليدية نقاط مرجعية محددة مسبقًا بناءً على نماذج سكانية واسعة النطاق (مثل درجة الحرارة الداخلية في التحكم في المباني)، مما يؤدي إلى انحرافات وأداء دون الأمثل لأنها لا تأخذ في الاعتبار الاختلافات الفردية
الفائدة المتغيرة بمرور الوقت: بدون ردود فعل بشرية في الوقت الفعلي، لا يمكن لوحدة التحكم الاستجابة للفائدة المتغيرة بمرور الوقت، وتفتقر أيضًا إلى المتانة تجاه الاضطرابات الخارجية
الخصائص المعرفية البشرية: يتفوق البشر في إجراء المقارنات النسبية بدلاً من التقييمات المطلقة، لذلك تأتي ردود الفعل المتعلقة بالتفضيلات عادةً في شكل مقارنات ثنائية
تحسين ردود الفعل عبر الإنترنت (OFO): تتطلب طرق OFO الموجودة (مثل التحكم الشبكي وتنسيق الروبوتات) معلومات دقيقة عن قيم الفائدة أو التدرجات، مما يصعب تطبيقها مباشرة على سيناريوهات ردود الفعل المتعلقة بالتفضيلات البشرية
تحسين التفضيلات غير المتصل:
تأخذ معظم الدراسات في الاعتبار المشاكل الثابتة، متجاهلة السلوك الانتقالي للنظام
تتطلب طرق تقدير التدرج الموجودة (مثل 18، 19) تقييمين للدالة في كل خطوة زمنية، وهو غير مناسب للتنفيذ عبر الإنترنت
تفتقر إلى تحليل الاستقرار الحلقي المغلق
صعوبة تحديد الاستقرار: الطبيعة الثنائية لردود الفعل المتعلقة بالتفضيلات تجعل الديناميكيات الكلية غير خطية للغاية، مما يصعب تحليل الاستقرار
معرفة المستخدم محدودة: عادةً ما يكون لدى المستخدمين معرفة محدودة بديناميكيات النظام، وقد يؤدي الامتثال المباشر لتفضيلاتهم إلى عدم استقرار النظام
مستوحاة من طريقة OFO الخالية من النموذج المقترحة مؤخرًا وتقدير البقايا أحادية النقطة 8، يهدف المؤلفون إلى تطوير أول عمل يعالج مشكلة التحسين الفوري للتفضيلات ويوفر ضمانات حلقة مغلقة.
وحدة تحكم OFO جديدة: تقترح أول وحدة تحكم تحسين ردود فعل عبر الإنترنت تستفيد من ردود الفعل المتعلقة بالتفضيلات الثنائية لتحسين فائدة المستخدم مع ضمان الاستقرار الحلقي المغلق
مخطط التقييم أحادي النقطة: يستخدم مخطط استكشاف عشوائي يتطلب فقط تقييم فائدة واحد لكل خطوة زمنية (بدلاً من اثنين)، مما يجعله أكثر ملاءمة للتنفيذ عبر الإنترنت
نموذج النظام: النظر في نظام مستقر أسيًا
xk+1=f(xk,uk)
حيث x∈Rnx هي حالة النظام، u∈Rnu هي مدخلات التحكم، وتوجد خريطة مدخلات-حالة ثابتة فريدة h:Rnu→Rnx.
الهدف من التحسين: تحسين فائدة المستخدم في الحالة المستقرة
minx,uΦ(x,u),s.t. x=h(u)
ما يعادل المشكلة غير المقيدة:
minuΦ~(u),حيث Φ~(u)=Φ(h(u),u)
نموذج ردود الفعل المتعلقة بالتفضيلات (نموذج Bradley-Terry):
P(1u1≻u2=1)=σ(Φ~(u2)−Φ~(u1))
حيث σ(t)=1+e−t1 هي دالة sigmoid.
الافتراضات الرئيسية:
خريطة المدخلات-الحالة h مستمرة بشكل Lipschitz
دالة الفائدة Φ(x,u) مستمرة بشكل Lipschitz فيما يتعلق بـ x
Φ~(u) قابلة للتفاضل، مستمرة بشكل Lipschitz، سلسة وقوية محدبة
الإدخال: حجم الخطوة η، معامل التنعيم δ، المدخل الأولي u₀، عدد الخطوات الزمنية T
for k = 1, ..., T-1:
1. إضافة الاستكشاف العشوائي: xₖ₊₁ = f(xₖ, uₖ + δvₖ)
حيث يتم أخذ عينة vₖ بشكل موحد من كرة الوحدة (nᵤ-1) الأبعاد
2. جمع ردود الفعل المتعلقة بالتفضيلات:
اطلب من المستخدم مقارنة Φ(xₖ₊₁, uₖ + δvₖ) و Φ(xₖ, uₖ₋₁ + δvₖ₋₁)
أخذ عينة 𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}
3. تحديث مدخل التحكم:
uₖ₊₁ = uₖ + (η/2δ)𝟙_{(xₖ₊₁,uₖ+δvₖ)≻(xₖ,uₖ₋₁+δvₖ₋₁)}vₖ
end for
الإخراج: uₜ
النظام الحلقي المغلق:
xk+1=f(xk,uk+δvk)uk+1=uk+2δη1(xk+1,uk+δvk)≻(xk,uk−1+δvk−1)vk
توسيع الإطار النظري لنماذج مستخدم بديلة (مثل النموذج بدون ضوضاء)
التطبيقات العملية: تصميم المنتجات والاختيار الكيميائي وغيرها
تخفيف الافتراضات: دوال فائدة غير محدبة، أنظمة غير مستقرة
سيناريوهات متعددة الوكلاء: تجميع التفضيلات من عدة مستخدمين
الاتجاهات البحثية المحتملة:
5. ضبط المعاملات التكيفي: ضبط η و δ عبر الإنترنت
6. نمذجة إرهاق المستخدم: تقليل تكرار ردود الفعل
7. ردود الفعل المتأخرة: التعامل مع تأخير استجابة المستخدم
8. التحسين عالي الأبعاد: استراتيجيات استكشاف أكثر كفاءة
8 Z. He et al., 2023 - تحسين ردود الفعل غير الخطي الخالي من النموذج
الأساس النظري الرئيسي لهذه الورقة
توفير فكرة تقدير البقايا أحادي النقطة
18 Y. Yue & T. Joachims, 2009 - تحسين استرجاع المعلومات بشكل تفاعلي
عمل كلاسيكي في تقدير التدرج لردود الفعل المتعلقة بالتفضيلات
تحسنت هذه الورقة على مشكلة تطلب تقييمين
16 W. Xu et al., 2024 - تحسين بايزي تفضيلي مبدئي
أحدث التطورات في تحسين بايزي للتفضيلات
توفير معيار مقارنة لطرق GP
27 Y. Lian et al., 2023 - التحكم التكيفي القوي المستند إلى البيانات في المباني
نموذج نظام فعلي للتحكم في المباني
توفير سيناريو واقعي للتجارب
9 D. Kahneman & A. Tversky, 2013 - نظرية الاحتمالات
السلوك غير العقلاني للإنسان في اتخاذ القرارات
يشير إلى قيود افتراضات نموذج المستخدم
التقييم الشامل: هذه ورقة ممتازة بصرامة نظرية عالية وابتكار قوي، تجمع بنجاح بين تعلم التفضيلات والتحكم الحلقي المغلق، وتوفر إطارًا نظريًا جديدًا لتصميم الأنظمة التي تتفاعل مع الإنسان. تكمن المساهمات الرئيسية في توفير أول ضمانات استقرار وأمثلية للتحسين الفوري للتفضيلات، والطريقة لها قيمة عملية (تقييم أحادي النقطة). ومع ذلك، فإن افتراض التحدب القوي وغياب تجارب المستخدم الحقيقي والتجارب المقارنة المحدودة هي أوجه القصور الرئيسية. يجب أن تركز الأعمال المستقبلية على تخفيف الافتراضات وإجراء أبحاث مع مستخدمين حقيقيين وتوسيع التطبيقات العملية الأكثر تعقيدًا. بالنسبة للباحثين الذين يعملون على التحكم بالتفاعل البشري أو تعلم التفضيلات أو التحسين عبر الإنترنت، تستحق هذه الورقة دراسة متعمقة.