An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting.
We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025).
We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic
نموذج محسّن خالٍ من النموذج لمعامل تقدير القرار مع تطبيقات في MDPs العدائية
تدرس هذه الورقة مشكلة صنع القرار مع الملاحظات المنظمة (DMSO). حاولت الأعمال السابقة توصيف تعقيد DMSO من خلال معامل تقدير القرار (DEC)، لكنها تركت فجوة بين الحدود العليا والدنيا للندم مرتبطة بحجم فئة النموذج. قدّم Foster وآخرون (2023b) معامل تقدير القرار المتفائل لتضييق هذه الفجوة، محققين حدوداً تتعلق فقط بحجم فئة دالة القيمة. ومع ذلك، لا يزال غير واضح ما إذا كان الاستكشاف القائم على التفاؤل يمكن توسيعه للبيئات العدائية.
تقترح هذه الورقة Dig-DEC، وهي طريقة DEC خالية من النموذج تزيل التفاؤل وتدفع الاستكشاف بحتاً من خلال الكسب المعلوماتي. يكون Dig-DEC دائماً أقل من أو يساوي معامل تقدير القرار المتفائل، وفي حالات خاصة يمكن أن يكون أصغر بكثير. الأهم من ذلك، أن إزالة التفاؤل تمكّنه من التعامل مع البيئات العدائية دون الحاجة إلى مقدّر مكافآت صريح. من خلال تطبيق Dig-DEC على MDPs الهجينة ذات الانتقالات العشوائية والمكافآت العدائية، تم الحصول على أول حد ندم خالٍ من النموذج لـ MDPs الهجينة مع ردود فعل bandit تحت هياكل انتقالية عامة متعددة.
المشكلة المراد حلها: يوجد فجوة في إطار معامل تقدير القرار الحالي بين حجم فئة النموذج وحجم فئة دالة القيمة، والطرق القائمة على التفاؤل لا تتعامل بفعالية مع البيئات العدائية.
أهمية المشكلة:
صنع القرار عبر الإنترنت هو مشكلة أساسية في التعلم المعزز
غالباً ما تواجه التطبيقات العملية بيئات هجينة جزئياً عشوائية وجزئياً عدائية
توجد فجوة بين الضمانات النظرية والأداء العملي في الطرق الموجودة
قيود الطرق الموجودة:
نموذج Foster وآخرين القائم على DEC/E2D يتطلب تحمل تكلفة تقدير النموذج log|M|
بينما يحسّن معامل تقدير القرار المتفائل التعقيد، إلا أنه يعتمد على مبدأ التفاؤل ولا يمكنه التعامل مع الإعدادات العدائية
طريقة Liu وآخرين (2025) للـ MDP الهجينة تتعامل فقط مع ردود الفعل الكاملة، وحالة bandit لا تزال مشكلة مفتوحة
الدافع البحثي: تطوير إطار عمل موحد يمكنه تحسين النتائج الموجودة في البيئات العشوائية والتعامل للمرة الأولى مع حالة bandit في MDP الهجينة.
Foster وآخرين (2021b, 2023a, 2023b): الأساس النظري لـ DEC
Liu وآخرين (2025): بحث MDP الهجينة
Jin وآخرين (2021): بعد Bellman-eluder
Xie وآخرين (2023): نظرية القابلية للتغطية
Xu و Zeevi (2023): إطار AIR
حققت هذه الورقة تقدماً مهماً في نظرية معامل تقدير القرار، وحلت المشاكل الرئيسية في هذا المجال من خلال الابتكار التقني الذكي، وقدمت مساهمة قيمة لتطور نظرية التعلم المعزز. بينما لا تزال هناك مجالات للتحسين في التحقق من التطبيقات العملية، فإن قيمتها النظرية وابتكارها يجعلانها عملاً مهماً في هذا المجال.