2025-11-24T09:40:18.218209

Heterogeneous RBCs via deep multi-agent reinforcement learning

Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic

النماذج الاقتصادية غير المتجانسة عبر التعلم المعزز متعدد الوكلاء العميق

المعلومات الأساسية

  • معرّف الورقة: 2510.12272
  • العنوان: النماذج الاقتصادية غير المتجانسة عبر التعلم المعزز متعدد الوكلاء العميق
  • المؤلفون: فيديريكو غابرييل (جامعة سابينزا بروما)، ألدو غليلمو (بنك إيطاليا)، ماركو تابوغا (بنك إيطاليا)
  • التصنيف: cs.MA cs.LG econ.TH
  • تاريخ النشر: 14 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.12272

الملخص

يمكن تقسيم نماذج الاقتصاد الكلي الحالية ذات عدم التجانس بين الوكلاء إلى فئتين رئيسيتين. نماذج التوازن العام غير المتجانسة (GE)، مثل النماذج المستندة إلى طرق HANK أو Krusell-Smith (KS)، تعتمد على افتراضات التوازن العام و"التوقعات العقلانية"، وهي افتراضات غير واقعية وتجعل النموذج معقداً حسابياً، مما يحد من درجة عدم التجانس القابل للنمذجة. في المقابل، نماذج القائمة على الوكلاء (ABMs) يمكنها أن تتضمن بمرونة عدداً كبيراً من الوكلاء غير المتجانسين بشكل تعسفي، لكنها عادة ما تتطلب تحديداً صريحاً للقواعد السلوكية، مما يؤدي إلى عملية طويلة من التطوير بالمحاولة والخطأ. لمعالجة هذه القيود، تقدم هذه الورقة إطار عمل MARL-BC، الذي يجمع بين التعلم المعزز متعدد الوكلاء العميق (MARL) ونماذج دورة الأعمال الحقيقية (RBC).

خلفية البحث والدافع

تعريف المشكلة

اعتمدت نمذجة الاقتصاد الكلي تقليدياً على استخدام نماذج التوازن العام مع وكيل تمثيلي، مثل نماذج RBC والنماذج الكينزية الجديدة. ومع ذلك، فإن أحد القيود المعروفة لنماذج الوكيل التمثيلي هو عدم القدرة على مراعاة عدم التجانس بين الوكلاء.

قيود الطرق الموجودة

  1. نماذج التوازن العام غير المتجانسة:
    • تتطلب افتراض "التوقعات العقلانية"، أي أن الوكلاء يجب أن يتتبعوا توزيع الثروة أو الدخل بالكامل كمتغيرات حالة
    • تكاليف حسابية عالية، مما يحد بشكل كبير من درجة عدم التجانس القابل للتحقيق
    • عادة ما تحقق فقط عدم تجانس "بعد المقابلة"، أي أن جميع الوكلاء متطابقون في البداية ويتباعدون فقط بسبب الصدمات العشوائية الفردية
  2. نماذج قائمة على الوكلاء (ABMs):
    • تتخلى تماماً عن الوكيل التمثيلي وافتراضات التوقعات العقلانية
    • تتطلب من المُنمذج أن يقرر مباشرة القواعد السلوكية للوكلاء
    • يصعب التعامل مع التعسفية في تحديد القواعد وتحديد القواعد الواقعية

دافع البحث

يوفر التعلم المعزز (RL)، وخاصة التعلم المعزز متعدد الوكلاء (MARL)، طريقة جديدة لنمذجة الوكلاء غير المتجانسين في الاقتصاد الكلي. يبدو أن نموذج التعلم بـ RL يوفر تركيباً طبيعياً بين الطرفين المتطرفين من GE و ABM: يمكن أن تكون الوكلاء محدودة العقلانية ومتنوعة، لكن سلوكهم ينشأ بشكل داخلي من عملية تحسين منهجية (تعلم تعظيم المكافآت).

المساهمات الأساسية

  1. تطوير إطار عمل MARL-BC: إطار عمل قائم على MARL يوسع نموذج RBC الكلاسيكي، مما يدعم عدة أسر بعدم تجانس غني ومرن
  2. إثبات جدوى التدريب: التدريب باستخدام خوارزميات RL متقدمة (PPO و SAC و DDPG) يكون قابلاً للتطبيق حسابياً
  3. إعادة إنتاج النتائج الكلاسيكية: عند استخدام وكيل واحد، يمكن استعادة نتائج RBC الكتابية
  4. إعادة إنتاج نماذج المجال المتوسط: عند استخدام عدد كبير من الوكلاء المتطابقين مسبقاً، يمكن استعادة نتائج نموذج Krusell-Smith للمجال المتوسط
  5. دعم عدم التجانس الغني: محاكاة فعالة لعدم التجانس الغني بين الوكلاء، وهي مهمة يصعب تحقيقها بالطرق التقليدية

شرح الطريقة

تعريف المهمة

يهدف إطار عمل MARL-BC إلى توسيع نموذج RBC الكلاسيكي من خلال التعلم المعزز متعدد الوكلاء لدعم وكلاء الأسر غير المتجانسة، مما يمكنها من:

  • استعادة نموذج RBC التقليدي في حالة الوكيل الواحد
  • استعادة نموذج Krusell-Smith للمجال المتوسط في حالة وكلاء متعددين متطابقين
  • دعم نمذجة الوكلاء بعدم تجانس تعسفي

معمارية النموذج

بيئة RBC غير المتجانسة

يتضمن النموذج n نوعاً من الأسر i = 1,...,n وشركة واحدة:

  1. إجمالي رأس المال والعمل الفعال:
    K_t = (1/n) * Σ(κ_i * k_i_t)
    L_t = (1/n) * Σ(λ_i * ℓ_i_t)
    

    حيث κ_i و λ_i هما إنتاجية رأس المال والعمل على التوالي
  2. دالة الإنتاج: استخدام دالة Cobb-Douglas
    Y_t = A_t * K_t^α * L_t^(1-α)
    
  3. تكاليف رأس المال والعمل: افتراض أسواق منافسة تماماً
    r_i_t = α * (Y_t/K_t) * κ_i
    w_i_t = (1-α) * (Y_t/L_t) * λ_i
    
  4. ثروة الأسرة:
    a_i_t = w_i_t * ℓ_i_t + r_i_t * k_i_t + (1-δ) * k_i_t
    

وكلاء الأسرة بـ RL

  1. فضاء الإجراء: الإجراء في كل خطوة زمنية هو tuple (c_i_t, ℓ_i_t)
    • c_i_t: نسبة الاستهلاك، النطاق (0.01, 0.99)
    • ℓ_i_t: عرض العمل، النطاق (0.01, 0.99)
  2. فضاء الملاحظة:
    x_i_t = (k_i_t, K_t, ℓ_i_(t-1), L_(t-1), A_t, κ_i, λ_i)
    
  3. دالة المكافأة:
    R_i_t = log(c_i_t) + b * log(1 - ℓ_i_t)
    

    حيث b > 0 يتحكم في المقايضة بين الاستهلاك والراحة
  4. تعلم السياسة: يتعلم كل وكيل RL سياسة حتمية
    π_i: x_i_t → (c_i_t, ℓ_i_t)
    

    من خلال تعظيم مجموع المكافآت المخصومة المتوقعة:
    R_i = E_π_i[Σ_t β^t * R_i_t]
    

نقاط الابتكار التقني

  1. مشاركة المعاملات: اعتماد نموذج مشاركة المعاملات القياسي في MARL، حيث تمثل شبكة عصبية واحدة جميع الوكلاء، مما يحقق سلوكاً مختلفاً من خلال الميزات الفردية في الملاحظات
  2. المتعلمون المستقلون: تدريب متعلمين مستقلين، يصل كل منهم إلى مجموعة معلومات جزئية فقط x_i_t، مما يحسن سياسات الاستجابة التقريبية
  3. عدم التجانس المرن: دعم إعدادات عدم التجانس التعسفية لإنتاجية رأس المال والعمل
  4. إطار عمل موحد: يمكن استعادة نتائج GE في الحالات الحدية، والعمل كـ ABM في الحالات العامة

إعداد التجارب

معاملات التجارب

المعاملRBCKSعام
n (عدد الأسر)12020
T (طول الحلقة)500500500
κ_i (إنتاجية رأس المال)11{0, 0.8, 1, 1.2, 0.98, 1.02}
λ_i (إنتاجية العمل)11{0.98, 1, 1.02}
α (مرونة الإنتاج)0.360.360.36
δ (استهلاك رأس المال){1, 0.025}0.0250.025
β (عامل الخصم)0.950.950.95

طرق المقارنة

استخدام أربع خوارزميات RL للمقارنة:

  • DDPG (Deep Deterministic Policy Gradient)
  • TD3 (Twin Delayed Deep Deterministic Policy Gradient)
  • SAC (Soft Actor Critic)
  • PPO (Proximal Policy Optimization)

تفاصيل التنفيذ

  • تطوير بيئة MARL باستخدام واجهة PettingZoo
  • استخدام خوارزميات RL من Stable-Baselines3
  • تدريب بيئة الوكيل الواحد لـ 10^6 خطوة، وتحديثات 10^5 خطوة لكل وكيل في بيئة متعددة الوكلاء
  • اعتماد مشاركة المعاملات لتحسين كفاءة العينة والقابلية للتوسع

نتائج التجارب

النتائج الرئيسية

1. حد الوكيل التمثيلي RBC

  • أداء الخوارزمية: SAC و TD3 و DDPG تتفوق بشكل كبير على PPO في سرعة التقارب، SAC هو المتعلم الأكثر استقراراً
  • إعادة إنتاج RBC الكتابية: في حالة الاستهلاك الكامل (δ=1)، يتعلم وكيل RL استعادة السياسة المثلى، مع التقارب إلى القيمة المثلى بعد حوالي 10^4 خطوة تدريب
  • إعادة إنتاج RBC النموذجية: في حالة الاستهلاك الجزئي (δ=0.025)، تتطابق خيارات الاستهلاك والعمل المتعلمة مع النتائج المحسوبة بواسطة برنامج Dynare
  • دوال الاستجابة النبضية: إعادة إنتاج ناجحة لدوال الاستجابة النبضية القياسية، متسقة إحصائياً مع نتائج الطرق التقليدية

2. حد Krusell-Smith للمجال المتوسط

  • قانون الحركة KS: ظهور علاقة خطية تماماً (R² > 0.99) بشكل داخلي، بدون افتراضات مسبقة
  • خصائص التوزيع: بعد التقارب، يزداد معامل جيني إلى 0.18، قريب من 0.25 المحسوب في KS الأصلي
  • الميل الهامشي للاستهلاك: المنحنى المتعلم مسطح عند الثروة العالية وينخفض بشدة عند الثروة المنخفضة، متسق مع النتائج الرئيسية في ورقة KS الأصلية

3. نمذجة عدم تجانس أكبر

  • KS مع عوائد رأس مال غير متجانسة: من خلال إدخال إنتاجيات رأس مال مختلفة، يمكن أن يصل معامل جيني إلى 0.33 (عدم تجانس خفيف) و 0.61 (عدم تجانس كبير)
  • RBC غير المتجانسة: في إعداد شبكة 3×3 مع 9 وكلاء، تؤدي الإنتاجيات المختلفة إلى مستويات ثروة متداخلة لكن مختلفة
  • القابلية للتوسع: توسع ناجح إلى مئات الوكلاء (أقصى 529)، مع الحفاظ على SAC على أداء عالية مستقرة في جميع الأحجام

تجارب الاستبعاد

من خلال مقارنة أداء خوارزميات RL المختلفة مع أعداد وكلاء مختلفة:

  • يحقق SAC مكافآت تقييم عالية متسقة عبر جميع أحجام السكان
  • يظهر PPO أداء أسوأ في المجموعات الصغيرة، لكن يتحسن مع زيادة n
  • يظهر TD3 و DDPG عدم استقرار في حالات n الكبيرة

نتائج التجارب

  1. التقارب: جميع خوارزميات RL المدروسة تتمكن من تعلم سياسات تحسن المكافآت المتراكمة بنجاح
  2. الاستقرار: SAC هو المتعلم الأكثر موثوقية، خاصة في إعدادات متعددة الوكلاء
  3. القابلية للتوسع: يمكن توسيع الإطار إلى مئات الأسر غير المتجانسة، حتى على الأجهزة العادية
  4. السلوك الناشئ: سلوكيات مثل سياسة "من اليد إلى الفم" للاستهلاك تنشأ بشكل داخلي، بدون ترميز استكشافي

الأعمال ذات الصلة

تطبيقات RL في الاقتصاد

  • المساهمات المبكرة: استخدام RL متعدد الوكلاء العميق لمحاكاة السلوك الاقتصادي الناشئ في اقتصادات لعبة مبسطة
  • المجال المالي: تطبيق ناجح لنمذجة استراتيجيات تداول متنوعة
  • الاقتصاد الكلي: بدء استكشاف تقنيات RL لتوسيع أطر GE الكلاسيكية

الفرق عن الأعمال الموجودة

  1. الجانب الاقتصادي: التركيز الرئيسي على RL أحادي الوكيل، يظهر أنه يمكنه استعادة دوال السياسة لنماذج GE الوكيل التمثيلي
  2. جانب علوم الحاسوب: تجريب RL متعدد الوكلاء، يظهر أن الطريقة يمكنها إنتاج سلوك اقتصادي ناشئ غني، لكن معظمها يتجاهل النماذج الأساسية للاقتصاد الكلي
  3. هذا العمل: ربط خطي البحث، توفير أساس يربط البحث في التخصصات

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نجح إطار عمل MARL-BC في دمج MARL العميق مع بيئة RBC
  2. يمكن للإطار استعادة نتائج RBC الكتابية الكلاسيكية ونموذج Krusell-Smith للمجال المتوسط
  3. القدرة على محاكاة عدم تجانس وكيل غني يصعب تحقيقه بالطرق التقليدية
  4. توفير خطوة نحو تركيب نماذج ABM ونماذج GE غير المتجانسة

القيود

  1. التكلفة الحسابية: يتطلب التدريب الدقيق لوكلاء RL تكلفة حسابية كبيرة، مع تشغيل التدريب متعدد الوكلاء لساعات
  2. الاعتماد على الأجهزة: يتطلب تسريع GPU لتخفيف العبء الحسابي بشكل كبير
  3. تعقيد النموذج: يتطلب عملية تدريب وضبط أكثر تعقيداً مقارنة بالطرق التقليدية

الاتجاهات المستقبلية

  1. تنفيذ متجه GPU: تنفيذ نمط متجه لبيئة MARL للاستفادة الكاملة من تسريع GPU
  2. دراسة مشاكل اقتصادية محددة: تطبيق الإطار لدراسة عدم المساواة الاقتصادية والتغيرات غير المتماثلة في إنتاجية العمل وغيرها
  3. تأثير أدوات الذكاء الاصطناعي: دراسة العواقب الاقتصادية والمالية لانتشار أدوات الذكاء الاصطناعي في مكان العمل

التقييم المتعمق

المزايا

  1. ابتكار الطريقة:
    • أول دمج ناجح لـ MARL مع نماذج الاقتصاد الكلي الكلاسيكية
    • توفير جسر بين نماذج ABM و GE
    • إعادة إنتاج دقيقة لنتائج النموذج التقليدي في الحالات الحدية
  2. كفاية التجارب:
    • التحقق على ثلاث مستويات: RBC أحادي الوكيل، KS للمجال المتوسط، عدم تجانس عام
    • مقارنة منهجية لخوارزميات RL متعددة
    • اختبار القابلية للتوسع من أحادي الرقم إلى مئات الوكلاء
  3. إقناع النتائج:
    • إعادة إنتاج كمية لمؤشرات النموذج الكلاسيكي الرئيسية
    • التحقق من الأهمية الإحصائية (مثل دوال الاستجابة النبضية)
    • عرض القدرة على نمذجة عدم التجانس الذي تصعب تحقيقه بالطرق التقليدية
  4. وضوح الكتابة:
    • وصف واضح للإطار والتعبير الرياضي
    • رسوم بيانية حدسية لعرض النتائج
    • تفاصيل شاملة للمعاملات الفائقة وتفاصيل التنفيذ

أوجه القصور

  1. قيود الطريقة:
    • الاعتماد على مشاركة المعاملات قد يحد من الاستقلالية الحقيقية لسلوك الوكلاء
    • قد لا تحقق طريقة المتعلمين المستقلين حلاً توازنياً حقيقياً
  2. عيوب إعداد التجارب:
    • عدد الوكلاء محدود نسبياً (أقصى 529)
    • نقص المقارنة المباشرة مع طرق نمذجة اقتصادية أخرى
    • تحليل وقت الحساب يعتمد بشكل أساسي على CPU، مع عدم استكشاف الأداء على GPU بشكل كافٍ
  3. تحليل غير كافٍ:
    • نقص تحليل التقارب النظري
    • فهم نظري محدود لديناميكيات التعلم
    • تحليل حساسية المعاملات غير كافٍ

التأثير

  1. المساهمة في المجال:
    • توفير إطار منهجي جديد لنمذجة الاقتصاد الكلي
    • تعزيز البحث متعدد التخصصات بين علوم الحاسوب والاقتصاد
    • فتح اتجاهات جديدة لنمذجة الأنظمة الاقتصادية المعقدة
  2. القيمة العملية:
    • الكود مفتوح المصدر يحسن القابلية للتكرار والتوسع
    • توفير أدوات جديدة لتحليل السياسات الاقتصادية
    • دعم افتراضات عدم تجانس أكثر واقعية
  3. القابلية للتكرار:
    • إعدادات معاملات فائقة مفصلة
    • كود مفتوح المصدر وتفاصيل التنفيذ
    • بروتوكول تجريبي موحد

السيناريوهات المعمول بها

  1. تحليل السياسات الاقتصادية الكلية: خاصة السيناريوهات التي تتطلب مراعاة عدم التجانس بين الوكلاء
  2. بحث عدم المساواة الاقتصادية: الاستفادة من نمذجة الإنتاجية غير المتجانسة لتوزيع الثروة
  3. نمذجة الأنظمة الاقتصادية المعقدة: مشاكل الأبعاد العالية لعدم التجانس التي تصعب معالجتها بطرق GE التقليدية
  4. أداة التعليم والبحث: توفير إطار نمذجة حدسي لتعليم الاقتصاد

المراجع

تستشهد هذه الورقة بـ 60 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات متعددة بما في ذلك الاقتصاد الكلي والتعلم المعزز والأنظمة متعددة الوكلاء، مما يوفر أساساً نظرياً متيناً للبحث متعدد التخصصات.