Heterogeneous RBCs via deep multi-agent reinforcement learning
Gabriele, Glielmo, Taboga
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.
academic
গভীর বহু-এজেন্ট শক্তিশালী শিক্ষার মাধ্যমে বিজাতীয় RBCs
বর্তমান এজেন্ট বিজাতীয়তা সহ ম্যাক্রোইকোনমিক মডেলগুলি দুটি প্রধান বিভাগে বিভক্ত করা যায়। বিজাতীয় এজেন্ট সাধারণ ভারসাম্য (GE) মডেল, যেমন HANK বা Krusell-Smith (KS) পদ্ধতির উপর ভিত্তি করে তৈরি মডেলগুলি, সাধারণ ভারসাম্য এবং "যুক্তিসঙ্গত প্রত্যাশা" অনুমানের উপর নির্ভর করে, যা যথেষ্ট বাস্তবসম্মত নয় এবং মডেল গণনাকে জটিল করে তোলে, যা মডেল করা যায় এমন বিজাতীয়তার মাত্রা সীমিত করে। বিপরীতে, এজেন্ট-ভিত্তিক মডেল (ABMs) নমনীয়ভাবে বিপুল সংখ্যক নির্বিচারে বিজাতীয় এজেন্ট অন্তর্ভুক্ত করতে পারে, কিন্তু সাধারণত আচরণগত নিয়মগুলি স্পষ্টভাবে নির্দিষ্ট করার প্রয়োজন হয়, যা দীর্ঘ ট্রায়াল-এবং-ত্রুটি মডেল উন্নয়ন প্রক্রিয়ার দিকে পরিচালিত করে। এই সীমাবদ্ধতাগুলি সমাধান করার জন্য, এই পেপারটি MARL-BC কাঠামো চালু করে, যা গভীর বহু-এজেন্ট শক্তিশালী শিক্ষা (MARL) কে প্রকৃত ব্যবসায়িক চক্র (RBC) মডেলের সাথে একত্রিত করে।
ম্যাক্রোইকোনমিক মডেলিং ঐতিহ্যগতভাবে প্রতিনিধিত্বমূলক এজেন্ট সহ সাধারণ ভারসাম্য মডেল ব্যবহারের উপর নির্ভর করে, যেমন RBC এবং নতুন কেইনসীয় মডেল। তবে, প্রতিনিধিত্বমূলক এজেন্ট মডেলের একটি সুপরিচিত সীমাবদ্ধতা হল এজেন্ট বিজাতীয়তা বিবেচনা করতে অক্ষমতা।
শক্তিশালী শিক্ষা (RL), বিশেষত বহু-এজেন্ট শক্তিশালী শিক্ষা (MARL), ম্যাক্রোইকোনমিক্সে বিজাতীয় এজেন্ট মডেল করার জন্য একটি নতুন পদ্ধতি প্রদান করে। RL শিক্ষা প্যারাডাইম GE এবং ABM এর চরম মধ্যে একটি প্রাকৃতিক সংশ্লেষণ প্রদান করতে মনে হয়: এজেন্টগুলি সীমিত যুক্তিসঙ্গত এবং বৈচিত্র্যময় হতে পারে, কিন্তু তাদের আচরণ একটি নীতিগত অপ্টিমাইজেশন প্রক্রিয়া (পুরস্কার সর্বাধিক করার জন্য শিক্ষা) থেকে অন্তর্জাত উদ্ভূত হয়।
প্যারামিটার শেয়ারিং: মান MARL প্যারামিটার শেয়ারিং প্যারাডাইম গ্রহণ করে, একটি একক স্নায়ু নেটওয়ার্ক সমস্ত এজেন্টের প্রতিনিধিত্ব করে, পর্যবেক্ষণে ব্যক্তিগত বৈশিষ্ট্যের মাধ্যমে বিভিন্ন আচরণ অর্জন করে
স্বাধীন শিক্ষার্থী: স্বাধীন শিক্ষার্থী প্রশিক্ষণ, প্রতিটি শুধুমাত্র আংশিক তথ্য সেট x_i_t অ্যাক্সেস করে, আনুমানিক সেরা প্রতিক্রিয়া নীতি অপ্টিমাইজ করে
নমনীয় বিজাতীয়তা: পুঁজি এবং শ্রম উৎপাদনশীলতার নির্বিচারে বিজাতীয়তা সেটিং সমর্থন করে
একীভূত কাঠামো: সীমাবদ্ধ ক্ষেত্রে GE ফলাফল পুনরুদ্ধার করতে পারে, সাধারণ ক্ষেত্রে ABM হিসাবে কাজ করতে পারে
অ্যালগরিদম কর্মক্ষমতা: SAC, TD3 এবং DDPG সংযোগ গতিতে PPO এর চেয়ে উল্লেখযোগ্যভাবে উন্নত, SAC সবচেয়ে স্থিতিশীল শিক্ষার্থী
পাঠ্যপুস্তক RBC পুনরুৎপাদন: সম্পূর্ণ অবচয় (δ=1) ক্ষেত্রে, RL পরিবার সর্বোত্তম নীতি পুনরুদ্ধার শিখে, প্রায় 10^4 প্রশিক্ষণ পদক্ষেপের পরে সর্বোত্তম মূল্যে সংযুক্ত হয়
সাধারণ RBC পুনরুৎপাদন: আংশিক অবচয় (δ=0.025) ক্ষেত্রে, শেখা সর্বোত্তম ভোগ এবং শ্রম পছন্দ Dynare সফটওয়্যার গণনা ফলাফলের সাথে সামঞ্জস্যপূর্ণ
আবেগ প্রতিক্রিয়া ফাংশন: মান আবেগ প্রতিক্রিয়া ফাংশন সফলভাবে পুনরুৎপাদন করে, ঐতিহ্যগত পদ্ধতি ফলাফলের সাথে পরিসংখ্যানগতভাবে সামঞ্জস্যপূর্ণ
অর্থনীতি শেষ: প্রধানত একক এজেন্ট RL উপর ফোকাস করে, দেখায় যে এটি প্রতিনিধিত্বমূলক এজেন্ট GE মডেল নীতি ফাংশন পুনরুদ্ধার করতে পারে
কম্পিউটার বিজ্ঞান শেষ: বহু-এজেন্ট RL পরীক্ষা করে, দেখায় যে পদ্ধতি সমৃদ্ধ উদ্ভূত অর্থনৈতিক আচরণ উৎপাদন করতে পারে, কিন্তু বেশিরভাগ ম্যাক্রোইকোনমিক্সের ভিত্তি মডেল উপেক্ষা করে
এই কাজ: দুটি গবেষণা লাইন সেতু, দুটি শৃঙ্খলা গবেষণা সংযোগ ভিত্তি প্রদান করে
GPU ভেক্টরাইজেশন বাস্তবায়ন: GPU ত্বরণ সম্পূর্ণভাবে ব্যবহার করতে MARL পরিবেশের ভেক্টরাইজড শৈলী বাস্তবায়ন করে
নির্দিষ্ট অর্থনৈতিক সমস্যা গবেষণা: অর্থনৈতিক অসমতা, শ্রম উৎপাদনশীলতা অসামঞ্জস্যপূর্ণ পরিবর্তন ইত্যাদি নির্দিষ্ট অর্থনৈতিক সমস্যা অধ্যয়ন করতে কাঠামো প্রয়োগ করে
AI সরঞ্জাম প্রভাব: কর্মক্ষেত্রে AI সরঞ্জাম প্রসারের অর্থনৈতিক এবং আর্থিক পরিণতি অধ্যয়ন করে
এই পেপারটি ম্যাক্রোইকোনমিক্স, শক্তিশালী শিক্ষা, বহু-এজেন্ট সিস্টেম সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ সহ 60টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, ক্রস-ডিসিপ্লিনারি গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।