تركز طرق التعلم المستمر (CL) التقليدية على تخفيف النسيان الكارثي من خلال إعادة التدريب القائمة على التدرجات، لكن هذا النهج غير مناسب للوكلاء المنتشرة التي تتطلب التكيف في الوقت الفعلي. تقدم هذه الورقة نظام التدريس والتعلم التكيفي (ATLAS)، وهو معمارية ثنائية الوكيل تفصل الاستدلال (المعلم) عن التنفيذ (الطالب)، وتجمع بين ذاكرة التعلم الدائم الموجهة بتقطير الخبرة المخزنة. يقوم النظام بتعديل سياسات التشغيل ديناميكياً أثناء الاستدلال، مما يحقق التعلم المستمر الخالي من التدرجات، ويحول تركيز التكيف من معاملات النموذج إلى التنسيق على مستوى النظام. في معيار ExCyTIn-Bench من Microsoft، حقق ATLAS معدل نجاح بنسبة 54.1% باستخدام GPT-5-mini كطالب، أعلى بـ 13% من GPT-5 (High) الأكبر، مع تكلفة أقل بـ 86%.
الهدف: تحقيق كفاءة التكيف - تعظيم معدل نجاح المهام مع تقليل التكاليف الحسابية من خلال التنسيق أثناء الاستدلال بدلاً من تحديث المعاملات.
المدخلات: سلسلة مستمرة من المهام، كل مهمة تحتوي على حالة وإجراء وملاحظة المخرجات: سياسة تنفيذ مهام محسنة وتحسين الكفاءة القيود: بدون تحديثات تدرجات، تكيف نقي أثناء الاستدلال
ذاكرة التعلم الدائم (PLM):
نظام المكافآت:
محرك التعلم:
1. تنفيذ المهمة: يحاول الطالب المهمة، ويولد مسار الحالة-الإجراء-الملاحظة
2. التحقق من التوجيه: يراقب المعلم مسار الطالب، ويقدم توجيهات على مستوى المبادئ بناءً على النتائج
3. استمرار التعلم: تسجيل المسار الكامل والتوجيه والنقاط في PLM
4. التعديل التكيفي: استرجاع سجل التعلم ذي الصلة في المهام المتشابهة اللاحقة، وتعديل السياسة ديناميكياً
ExCyTIn-Bench: معيار التحقيق من التهديدات السيبرانية من Microsoft
أداء الحادثة #5:
تحسن الكفاءة:
التحقق من الحادثة #55:
تحليل تقدم التعلم:
تحليل تكلفة استقصاء العملية:
مثال جلسة الحادثة #5 رقم 71:
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة بالتعلم المستمر وتحسين المطالبات والاسترجاع المعزز والآليات الذاكرة، بما في ذلك:
تقدم هذه الورقة تحولاً نموذجياً مهماً في مجال التعلم المستمر، من النهج التقليدي المركز على النموذج إلى النهج المركز على النظام، وتتمتع بقيمة نظرية وعملية مهمة. على الرغم من وجود مجال للتحسين في اتساع التقييم والتحليل النظري، فإن ابتكاريتها وعمليتها تجعلها مساهمة مهمة في هذا المجال.