2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic

التعلم المستمر، وليس التدريب: التكيف عبر الإنترنت للوكلاء

المعلومات الأساسية

  • معرف الورقة: 2511.01093
  • العنوان: التعلم المستمر، وليس التدريب: التكيف عبر الإنترنت للوكلاء
  • المؤلفون: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
  • التصنيف: cs.LG cs.AI
  • تاريخ النشر: 4 نوفمبر 2025 (نسخة أولية)
  • رابط الورقة: https://arxiv.org/abs/2511.01093

الملخص

تركز طرق التعلم المستمر (CL) التقليدية على تخفيف النسيان الكارثي من خلال إعادة التدريب القائمة على التدرجات، لكن هذا النهج غير مناسب للوكلاء المنتشرة التي تتطلب التكيف في الوقت الفعلي. تقدم هذه الورقة نظام التدريس والتعلم التكيفي (ATLAS)، وهو معمارية ثنائية الوكيل تفصل الاستدلال (المعلم) عن التنفيذ (الطالب)، وتجمع بين ذاكرة التعلم الدائم الموجهة بتقطير الخبرة المخزنة. يقوم النظام بتعديل سياسات التشغيل ديناميكياً أثناء الاستدلال، مما يحقق التعلم المستمر الخالي من التدرجات، ويحول تركيز التكيف من معاملات النموذج إلى التنسيق على مستوى النظام. في معيار ExCyTIn-Bench من Microsoft، حقق ATLAS معدل نجاح بنسبة 54.1% باستخدام GPT-5-mini كطالب، أعلى بـ 13% من GPT-5 (High) الأكبر، مع تكلفة أقل بـ 86%.

خلفية البحث والدافع

المشاكل الأساسية

  1. التناقض بين متطلبات التكيف في الوقت الفعلي والتدريب غير المتصل: تحتاج وكلاء نماذج اللغة المنتشرة إلى التكيف المستمر في البيئات الديناميكية، لكن معرفتها الأساسية تبقى ثابتة بعد التدريب المسبق
  2. قيود التعلم المستمر التقليدي: تعتمد طرق CL الحالية بشكل مفرط على تحديثات الأوزان القائمة على التدرجات، وتتطلب حلقات تدريب متخصصة وأجهزة وتراكم البيانات، ولا يمكنها توفير التكيف أثناء الاستدلال

أهمية المشكلة

  • تتطور البيئات بشكل مستمر في الأنظمة التكيفية المعقدة، وعندما ينتهي النموذج من التدريب غير المتصل لتكوين واحد، قد يكون النظام في الوقت الفعلي قد تغير بالفعل
  • الانتشار العكسي، حتى في الأشكال الفعالة (مثل LoRA)، يتطلب بنية تحتية تدريبية متخصصة، مما يؤدي إلى تأخير إعادة التدريب
  • تجعل القيود المتعلقة بالموارد في ظل قيود النشر من الصعب تطبيق الطرق التقليدية

قيود الطرق الموجودة

  1. الطرق القائمة على التدريب: تعاني من النسيان الكارثي، وتتطلب تحديثات تدرجات كثيفة الحوسبة
  2. تقنيات تحسين المطالبات: تنتج تعليمات ثابتة للنشر، ولا يمكنها التطور ديناميكياً
  3. الأنظمة المعززة بالاسترجاع: تنفذ البحث بدلاً من تركيب المهارات
  4. آليات ذاكرة الوكيل: تخزين الخبرة بشكل سلبي، ولا تستخرج معرفة قابلة للتعميم

المساهمات الأساسية

  1. اقتراح نموذج التعلم المستمر المركز على النظام: نقل تركيز التكيف من معاملات النموذج إلى التنسيق على مستوى النظام
  2. تصميم معمارية ATLAS ثنائية الوكيل: تحقيق التكيف الخالي من التدرجات أثناء الاستدلال
  3. إنشاء ذاكرة التعلم الدائم (PLM): تخزين الخبرة الموجهة المقطرة ودعم النقل عبر المهام
  4. التحقق من الفعالية على ExCyTIn-Bench: تجاوز أداء النماذج الأكبر باستخدام نماذج أصغر، مع تقليل التكاليف بشكل كبير
  5. توليد مسارات مشروحة سببية: توفير بيانات قيمة لتدريب نماذج العالم الصريحة

شرح الطريقة

تعريف المهمة

الهدف: تحقيق كفاءة التكيف - تعظيم معدل نجاح المهام مع تقليل التكاليف الحسابية من خلال التنسيق أثناء الاستدلال بدلاً من تحديث المعاملات.

المدخلات: سلسلة مستمرة من المهام، كل مهمة تحتوي على حالة وإجراء وملاحظة المخرجات: سياسة تنفيذ مهام محسنة وتحسين الكفاءة القيود: بدون تحديثات تدرجات، تكيف نقي أثناء الاستدلال

معمارية النموذج

1. التصميم ثنائي الوكيل

  • وكيل المعلم: عادة ما يكون أكثر قدرة، مسؤول عن الاستدلال والتوجيه
  • وكيل الطالب: ينفذ المهام، يتلقى الإشراف والتوجيه من المعلم
  • طبقة التنسيق: تدير تفاعل المعلم-الطالب، وتعدل سياسات التشغيل ديناميكياً

2. المكونات الأساسية

ذاكرة التعلم الدائم (PLM):

  • تخزين مسارات التنفيذ الكاملة وتوجيهات المعلم والنقاط ذات الصلة
  • مفهرسة حسب سياق المهمة
  • دعم عملية تقطير خفيفة الوزن لاستخراج التوجيهات القابلة للتنفيذ

نظام المكافآت:

  • تصميم الحكم المتكامل ثنائي الطبقات
  • عدة حكام سريعة تسجل بشكل مستقل
  • عندما تتجاوز التباين أو عدم اليقين الحد الأدنى، يقوم الحكم القوي بالتكامل والحكم النهائي

محرك التعلم:

  • تجميع كتيب المعلم: المبادئ وأنماط الفشل والتشخيص وشروط التوقف
  • توليد كتيب الطالب: أنماط الإجراءات المحددة وتخطيط الأدوات والحماية والفحوصات الناجحة

3. حلقة التعلم أثناء الاستدلال

1. تنفيذ المهمة: يحاول الطالب المهمة، ويولد مسار الحالة-الإجراء-الملاحظة
2. التحقق من التوجيه: يراقب المعلم مسار الطالب، ويقدم توجيهات على مستوى المبادئ بناءً على النتائج
3. استمرار التعلم: تسجيل المسار الكامل والتوجيه والنقاط في PLM
4. التعديل التكيفي: استرجاع سجل التعلم ذي الصلة في المهام المتشابهة اللاحقة، وتعديل السياسة ديناميكياً

نقاط الابتكار التقني

  1. التكيف الخالي من التدرجات: يحدث بالكامل أثناء الاستدلال، بدون تحديثات أوزان النموذج
  2. التنسيق الموجه بالذاكرة: استخدام سجل التعلم المجمع لتعديل سياسات التشغيل ديناميكياً
  3. المعمارية المنفصلة: المعلم مسؤول عن الاستدلال، والطالب مسؤول عن التنفيذ، مما يحقق التخصص
  4. نقل الخبرة المقطرة (DET): تحويل التفاعلات السابقة إلى قطع تعلم قابلة لإعادة الاستخدام

إعداد التجارب

مجموعات البيانات

ExCyTIn-Bench: معيار التحقيق من التهديدات السيبرانية من Microsoft

  • الحادثة #5: سيناريو متسق مع 98 استعلام
  • الحادثة #55: 100 استعلام، للتحقق من النقل عبر الأحداث
  • توفير تقييم الاستدلال الذي يدرك الحالة، من خلال تسجيل المسار بدلاً من الاختبارات الثابتة

مقاييس التقييم

  1. معدل نجاح المهام: استخدام معيار النجاح الثنائي للمعيار الرسمي (حد ≥0.4)
  2. الكفاءة: متوسط عدد الرموز المستهلكة لكل جلسة
  3. فعالية التكلفة: تكلفة الدولار لكل سؤال بناءً على تسعير OpenAI

طرق المقارنة

  1. الخط الأساسي الداخلي: GPT-5-mini بدون كتيبات أو توجيه من المعلم
  2. الخط الأساسي الخارجي: أداء GPT-5 (Reasoning=High) المبلغ عنه في وثائق ExCyTIn-Bench
  3. الخط الأساسي عبر الأحداث: الخط الأساسي الرسمي لـ GPT-5-mini على الحادثة #55

تفاصيل التنفيذ

  • مرحلة البذر: GPT-5 كمعلم، GPT-5-mini كطالب
  • مرحلة التقييم: استرجاع الكتيبات ذات الصلة بناءً على التشابه الدلالي لتهيئة المهام اللاحقة
  • تكوين المكافآت: حكم متكامل ثنائي الطبقات، تسجيل موجه بالمبادئ
  • استرجاع الذاكرة: مطابقة دلالية بناءً على سياق المهمة

نتائج التجارب

النتائج الرئيسية

أداء الحادثة #5:

  • معدل نجاح ATLAS: 54.1% (53/98 مهمة)
  • مقابل خط أساسي GPT-5 (High) بنسبة 48.0%: +6.1 نقطة مئوية
  • مقابل خط أساسي GPT-5-mini بنسبة 33.7%: +20.4 نقطة مئوية
  • تقليل التكاليف: ~86% (0.024 دولار مقابل 0.174 دولار لكل سؤال)

تحسن الكفاءة:

  • متوسط استهلاك الرموز: 78,118 (انخفاض 45% مقابل 141,660 للطالب فقط)
  • التحسن المرحلي:
    • المرحلة 1 (المهام 1-25): 100,810 رموز (-28.8%)
    • المرحلة 2 (المهام 26-60): 73,980 رموز (-47.8%)
    • المرحلة 3 (المهام 61-98): 67,002 رموز (-52.7%)

تجارب النقل عبر الأحداث

التحقق من الحادثة #55:

  • دقة الخط الأساسي: 28% (28/100)
  • باستخدام كتيب مجمد: 41% (41/100)، تحسن بنسبة 46%
  • تغيير تكوين المخرجات:
    • انخفاض رموز غير الاستدلال بنسبة 52.1%
    • زيادة رموز الاستدلال بمقدار 2,135
    • الانتقال من الاستكشاف المطول إلى الاستدلال المنظم

تجارب الاستئصال

تحليل تقدم التعلم:

  • 69 من 98 مسار مهمة تحتوي على توجيهات مسترجعة
  • 68 حقنت مهارات كانت مفقودة في نص المطالبة الأصلي
  • يوضح أن الكتيبات تلتقط برامج مجردة وليس قوالب خاصة بالمهام

تحليل تكلفة استقصاء العملية:

  • ثلاث مسائل عملية مبكرة: متوسط 217.7k رموز
  • ثلاث مسائل عملية متأخرة: متوسط 48.8k رموز
  • يثبت أن نفس الكتيب يمكن أن يقلل مهام الطب الشرعي للعملية المختلفة

تحليل الحالات

مثال جلسة الحادثة #5 رقم 71:

  • الفشل الأولي: لم يتحقق الطالب من الإجابة، يفتقر إلى استراتيجية تحقيق منهجية
  • تدخل المعلم: توفير توجيهات على مستوى المبادئ (تعداد مصادر القياس عن بعد، أولويات الجداول، التحقق من SID)
  • إعادة التنفيذ الناجحة: نهج منهجي، استخراج SID صحيح، استهلاك رموز أقل
  • المقارنة: الاستخراج المستقل استهلك 304,389 رموز دون نجاح، مما يوضح قيمة استرجاع الكتيب

الأعمال ذات الصلة

الطرق القائمة على التدريب

  • طرق الكفاءة العالية للمعاملات مثل LoRA و QLoRA و DoRA لا تزال تعتمد على التحسين القائم على التدرجات
  • أنظمة التعلم "السريعة والبطيئة" ثنائية السرعة لا تزال تتطلب حسابات التدرجات
  • تواجه مشاكل المقايضة بين معدل التعلم والنسيان

تحسين المطالبات

  • طرق Prompt Tuning و DSPy و GEPA وغيرها تحسن المطالبات الثابتة
  • لا يمكن أن تتطور بعد النشر عندما تتغير ظروف البيئة
  • يحقق ATLAS التكيف الديناميكي لسياسة التنفيذ بناءً على السجل

الأنظمة المستندة إلى الاسترجاع

  • RAG و Self-RAG وغيرها تعزز المعرفة على مستوى المحتوى
  • يركز ATLAS على تحسين سياسة السلوك على المستوى الاستراتيجي
  • يحقق اكتساب المهارات بدلاً من توسيع المحتوى

آليات الذاكرة

  • Reflexion و LATS و Voyager و MemGPT وغيرها تخزن الخبرة بشكل سلبي
  • تفتقر إلى آليات الضغط والتعميم النشطة
  • يحقق ATLAS مصفوفة تعلم نشطة، تدعم تعلم البرنامج

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. جدوى التعلم المستمر المركز على النظام: يثبت أن التعلم المستمر الخالي من التدرجات هو مسار قابل للتطبيق للأنظمة الذكية التكيفية والقابلة للنشر
  2. الحدود الباريتو للكفاءة والدقة: تحقيق دقة أعلى وتكاليف حسابية أقل من خلال التكيف أثناء الاستدلال
  3. القدرة على التعميم عبر المهام: يحسن الكتيب المجمد الأداء بشكل كبير على الأحداث الجديدة، بدون إعادة تدريب
  4. محرك بيانات نموذج العالم: توليد مسارات مشروحة سببية، توفير قيمة لتدريب نماذج العالم الصريحة

القيود

  1. اعتماد المعمارية: يتطلب إعداد وكيل ثنائي المعلم-الطالب، مما يزيد من تعقيد النظام
  2. الخصوصية المجالية: تم التحقق منها بشكل أساسي في مجال التحقيق من الأمن السيبراني، والقابلية للتعميم تحتاج إلى التحقق الإضافي
  3. إدارة الذاكرة: مشاكل إدارة الذاكرة وكفاءة الاسترجاع مع نمو الخبرة
  4. طريقة التقييم: المعايير الثابتة غير كافية لتقييم الأنظمة الديناميكية للتعلم

الاتجاهات المستقبلية

  1. استكشاف تصميم المعمارية: مقارنة التكاملات متعددة الوكلاء وهياكل الذاكرة الهرمية والتصاميم البديلة الأخرى
  2. تعميم المعرفة: البحث عن نقل المبادئ عبر النماذج والمهام
  3. طرق التقييم التكيفية: تطوير معايير ديناميكية تتطور مع الوكلاء
  4. التعلم الهجين عبر الإنترنت وغير المتصل: دمج تدريب نموذج العالم مع الأنظمة في الوقت الفعلي

التقييم المتعمق

المزايا

  1. ابتكار النموذج: تحويل النموذج من مركز النموذج إلى مركز النظام للتعلم المستمر له قيمة نظرية مهمة
  2. قوة عملية: لا يتطلب أجهزة متخصصة أو إعادة تدريب، سهل النشر على بنية استدلال قياسية
  3. تجارب شاملة: التحقق على معايير حقيقية، بما في ذلك تجارب استئصال تفصيلية وتحليل حالات
  4. فعالية التكلفة ملحوظة: تجاوز النماذج الأكبر باستخدام نماذج أصغر، مع تقليل التكاليس بشكل كبير
  5. قابلية إعادة الإنتاج الجيدة: توفير مجموعات بيانات كاملة وتفاصيل التنفيذ

أوجه القصور

  1. قيود التقييم: التحقق بشكل أساسي في مجال واحد (الأمن السيبراني)، يفتقر إلى التحقق الأوسع من المجالات
  2. مشاكل قابلية التوسع: مع زيادة المهام، قد تصبح النفقات الحسابية لاسترجاع الذاكرة وإدارتها اختناقاً
  3. نقص التحليل النظري: يفتقر إلى الضمانات النظرية لتقارب النظام والاستقرار
  4. اعتماد المعلم: يتطلب نموذج معلم أقوى، قد يحد من سيناريوهات التطبيق العملي
  5. التعلم طويل الأجل: لم يتم استكشاف الأداء في سلاسل المهام الطويلة جداً بشكل كافٍ

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد ومنهجية للمجال المستمر للتعلم
  2. القيمة العملية: توفير حل تكيف قابل للتطبيق لأنظمة الذكاء الاصطناعي المنتشرة الفعلية
  3. الإلهام: قد يلهم فكرة التكيف على مستوى النظام تصاميم أنظمة ذكاء اصطناعي أخرى
  4. قيمة البيانات: البيانات المشروحة السببية المولدة لها قيمة مهمة لبحث نموذج العالم

السيناريوهات المعمول بها

  1. البيئات محدودة الموارد: سيناريوهات النشر التي لا يمكن فيها إجراء إعادة تدريب النموذج
  2. بيئات المهام الديناميكية: تتطلب التكيف السريع مع تغيير أنواع المهام والمتطلبات
  3. التطبيقات الحساسة للتكلفة: تحتاج إلى إيجاد التوازن الأمثل بين الأداء والتكلفة
  4. تطبيقات المجالات المتخصصة: مثل الأمن السيبراني وتشخيص الأعطال وغيرها من المجالات التي تتطلب معرفة الخبراء

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة بالتعلم المستمر وتحسين المطالبات والاسترجاع المعزز والآليات الذاكرة، بما في ذلك:

  • Kirkpatrick et al. (2017) - التغلب على النسيان الكارثي في الشبكات العصبية
  • Hu et al. (2021) - طريقة التكيف منخفضة الرتبة LoRA
  • Lewis et al. (2020) - الاسترجاع المعزز للتوليد
  • Shinn et al. (2023) - وكيل اللغة Reflexion
  • Wu et al. (2025) - معيار ExCyTIn-Bench

تقدم هذه الورقة تحولاً نموذجياً مهماً في مجال التعلم المستمر، من النهج التقليدي المركز على النموذج إلى النهج المركز على النظام، وتتمتع بقيمة نظرية وعملية مهمة. على الرغم من وجود مجال للتحسين في اتساع التقييم والتحليل النظري، فإن ابتكاريتها وعمليتها تجعلها مساهمة مهمة في هذا المجال.