2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic

सतत शिक्षा, प्रशिक्षण नहीं: एजेंटों के लिए ऑनलाइन अनुकूलन

बुनियादी जानकारी

  • पेपर ID: 2511.01093
  • शीर्षक: Continual Learning, Not Training: Online Adaptation For Agents
  • लेखक: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
  • वर्गीकरण: cs.LG cs.AI
  • प्रकाशन समय: 4 नवंबर, 2025 (प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2511.01093

सारांश

पारंपरिक सतत शिक्षा (CL) विधियां मुख्य रूप से ढलान-आधारित पुनः प्रशिक्षण के माध्यम से विनाशकारी विस्मृति को कम करती हैं, लेकिन यह विधि वास्तविक समय अनुकूलन की आवश्यकता वाले तैनात एजेंटों के लिए उपयुक्त नहीं है। यह पेपर अनुकूली शिक्षण और प्रशिक्षण प्रणाली (ATLAS) प्रस्तुत करता है, जो एक द्वि-एजेंट आर्किटेक्चर है जो अनुमान (शिक्षक) को निष्पादन (छात्र) से अलग करता है और संग्रहीत अनुभव आसवन मार्गदर्शन के साथ स्थायी शिक्षण स्मृति को एकीकृत करता है। यह प्रणाली अनुमान समय पर गतिशील रूप से परिचालन नीति को समायोजित करती है, ढलान-मुक्त सतत शिक्षा को प्राप्त करती है, और अनुकूलन के केंद्र को मॉडल पैरामीटर से प्रणाली-स्तरीय समन्वय में स्थानांतरित करती है। माइक्रोसॉफ्ट के ExCyTIn-Bench बेंचमार्क पर, ATLAS ने GPT-5-mini को छात्र के रूप में उपयोग करके 54.1% की सफलता दर प्राप्त की, जो बड़े GPT-5 (High) से 13% अधिक है, जबकि लागत 86% कम है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

  1. वास्तविक समय अनुकूलन आवश्यकता और ऑफलाइन प्रशिक्षण का विरोधाभास: तैनात भाषा मॉडल एजेंटों को गतिशील वातावरण में लगातार अनुकूलन की आवश्यकता है, लेकिन उनका मुख्य ज्ञान पूर्व-प्रशिक्षण के बाद स्थिर रहता है
  2. पारंपरिक सतत शिक्षा की सीमाएं: मौजूदा CL विधियां ढलान-आधारित वजन अपडेट पर अत्यधिक निर्भर हैं, विशेष प्रशिक्षण लूप, हार्डवेयर और डेटा संचय की आवश्यकता है, और अनुमान समय अनुकूलन प्रदान नहीं कर सकते

समस्या की महत्ता

  • जटिल अनुकूली प्रणालियों में वातावरण लगातार विकसित होता है; जब मॉडल एक कॉन्फ़िगरेशन का ऑफलाइन प्रशिक्षण पूरा करता है, तो वास्तविक समय प्रणाली पहले से ही बदल सकती है
  • बैकप्रोपेगेशन, यहां तक कि कुशल रूपों में (जैसे LoRA) भी विशेष प्रशिक्षण बुनियादी ढांचे की आवश्यकता है, पुनः प्रशिक्षण विलंब का परिचय देता है
  • तैनाती बाधाओं के तहत संसाधन सीमाएं पारंपरिक विधियों को लागू करना कठिन बनाती हैं

मौजूदा विधियों की सीमाएं

  1. प्रशिक्षण-आधारित विधियां: विनाशकारी विस्मृति से ग्रस्त, कम्प्यूटेशनल रूप से गहन ढलान अपडेट की आवश्यकता है
  2. प्रॉम्प्ट अनुकूलन तकनीकें: तैनाती के लिए स्थिर निर्देश उत्पन्न करती हैं, गतिशील रूप से विकसित नहीं हो सकते
  3. पुनः प्राप्ति-संवर्धित प्रणालियां: लुकअप निष्पादित करती हैं, कौशल संश्लेषण नहीं
  4. एजेंट स्मृति तंत्र: निष्क्रिय रूप से अनुभव संग्रहीत करते हैं, सामान्यीकृत ज्ञान निकालते नहीं

मुख्य योगदान

  1. प्रणाली-केंद्रित सतत शिक्षा प्रतिमान प्रस्तावित करना: अनुकूलन के केंद्र को मॉडल पैरामीटर से प्रणाली-स्तरीय समन्वय में स्थानांतरित करना
  2. ATLAS द्वि-एजेंट आर्किटेक्चर डिजाइन करना: अनुमान समय पर ढलान-मुक्त अनुकूलन को प्राप्त करना
  3. स्थायी शिक्षण स्मृति (PLM) स्थापित करना: आसवन किए गए मार्गदर्शन अनुभव को संग्रहीत करना और कार्य-पार स्थानांतरण का समर्थन करना
  4. ExCyTIn-Bench पर प्रभावकारिता को सत्यापित करना: छोटे मॉडल का उपयोग करके बड़े मॉडल के प्रदर्शन को पार करना, लागत में महत्वपूर्ण कमी
  5. कारणात्मक रूप से टिप्पणीकृत प्रक्षेपवक्र उत्पन्न करना: स्पष्ट विश्व मॉडल प्रशिक्षण के लिए मूल्यवान डेटा प्रदान करना

विधि विवरण

कार्य परिभाषा

उद्देश्य: अनुकूली दक्षता प्राप्त करना - पैरामीटर अपडेट के बजाय अनुमान समय समन्वय के माध्यम से, कार्य सफलता दर को अधिकतम करना और कम्प्यूटेशनल लागत को न्यूनतम करना।

इनपुट: कार्यों का निरंतर अनुक्रम, प्रत्येक कार्य में स्थिति, क्रिया और अवलोकन शामिल हैं आउटपुट: सुधारी गई कार्य निष्पादन नीति और दक्षता वृद्धि बाधाएं: कोई ढलान अपडेट नहीं, शुद्ध अनुमान समय अनुकूलन

मॉडल आर्किटेक्चर

1. द्वि-एजेंट डिजाइन

  • शिक्षक एजेंट: आमतौर पर अधिक सक्षम, अनुमान और मार्गदर्शन के लिए जिम्मेदार
  • छात्र एजेंट: कार्य निष्पादित करता है, शिक्षक की निरीक्षा और मार्गदर्शन प्राप्त करता है
  • समन्वय परत: शिक्षक-छात्र इंटरैक्शन को प्रबंधित करता है, परिचालन नीति को गतिशील रूप से समायोजित करता है

2. मुख्य घटक

स्थायी शिक्षण स्मृति (PLM):

  • पूर्ण निष्पादन प्रक्षेपवक्र, शिक्षक मार्गदर्शन और प्रासंगिक स्कोर संग्रहीत करता है
  • कार्य संदर्भ द्वारा अनुक्रमित
  • हल्के आसवन प्रक्रिया के माध्यम से कार्यकारी मार्गदर्शन निकालने का समर्थन करता है

पुरस्कार प्रणाली:

  • द्वि-स्तरीय एकीकृत मूल्यांकनकर्ता डिजाइन
  • कई तेज़ मूल्यांकनकर्ता स्वतंत्र रूप से स्कोर करते हैं
  • जब विचरण या अनिश्चितता सीमा से अधिक हो, तो मजबूत मध्यस्थ एकीकृत करता है और अंतिम निर्णय देता है

शिक्षण इंजन:

  • शिक्षक पुस्तिका संकलित करता है: सिद्धांत, विफलता के तरीके, निदान और रोक शर्तें
  • छात्र पुस्तिका उत्पन्न करता है: विशिष्ट क्रिया पैटर्न, उपकरण योजना, सुरक्षा और सफलता जांच

3. अनुमान समय शिक्षण लूप

1. कार्य निष्पादन: छात्र कार्य का प्रयास करता है, स्थिति-क्रिया-अवलोकन प्रक्षेपवक्र उत्पन्न करता है
2. मार्गदर्शन सत्यापन: शिक्षक छात्र प्रक्षेपवक्र का अवलोकन करता है, परिणाम के आधार पर सिद्धांत-स्तरीय मार्गदर्शन प्रदान करता है
3. शिक्षण स्थिरीकरण: पूर्ण प्रक्षेपवक्र, मार्गदर्शन और स्कोर को PLM में रिकॉर्ड करता है
4. अनुकूलन समायोजन: बाद के समान कार्यों में प्रासंगिक शिक्षण इतिहास पुनः प्राप्त करता है, नीति को गतिशील रूप से समायोजित करता है

तकनीकी नवाचार बिंदु

  1. ढलान-मुक्त अनुकूलन: पूरी तरह से अनुमान समय पर, मॉडल वजन अपडेट की आवश्यकता नहीं
  2. स्मृति-निर्देशित समन्वय: एकत्रित शिक्षण इतिहास का उपयोग करके परिचालन नीति को गतिशील रूप से समायोजित करता है
  3. अलग आर्किटेक्चर: शिक्षक अनुमान के लिए, छात्र निष्पादन के लिए, विशेषज्ञता का विभाजन प्राप्त करता है
  4. आसवन अनुभव स्थानांतरण (DET): पिछली बातचीत को पुन: प्रयोज्य शिक्षण कलाकृतियों में परिवर्तित करता है

प्रयोगात्मक सेटअप

डेटासेट

ExCyTIn-Bench: माइक्रोसॉफ्ट का साइबर खतरा जांच बेंचमार्क

  • घटना #5: 98 प्रश्नों का सुसंगत परिदृश्य
  • घटना #55: 100 प्रश्न, क्रॉस-इवेंट स्थानांतरण सत्यापन के लिए
  • स्थिति-जागरूक अनुमान मूल्यांकन प्रदान करता है, स्थिर परीक्षणों के बजाय प्रक्षेपवक्र स्कोरिंग के माध्यम से

मूल्यांकन मेट्रिक्स

  1. कार्य सफलता दर: बेंचमार्क आधिकारिक मानदंड का उपयोग करके बाइनरी सफलता दर (≥0.4 सीमा)
  2. दक्षता: प्रति सत्र औसत खपत टोकन संख्या
  3. लागत-प्रभावकारिता: OpenAI मूल्य निर्धारण के आधार पर प्रति प्रश्न डॉलर लागत

तुलनात्मक विधियां

  1. आंतरिक आधारभूत: पुस्तिका या शिक्षक मार्गदर्शन के बिना GPT-5-mini
  2. बाहरी आधारभूत: ExCyTIn-Bench दस्तावेज़ द्वारा रिपोर्ट किया गया GPT-5 (Reasoning=High) प्रदर्शन
  3. क्रॉस-इवेंट आधारभूत: घटना #55 पर आधिकारिक GPT-5-mini आधारभूत

कार्यान्वयन विवरण

  • बीज चरण: शिक्षक के रूप में GPT-5, छात्र के रूप में GPT-5-mini
  • मूल्यांकन चरण: शब्दार्थ समानता पुनः प्राप्ति के माध्यम से प्रासंगिक पुस्तिकाओं को प्रारंभ करने के बाद बाद के कार्य
  • पुरस्कार कॉन्फ़िगरेशन: द्वि-स्तरीय एकीकृत मूल्यांकनकर्ता, सिद्धांत-निर्देशित स्कोरिंग
  • स्मृति पुनः प्राप्ति: कार्य संदर्भ के आधार पर शब्दार्थ मिलान

प्रायोगिक परिणाम

मुख्य परिणाम

घटना #5 प्रदर्शन:

  • ATLAS सफलता दर: 54.1% (98 कार्यों में से 53)
  • GPT-5 (High) आधारभूत 48.0% की तुलना में: +6.1 प्रतिशत अंक
  • GPT-5-mini आधारभूत 33.7% की तुलना में: +20.4 प्रतिशत अंक
  • लागत में कमी: ~86% (0.024बनाम0.024 बनाम 0.174 प्रति प्रश्न)

दक्षता वृद्धि:

  • औसत टोकन खपत: 78,118 (छात्र-केवल 141,660 की तुलना में 45% कम)
  • चरणबद्ध सुधार:
    • चरण 1 (कार्य 1-25): 100,810 टोकन (-28.8%)
    • चरण 2 (कार्य 26-60): 73,980 टोकन (-47.8%)
    • चरण 3 (कार्य 61-98): 67,002 टोकन (-52.7%)

क्रॉस-इवेंट स्थानांतरण प्रयोग

घटना #55 सत्यापन:

  • आधारभूत सटीकता: 28% (100 में से 28)
  • जमे हुए पुस्तिका का उपयोग: 41% (100 में से 41), 46% सुधार
  • आउटपुट संरचना परिवर्तन:
    • गैर-तर्क टोकन 52.1% कम
    • तर्क टोकन 2,135 बढ़ते हैं
    • लंबे अन्वेषण से संरचित तर्क की ओर

विलोपन प्रयोग

शिक्षण प्रगति विश्लेषण:

  • 98 कार्य प्रक्षेपवक्र में 69 में पुनः प्राप्त मार्गदर्शन शामिल है
  • 68 ने मूल प्रॉम्प्ट पाठ में अनुपस्थित कौशल इंजेक्ट किए
  • पुस्तिकाएं कार्य-विशिष्ट टेम्पलेट के बजाय अमूर्त प्रोग्राम को कैप्चर करती हैं

प्रक्रिया जांच लागत विश्लेषण:

  • प्रारंभिक तीन प्रक्रिया प्रश्न: औसत 217.7k टोकन
  • बाद के तीन प्रक्रिया प्रश्न: औसत 48.8k टोकन
  • समान पुस्तिका विभिन्न प्रक्रिया फोरेंसिक कार्यों को छोटा कर सकती है

केस विश्लेषण

घटना #5 सत्र 71 उदाहरण:

  • प्रारंभिक विफलता: छात्र ने उत्तर सत्यापित नहीं किया, व्यवस्थित जांच रणनीति की कमी
  • शिक्षक हस्तक्षेप: सिद्धांत-स्तरीय मार्गदर्शन प्रदान करता है (दूरसंचार स्रोत गणना, तालिका प्राथमिकता, SID सत्यापन)
  • सफल पुनः निष्पादन: व्यवस्थित दृष्टिकोण, सही SID निष्कर्षण, कम टोकन खपत
  • तुलना: स्वायत्त निष्पादन 304,389 टोकन खपत करता है, सफल नहीं होता, पुस्तिका पुनः प्राप्ति का मूल्य प्रदर्शित करता है

संबंधित कार्य

प्रशिक्षण-आधारित विधियां

  • LoRA, QLoRA, DoRA आदि पैरामीटर-कुशल विधियां अभी भी ढलान अनुकूलन पर निर्भर हैं
  • "तेज़-धीमी" द्वि-गति शिक्षण प्रणालियां अभी भी ढलान गणना की आवश्यकता है
  • शिक्षण दर और विस्मृति के बीच व्यापार-बंद का सामना करता है

प्रॉम्प्ट अनुकूलन

  • Prompt Tuning, DSPy, GEPA आदि विधियां स्थिर प्रॉम्प्ट अनुकूलित करती हैं
  • तैनाती के बाद वातावरण स्थितियों में परिवर्तन के समय विकसित नहीं हो सकते
  • ATLAS इतिहास-आधारित गतिशील निष्पादन नीति अनुकूलन को प्राप्त करता है

पुनः प्राप्ति प्रणालियां

  • RAG, Self-RAG आदि सामग्री-स्तरीय ज्ञान बढ़ाते हैं
  • ATLAS रणनीतिक-स्तरीय व्यवहार नीति परिशोधन पर केंद्रित है
  • सामग्री विस्तार के बजाय कौशल अधिग्रहण को प्राप्त करता है

स्मृति तंत्र

  • Reflexion, LATS, Voyager, MemGPT आदि निष्क्रिय रूप से अनुभव संग्रहीत करते हैं
  • सक्रिय संपीड़न और सामान्यीकरण तंत्र की कमी
  • ATLAS सक्रिय शिक्षण सब्सट्रेट को प्राप्त करता है, प्रोग्राम शिक्षण का समर्थन करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रणाली-केंद्रित CL की व्यवहार्यता: अनुकूली, तैनाती योग्य AI प्रणालियों के लिए एक व्यवहार्य पथ के रूप में ढलान-मुक्त सतत शिक्षा को प्रमाणित करता है
  2. दक्षता और सटीकता का पेरेटो सीमांत: अनुमान समय अनुकूलन के माध्यम से उच्च सटीकता और कम कम्प्यूटेशनल लागत प्राप्त करता है
  3. क्रॉस-कार्य सामान्यीकरण क्षमता: जमी हुई पुस्तिका नई घटनाओं पर प्रदर्शन में महत्वपूर्ण सुधार करती है, पुनः प्रशिक्षण की आवश्यकता नहीं
  4. विश्व मॉडल डेटा इंजन: कारणात्मक रूप से टिप्पणीकृत प्रक्षेपवक्र उत्पन्न करता है, स्पष्ट विश्व मॉडल प्रशिक्षण के लिए मूल्य प्रदान करता है

सीमाएं

  1. आर्किटेक्चर निर्भरता: शिक्षक-छात्र द्वि-एजेंट सेटअप की आवश्यकता है, प्रणाली जटिलता बढ़ाता है
  2. डोमेन विशिष्टता: मुख्य रूप से साइबर सुरक्षा जांच डोमेन में सत्यापित, सामान्यीकरण क्षमता आगे सत्यापन की प्रतीक्षा करती है
  3. स्मृति प्रबंधन: अनुभव वृद्धि के साथ स्मृति प्रबंधन और पुनः प्राप्ति दक्षता समस्याएं
  4. मूल्यांकन विधि: स्थिर बेंचमार्क परीक्षण गतिशील शिक्षण प्रणालियों का मूल्यांकन करने के लिए अपर्याप्त है

भविष्य की दिशाएं

  1. आर्किटेक्चर डिजाइन अन्वेषण: बहु-एजेंट एकीकरण, पदानुक्रमित स्मृति संरचना आदि वैकल्पिक डिजाइन की तुलना करना
  2. ज्ञान सामान्यीकरण: क्रॉस-मॉडल, क्रॉस-कार्य सिद्धांत स्थानांतरण का अनुसंधान करना
  3. अनुकूली मूल्यांकन विधि: एजेंटों के साथ सह-अनुकूलन करने वाले गतिशील बेंचमार्क विकसित करना
  4. मिश्रित ऑनलाइन-ऑफलाइन शिक्षा: विश्व मॉडल प्रशिक्षण को वास्तविक समय प्रणाली में एकीकृत करना

गहन मूल्यांकन

शक्तियां

  1. प्रतिमान नवाचार: मॉडल-केंद्रित से प्रणाली-केंद्रित सतत शिक्षा प्रतिमान में परिवर्तन महत्वपूर्ण सैद्धांतिक मूल्य रखता है
  2. व्यावहारिकता: विशेष हार्डवेयर या पुनः प्रशिक्षण की आवश्यकता नहीं, मानक अनुमान बुनियादी ढांचे में तैनाती में आसान
  3. पर्याप्त प्रयोग: वास्तविक बेंचमार्क पर सत्यापित, विस्तृत विलोपन प्रयोग और केस विश्लेषण शामिल
  4. महत्वपूर्ण लागत-प्रभावकारिता: छोटे मॉडल का उपयोग करके बड़े मॉडल को पार करता है, लागत में महत्वपूर्ण कमी
  5. अच्छी पुनरुत्पादनीयता: पूर्ण डेटासेट और कार्यान्वयन विवरण प्रदान करता है

कमियां

  1. मूल्यांकन सीमाएं: मुख्य रूप से एकल डोमेन (साइबर सुरक्षा) में सत्यापित, व्यापक डोमेन सत्यापन की कमी
  2. स्केलेबिलिटी समस्याएं: कार्य वृद्धि के साथ, स्मृति पुनः प्राप्ति और प्रबंधन की कम्प्यूटेशनल ओवरहेड बाधा बन सकता है
  3. अपर्याप्त सैद्धांतिक विश्लेषण: प्रणाली अभिसरण, स्थिरता के लिए सैद्धांतिक गारंटी की कमी
  4. शिक्षक निर्भरता: अधिक सक्षम शिक्षक मॉडल की आवश्यकता है, वास्तविक अनुप्रयोग परिदृश्यों को सीमित कर सकता है
  5. दीर्घकालीन शिक्षा: अत्यंत लंबे अनुक्रम कार्यों में प्रदर्शन पर्याप्त रूप से अन्वेषित नहीं

प्रभाव

  1. शैक्षणिक योगदान: सतत शिक्षा क्षेत्र के लिए नई अनुसंधान दिशा और पद्धति प्रदान करता है
  2. व्यावहारिक मूल्य: वास्तविक तैनात AI प्रणालियों के लिए व्यवहार्य अनुकूलन समाधान प्रदान करता है
  3. प्रेरणादायक: प्रणाली-स्तरीय अनुकूलन का विचार अन्य AI प्रणाली डिजाइन को प्रेरित कर सकता है
  4. डेटा मूल्य: उत्पन्न कारणात्मक टिप्पणीकृत डेटा विश्व मॉडल अनुसंधान के लिए महत्वपूर्ण है

लागू परिदृश्य

  1. संसाधन-सीमित वातावरण: जहां मॉडल पुनः प्रशिक्षण संभव नहीं है
  2. गतिशील कार्य वातावरण: कार्य प्रकार और आवश्यकताओं में तेजी से अनुकूलन की आवश्यकता
  3. लागत-संवेदनशील अनुप्रयोग: प्रदर्शन और लागत के बीच इष्टतम संतुलन खोजने की आवश्यकता
  4. विशेषज्ञ डोमेन अनुप्रयोग: जैसे साइबर सुरक्षा, विफलता निदान जो विशेषज्ञ ज्ञान की आवश्यकता है

संदर्भ

पेपर सतत शिक्षा, प्रॉम्प्ट अनुकूलन, पुनः प्राप्ति-संवर्धन और स्मृति तंत्र आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • Kirkpatrick et al. (2017) - तंत्रिका नेटवर्क में विनाशकारी विस्मृति पर काबू पाना
  • Hu et al. (2021) - LoRA निम्न-रैंक अनुकूलन विधि
  • Lewis et al. (2020) - पुनः प्राप्ति-संवर्धित पीढ़ी
  • Shinn et al. (2023) - Reflexion भाषा एजेंट
  • Wu et al. (2025) - ExCyTIn-Bench बेंचमार्क परीक्षण

यह पेपर सतत शिक्षा क्षेत्र में महत्वपूर्ण प्रतिमान परिवर्तन प्रस्तावित करता है, पारंपरिक मॉडल-केंद्रित दृष्टिकोण से प्रणाली-केंद्रित विधि में, जिसमें महत्वपूर्ण सैद्धांतिक मूल्य और व्यावहारिक महत्व है। हालांकि मूल्यांकन व्यापकता और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, लेकिन इसकी नवीनता और व्यावहारिकता इसे इस क्षेत्र का महत्वपूर्ण योगदान बनाती है।