Continual Learning, Not Training: Online Adaptation For Agents
Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic
Kontinuierliches Lernen, nicht Training: Online-Anpassung für Agenten
Traditionelle Methoden des kontinuierlichen Lernens (CL) bekämpfen katastrophales Vergessen hauptsächlich durch gradientenbasiertes Umtraining, was sich jedoch für Deployagenten, die Echtzeitanpassung erfordern, nicht eignet. Dieses Paper stellt ATLAS (Adaptive Teaching and Learning System) vor – eine Dual-Agent-Architektur, die Inferenz (Teacher) von Ausführung (Student) entkoppelt und persistentes Lerngedächtnis mit destillierter Erfahrungsanleitung kombiniert. Das System passt Operationsstrategien während der Inferenz dynamisch an und ermöglicht gradientenfreies kontinuierliches Lernen, wobei der Anpassungsschwerpunkt von Modellparametern auf systemische Orchestrierung verlagert wird. In Microsofts ExCyTIn-Bench-Benchmark erreicht ATLAS mit GPT-4-mini als Student eine Erfolgsquote von 54,1%, was 13% über dem größeren GPT-4(High) liegt, bei 86% niedrigeren Kosten.
Widerspruch zwischen Echtzeitanpassung und Offline-Training: Bereitgestellte Sprachmodell-Agenten müssen sich kontinuierlich in dynamischen Umgebungen anpassen, aber ihr Kernwissen bleibt nach dem Vortraining statisch
Einschränkungen traditionellen kontinuierlichen Lernens: Bestehende CL-Methoden sind überabhängig von gradientenbasierten Gewichtsaktualisierungen, erfordern spezialisierte Trainingsschleifen, Hardware und Datenkumulation und können keine Inferenz-Zeit-Anpassung bieten
In komplexen adaptiven Systemen entwickelt sich die Umgebung kontinuierlich weiter; wenn ein Modell das Offline-Training für eine Konfiguration abgeschlossen hat, kann sich das Echtzeitsystem bereits geändert haben
Backpropagation erfordert selbst in effizienten Formen (wie LoRA) spezialisierte Trainingsinfrastruktur und führt zu Umtrainingsverzögerungen
Ressourcenbeschränkungen unter Deployment-Bedingungen machen traditionelle Methoden schwer umsetzbar
Vorschlag eines systemzentrierten Paradigmas für kontinuierliches Lernen: Verlagerung des Anpassungsschwerpunkts von Modellparametern auf systemische Orchestrierung
Entwurf der ATLAS-Dual-Agent-Architektur: Ermöglicht gradientenfreie Anpassung während der Inferenz
Ziel: Erreichung von Anpassungseffizienz – Maximierung der Aufgabenerfolgsquote bei gleichzeitiger Minimierung der Rechenkosten durch Inferenz-Zeit-Orchestrierung statt Parameteraktualisierung.
Eingabe: Kontinuierliche Aufgabensequenzen, jede mit Zustand, Aktion und Beobachtung
Ausgabe: Verbesserte Aufgabenausführungsstrategie und Effizienzsteigerung
Einschränkungen: Keine Gradientenaktualisierungen, reine Inferenz-Zeit-Anpassung
Paradigmatische Innovation: Der Übergang vom modellzentrierten zum systemzentrierten Paradigma des kontinuierlichen Lernens hat wichtigen theoretischen Wert
Hohe Praktikabilität: Erfordert keine spezialisierte Hardware oder Umtraining, einfach auf Standard-Inferenzinfrastruktur einsetzbar
Umfassende Experimente: Validierung auf echten Benchmarks mit detaillierten Ablationsstudien und Fallstudien
Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen wie kontinuierliches Lernen, Prompt-Optimierung, Retrieval-Augmented-Systeme und Gedächtnismechanismen, einschließlich:
Kirkpatrick et al. (2017) - Überwindung katastrophalen Vergessens in neuronalen Netzen
Hu et al. (2021) - LoRA Low-Rank-Adaptationsmethode
Lewis et al. (2020) - Retrieval-Augmented Generation
Shinn et al. (2023) - Reflexion Sprachagenten
Wu et al. (2025) - ExCyTIn-Bench-Benchmark
Dieses Paper stellt einen wichtigen Paradigmenwechsel im Bereich des kontinuierlichen Lernens dar, vom traditionellen modellzentrierten zum systemzentrierten Ansatz, mit wichtigem theoretischen Wert und praktischer Bedeutung. Obwohl es Raum für Verbesserungen in der Bewertungsbreite und theoretischen Analyse gibt, machen seine Innovativität und Praktikabilität es zu einem wichtigen Beitrag in diesem Bereich.