2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes

Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.

academic

Kontinuierliches Lernen, nicht Training: Online-Anpassung für Agenten

Grundinformationen

Paper-ID: 2511.01093
Titel: Continual Learning, Not Training: Online Adaptation For Agents
Autoren: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
Klassifizierung: cs.LG cs.AI
Veröffentlichungsdatum: 4. November 2025 (Preprint)
Paper-Link: https://arxiv.org/abs/2511.01093

Zusammenfassung

Traditionelle Methoden des kontinuierlichen Lernens (CL) bekämpfen katastrophales Vergessen hauptsächlich durch gradientenbasiertes Umtraining, was sich jedoch für Deployagenten, die Echtzeitanpassung erfordern, nicht eignet. Dieses Paper stellt ATLAS (Adaptive Teaching and Learning System) vor – eine Dual-Agent-Architektur, die Inferenz (Teacher) von Ausführung (Student) entkoppelt und persistentes Lerngedächtnis mit destillierter Erfahrungsanleitung kombiniert. Das System passt Operationsstrategien während der Inferenz dynamisch an und ermöglicht gradientenfreies kontinuierliches Lernen, wobei der Anpassungsschwerpunkt von Modellparametern auf systemische Orchestrierung verlagert wird. In Microsofts ExCyTIn-Bench-Benchmark erreicht ATLAS mit GPT-4-mini als Student eine Erfolgsquote von 54,1%, was 13% über dem größeren GPT-4(High) liegt, bei 86% niedrigeren Kosten.

Forschungshintergrund und Motivation

Kernprobleme

Widerspruch zwischen Echtzeitanpassung und Offline-Training: Bereitgestellte Sprachmodell-Agenten müssen sich kontinuierlich in dynamischen Umgebungen anpassen, aber ihr Kernwissen bleibt nach dem Vortraining statisch
Einschränkungen traditionellen kontinuierlichen Lernens: Bestehende CL-Methoden sind überabhängig von gradientenbasierten Gewichtsaktualisierungen, erfordern spezialisierte Trainingsschleifen, Hardware und Datenkumulation und können keine Inferenz-Zeit-Anpassung bieten

Bedeutung des Problems

In komplexen adaptiven Systemen entwickelt sich die Umgebung kontinuierlich weiter; wenn ein Modell das Offline-Training für eine Konfiguration abgeschlossen hat, kann sich das Echtzeitsystem bereits geändert haben
Backpropagation erfordert selbst in effizienten Formen (wie LoRA) spezialisierte Trainingsinfrastruktur und führt zu Umtrainingsverzögerungen
Ressourcenbeschränkungen unter Deployment-Bedingungen machen traditionelle Methoden schwer umsetzbar

Einschränkungen bestehender Methoden

Trainingsbasierte Methoden: Leiden unter katastrophalem Vergessen, erfordern rechenintensive Gradientenaktualisierungen
Prompt-Optimierungstechniken: Erzeugen statische Anweisungen für Deployment, können sich nicht dynamisch entwickeln
Retrieval-Augmented-Systeme: Führen Lookups durch statt Fähigkeitssynthese
Agent-Gedächtnismechanismen: Speichern Erfahrungen passiv, extrahieren keine verallgemeinerbaren Kenntnisse

Kernbeiträge

Vorschlag eines systemzentrierten Paradigmas für kontinuierliches Lernen: Verlagerung des Anpassungsschwerpunkts von Modellparametern auf systemische Orchestrierung
Entwurf der ATLAS-Dual-Agent-Architektur: Ermöglicht gradientenfreie Anpassung während der Inferenz
Etablierung persistenten Lerngedächtnisses (PLM): Speichert destillierte Erfahrungsanleitung und unterstützt aufgabenübergreifende Übertragung
Validierung auf ExCyTIn-Bench: Kleinere Modelle übertreffen größere Modelle bei erheblich reduzierten Kosten
Erzeugung kausal annotierter Trajektorien: Liefert wertvolle Daten für das Training expliziter Weltmodelle

Methodische Details

Aufgabendefinition

Ziel: Erreichung von Anpassungseffizienz – Maximierung der Aufgabenerfolgsquote bei gleichzeitiger Minimierung der Rechenkosten durch Inferenz-Zeit-Orchestrierung statt Parameteraktualisierung.

Eingabe: Kontinuierliche Aufgabensequenzen, jede mit Zustand, Aktion und Beobachtung Ausgabe: Verbesserte Aufgabenausführungsstrategie und Effizienzsteigerung Einschränkungen: Keine Gradientenaktualisierungen, reine Inferenz-Zeit-Anpassung

Modellarchitektur

1. Dual-Agent-Design

Teacher-Agent: Typischerweise stärker, verantwortlich für Inferenz und Anleitung
Student-Agent: Führt Aufgaben aus, erhält Überwachung und Anleitung vom Teacher
Orchestrierungsschicht: Verwaltet Teacher-Student-Interaktion, passt Operationsstrategien dynamisch an

2. Kernkomponenten

Persistentes Lerngedächtnis (PLM):

Speichert vollständige Ausführungstrajektorien, Teacher-Anleitung und relevante Bewertungen
Indexiert nach Aufgabenkontext
Unterstützt leichtgewichtige Destillationsprozesse zur Extraktion umsetzbarer Anleitung

Bewertungssystem:

Zweischichtiges integriertes Bewertungsdesign
Mehrere schnelle Bewerter bewerten unabhängig
Wenn Varianz oder Unsicherheit Schwellenwerte überschreitet, integriert ein starker Schiedsrichter und gibt endgültige Bewertung

Lernmotor:

Kompilierung von Teacher-Handbüchern: Prinzipien, Fehlermuster, Diagnose und Stoppbedingungen
Erzeugung von Student-Handbüchern: Konkrete Aktionsmuster, Werkzeugplanung, Schutzmaßnahmen und Erfolgsprüfungen

3. Inferenz-Zeit-Lernschleife

1. Aufgabenausführung: Student versucht Aufgabe, erzeugt Zustand-Aktion-Beobachtungs-Trajektorie
2. Anleitungsvalidierung: Teacher beobachtet Student-Trajektorie, bietet prinzipiengestützte Anleitung basierend auf Ergebnis
3. Lernpersistierung: Erfasst vollständige Trajektorie, Anleitung und Bewertung in PLM
4. Adaptive Anpassung: Ruft relevante Lernhistorie in nachfolgenden ähnlichen Aufgaben ab, passt Strategie dynamisch an

Technische Innovationen

Gradientenfreie Anpassung: Vollständig während der Inferenz, keine Modellgewichtsaktualisierungen erforderlich
Gedächtnisgesteuerte Orchestrierung: Nutzt aggregierte Lernhistorie zur dynamischen Anpassung von Operationsstrategien
Getrennte Architektur: Teacher für Inferenz, Student für Ausführung, realisiert spezialisierte Arbeitsteilung
Destillierte Erfahrungsübertragung (DET): Wandelt vergangene Interaktionen in wiederverwendbare Lernartefakte um

Experimentelle Einrichtung

Datensätze

ExCyTIn-Bench: Microsofts Cyber-Threat-Investigation-Benchmark

Incident #5: 98 Abfragen in konsistentem Szenario
Incident #55: 100 Abfragen zur Validierung aufgabenübergreifender Übertragung
Bietet zustandsbewusste Inferenzbewertung durch Trajektorienbewertung statt statischer Tests

Bewertungsmetriken

Aufgabenerfolgsquote: Binäre Erfolgsquote unter Verwendung von Benchmark-Standardkriterien (≥0,4 Schwellenwert)
Effizienz: Durchschnittliche Token-Ausgaben pro Sitzung
Kosteneffizienz: Dollarkosten pro Frage basierend auf OpenAI-Preisgestaltung

Vergleichsmethoden

Interne Baseline: GPT-4-mini ohne Handbücher oder Teacher-Anleitung
Externe Baseline: In ExCyTIn-Bench-Dokumentation berichtete GPT-4(Reasoning=High)-Leistung
Aufgabenübergreifende Baseline: Offizielle GPT-4-mini-Baseline auf Incident #55

Implementierungsdetails

Seed-Phase: GPT-4 als Teacher, GPT-4-mini als Student
Evaluierungsphase: Nachfolgende Aufgaben nach Initialisierung durch semantische Ähnlichkeitsabfrage relevanter Handbücher
Bewertungskonfiguration: Zweischichtiger integrierter Bewerter, prinzipiengestützte Bewertung
Gedächtnisabfrage: Semantische Übereinstimmung basierend auf Aufgabenkontext

Experimentelle Ergebnisse

Hauptergebnisse

Incident #5-Leistung:

ATLAS-Erfolgsquote: 54,1% (53/98 Aufgaben)
Gegenüber GPT-4(High)-Baseline 48,0%: +6,1 Prozentpunkte
Gegenüber GPT-4-mini-Baseline 33,7%: +20,4 Prozentpunkte
Kostensenkung: ~86% ( $0,024 vs.$ 0,174 pro Frage)

Effizienzsteigerung:

Durchschnittliche Token-Ausgaben: 78.118 (45% Reduktion gegenüber Student-only 141.660)
Phasenweise Verbesserung:
- Phase 1 (Aufgaben 1-25): 100.810 Token (-28,8%)
- Phase 2 (Aufgaben 26-60): 73.980 Token (-47,8%)
- Phase 3 (Aufgaben 61-98): 67.002 Token (-52,7%)

Aufgabenübergreifende Transferexperimente

Incident #55-Validierung:

Baseline-Genauigkeit: 28% (28/100)
Mit gefrorenem Handbuch: 41% (41/100), 46% Verbesserung
Ausgabezusammensetzungsänderungen:
- Nicht-Reasoning-Token um 52,1% reduziert
- Reasoning-Token um 2.135 erhöht
- Von ausschweifender Exploration zu strukturiertem Reasoning

Ablationsstudien

Lernfortschrittsanalyse:

69 von 98 Aufgabentrajektorien enthielten abgerufene Anleitung
68 injizierte Fähigkeiten, die im ursprünglichen Prompt fehlten
Zeigt, dass Handbücher abstrakte Verfahren statt aufgabenspezifischer Vorlagen erfassen

Prozessuntersuchungs-Kostenanalyse:

Frühe drei Prozessfragen: durchschnittlich 217.700 Token
Späte drei Prozessfragen: durchschnittlich 48.800 Token
Beweist, dass dasselbe Handbuch verschiedene Prozessforensik-Aufgaben verkürzen kann

Fallstudien

Incident #5-Sitzung 71-Beispiel:

Anfängliches Versagen: Student validierte Antwort nicht, fehlte systematische Untersuchungsstrategie
Teacher-Intervention: Bietet prinzipiengestützte Anleitung (Telemetriequellen aufzählen, Tabellen priorisieren, SID validieren)
Erfolgreiche Wiederausführung: Systematischer Ansatz, korrekte SID-Extraktion, weniger Token-Verbrauch
Vergleich: Autonome Ausführung verbrauchte 304.389 Token ohne Erfolg, zeigt Wert des abgerufenen Handbuchs

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Machbarkeit systemzentrierten CL: Beweist gradientenfreies kontinuierliches Lernen als gangbarer Weg für adaptive, einsetzbare KI-Systeme
Pareto-Grenze von Effizienz und Genauigkeit: Erreicht höhere Genauigkeit und niedrigere Rechenkosten durch Inferenz-Zeit-Anpassung
Aufgabenübergreifende Verallgemeinerungsfähigkeit: Gefrorene Handbücher verbessern Leistung bei neuen Vorfällen erheblich, ohne Umtraining
Weltmodell-Daten-Engine: Erzeugt kausal annotierte Trajektorien, liefert Wert für Weltmodell-Training

Einschränkungen

Architekturabhängigkeit: Erfordert Dual-Agent-Setup, erhöht Systemkomplexität
Domänenspezifität: Hauptsächlich in Cybersecurity-Investigation validiert, Verallgemeinerbarkeit erfordert weitere Validierung
Gedächtnismanagement: Gedächtnismanagement und Abrufeffizienz mit wachsender Erfahrung
Bewertungsmethoden: Statische Benchmarks reichen nicht aus, um dynamische Lernsysteme zu bewerten

Zukünftige Richtungen

Architektur-Explorationen: Vergleich von Multi-Agent-Integration, hierarchischen Gedächtnisstrukturen und anderen Alternativdesigns
Wissensverallgemeinerung: Untersuchung von Prinzipientransfer über Modelle und Aufgaben hinweg
Adaptive Bewertungsmethoden: Entwicklung dynamischer Benchmarks, die sich mit Agenten anpassen
Hybrides Online-Offline-Lernen: Integration von Weltmodell-Training zurück in Echtzeitsysteme

Tiefgreifende Bewertung

Stärken

Paradigmatische Innovation: Der Übergang vom modellzentrierten zum systemzentrierten Paradigma des kontinuierlichen Lernens hat wichtigen theoretischen Wert
Hohe Praktikabilität: Erfordert keine spezialisierte Hardware oder Umtraining, einfach auf Standard-Inferenzinfrastruktur einsetzbar
Umfassende Experimente: Validierung auf echten Benchmarks mit detaillierten Ablationsstudien und Fallstudien
Signifikante Kosteneffizienz: Kleinere Modelle übertreffen größere Modelle bei drastisch reduzierten Kosten
Gute Reproduzierbarkeit: Vollständige Datensätze und Implementierungsdetails bereitgestellt

Mängel

Bewertungsbeschränkungen: Hauptsächlich in einzelner Domäne (Cybersecurity) validiert, fehlt breitere Domänenvalidierung
Skalierbarkeitsprobleme: Mit zunehmenden Aufgaben können Gedächtnisabfrage und -verwaltung zu Engpässen werden
Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Systemkonvergenz und Stabilität
Teacher-Abhängigkeit: Erfordert stärkeres Teacher-Modell, könnte praktische Anwendungsszenarien begrenzen
Langzeitlernen: Unzureichende Erforschung der Leistung in extrem langen Aufgabensequenzen

Einfluss

Akademischer Beitrag: Bietet neue Forschungsrichtung und Methodologie für kontinuierliches Lernen
Praktischer Wert: Bietet praktikable Anpassungslösung für tatsächlich bereitgestellte KI-Systeme
Inspirationswert: Systemische Anpassungsideen könnten andere KI-Systemdesigns inspirieren
Datenwert: Erzeugte kausal annotierte Daten haben wichtigen Wert für Weltmodellforschung

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Deployment-Szenarien, in denen Modellumtraining nicht möglich ist
Dynamische Aufgabenumgebungen: Szenarien, die schnelle Anpassung an sich ändernde Aufgabentypen und Anforderungen erfordern
Kostensensitive Anwendungen: Anwendungen, die optimales Gleichgewicht zwischen Leistung und Kosten benötigen
Spezialisierte Domänenanwendungen: Wie Cybersecurity, Fehlererkennung und andere Domänen, die Fachwissen erfordern

Referenzen

Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen wie kontinuierliches Lernen, Prompt-Optimierung, Retrieval-Augmented-Systeme und Gedächtnismechanismen, einschließlich:

Kirkpatrick et al. (2017) - Überwindung katastrophalen Vergessens in neuronalen Netzen
Hu et al. (2021) - LoRA Low-Rank-Adaptationsmethode
Lewis et al. (2020) - Retrieval-Augmented Generation
Shinn et al. (2023) - Reflexion Sprachagenten
Wu et al. (2025) - ExCyTIn-Bench-Benchmark

Dieses Paper stellt einen wichtigen Paradigmenwechsel im Bereich des kontinuierlichen Lernens dar, vom traditionellen modellzentrierten zum systemzentrierten Ansatz, mit wichtigem theoretischen Wert und praktischer Bedeutung. Obwohl es Raum für Verbesserungen in der Bewertungsbreite und theoretischen Analyse gibt, machen seine Innovativität und Praktikabilität es zu einem wichtigen Beitrag in diesem Bereich.