2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic

Kontinuierliches Lernen, nicht Training: Online-Anpassung für Agenten

Grundinformationen

  • Paper-ID: 2511.01093
  • Titel: Continual Learning, Not Training: Online Adaptation For Agents
  • Autoren: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
  • Klassifizierung: cs.LG cs.AI
  • Veröffentlichungsdatum: 4. November 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2511.01093

Zusammenfassung

Traditionelle Methoden des kontinuierlichen Lernens (CL) bekämpfen katastrophales Vergessen hauptsächlich durch gradientenbasiertes Umtraining, was sich jedoch für Deployagenten, die Echtzeitanpassung erfordern, nicht eignet. Dieses Paper stellt ATLAS (Adaptive Teaching and Learning System) vor – eine Dual-Agent-Architektur, die Inferenz (Teacher) von Ausführung (Student) entkoppelt und persistentes Lerngedächtnis mit destillierter Erfahrungsanleitung kombiniert. Das System passt Operationsstrategien während der Inferenz dynamisch an und ermöglicht gradientenfreies kontinuierliches Lernen, wobei der Anpassungsschwerpunkt von Modellparametern auf systemische Orchestrierung verlagert wird. In Microsofts ExCyTIn-Bench-Benchmark erreicht ATLAS mit GPT-4-mini als Student eine Erfolgsquote von 54,1%, was 13% über dem größeren GPT-4(High) liegt, bei 86% niedrigeren Kosten.

Forschungshintergrund und Motivation

Kernprobleme

  1. Widerspruch zwischen Echtzeitanpassung und Offline-Training: Bereitgestellte Sprachmodell-Agenten müssen sich kontinuierlich in dynamischen Umgebungen anpassen, aber ihr Kernwissen bleibt nach dem Vortraining statisch
  2. Einschränkungen traditionellen kontinuierlichen Lernens: Bestehende CL-Methoden sind überabhängig von gradientenbasierten Gewichtsaktualisierungen, erfordern spezialisierte Trainingsschleifen, Hardware und Datenkumulation und können keine Inferenz-Zeit-Anpassung bieten

Bedeutung des Problems

  • In komplexen adaptiven Systemen entwickelt sich die Umgebung kontinuierlich weiter; wenn ein Modell das Offline-Training für eine Konfiguration abgeschlossen hat, kann sich das Echtzeitsystem bereits geändert haben
  • Backpropagation erfordert selbst in effizienten Formen (wie LoRA) spezialisierte Trainingsinfrastruktur und führt zu Umtrainingsverzögerungen
  • Ressourcenbeschränkungen unter Deployment-Bedingungen machen traditionelle Methoden schwer umsetzbar

Einschränkungen bestehender Methoden

  1. Trainingsbasierte Methoden: Leiden unter katastrophalem Vergessen, erfordern rechenintensive Gradientenaktualisierungen
  2. Prompt-Optimierungstechniken: Erzeugen statische Anweisungen für Deployment, können sich nicht dynamisch entwickeln
  3. Retrieval-Augmented-Systeme: Führen Lookups durch statt Fähigkeitssynthese
  4. Agent-Gedächtnismechanismen: Speichern Erfahrungen passiv, extrahieren keine verallgemeinerbaren Kenntnisse

Kernbeiträge

  1. Vorschlag eines systemzentrierten Paradigmas für kontinuierliches Lernen: Verlagerung des Anpassungsschwerpunkts von Modellparametern auf systemische Orchestrierung
  2. Entwurf der ATLAS-Dual-Agent-Architektur: Ermöglicht gradientenfreie Anpassung während der Inferenz
  3. Etablierung persistenten Lerngedächtnisses (PLM): Speichert destillierte Erfahrungsanleitung und unterstützt aufgabenübergreifende Übertragung
  4. Validierung auf ExCyTIn-Bench: Kleinere Modelle übertreffen größere Modelle bei erheblich reduzierten Kosten
  5. Erzeugung kausal annotierter Trajektorien: Liefert wertvolle Daten für das Training expliziter Weltmodelle

Methodische Details

Aufgabendefinition

Ziel: Erreichung von Anpassungseffizienz – Maximierung der Aufgabenerfolgsquote bei gleichzeitiger Minimierung der Rechenkosten durch Inferenz-Zeit-Orchestrierung statt Parameteraktualisierung.

Eingabe: Kontinuierliche Aufgabensequenzen, jede mit Zustand, Aktion und Beobachtung Ausgabe: Verbesserte Aufgabenausführungsstrategie und Effizienzsteigerung Einschränkungen: Keine Gradientenaktualisierungen, reine Inferenz-Zeit-Anpassung

Modellarchitektur

1. Dual-Agent-Design

  • Teacher-Agent: Typischerweise stärker, verantwortlich für Inferenz und Anleitung
  • Student-Agent: Führt Aufgaben aus, erhält Überwachung und Anleitung vom Teacher
  • Orchestrierungsschicht: Verwaltet Teacher-Student-Interaktion, passt Operationsstrategien dynamisch an

2. Kernkomponenten

Persistentes Lerngedächtnis (PLM):

  • Speichert vollständige Ausführungstrajektorien, Teacher-Anleitung und relevante Bewertungen
  • Indexiert nach Aufgabenkontext
  • Unterstützt leichtgewichtige Destillationsprozesse zur Extraktion umsetzbarer Anleitung

Bewertungssystem:

  • Zweischichtiges integriertes Bewertungsdesign
  • Mehrere schnelle Bewerter bewerten unabhängig
  • Wenn Varianz oder Unsicherheit Schwellenwerte überschreitet, integriert ein starker Schiedsrichter und gibt endgültige Bewertung

Lernmotor:

  • Kompilierung von Teacher-Handbüchern: Prinzipien, Fehlermuster, Diagnose und Stoppbedingungen
  • Erzeugung von Student-Handbüchern: Konkrete Aktionsmuster, Werkzeugplanung, Schutzmaßnahmen und Erfolgsprüfungen

3. Inferenz-Zeit-Lernschleife

1. Aufgabenausführung: Student versucht Aufgabe, erzeugt Zustand-Aktion-Beobachtungs-Trajektorie
2. Anleitungsvalidierung: Teacher beobachtet Student-Trajektorie, bietet prinzipiengestützte Anleitung basierend auf Ergebnis
3. Lernpersistierung: Erfasst vollständige Trajektorie, Anleitung und Bewertung in PLM
4. Adaptive Anpassung: Ruft relevante Lernhistorie in nachfolgenden ähnlichen Aufgaben ab, passt Strategie dynamisch an

Technische Innovationen

  1. Gradientenfreie Anpassung: Vollständig während der Inferenz, keine Modellgewichtsaktualisierungen erforderlich
  2. Gedächtnisgesteuerte Orchestrierung: Nutzt aggregierte Lernhistorie zur dynamischen Anpassung von Operationsstrategien
  3. Getrennte Architektur: Teacher für Inferenz, Student für Ausführung, realisiert spezialisierte Arbeitsteilung
  4. Destillierte Erfahrungsübertragung (DET): Wandelt vergangene Interaktionen in wiederverwendbare Lernartefakte um

Experimentelle Einrichtung

Datensätze

ExCyTIn-Bench: Microsofts Cyber-Threat-Investigation-Benchmark

  • Incident #5: 98 Abfragen in konsistentem Szenario
  • Incident #55: 100 Abfragen zur Validierung aufgabenübergreifender Übertragung
  • Bietet zustandsbewusste Inferenzbewertung durch Trajektorienbewertung statt statischer Tests

Bewertungsmetriken

  1. Aufgabenerfolgsquote: Binäre Erfolgsquote unter Verwendung von Benchmark-Standardkriterien (≥0,4 Schwellenwert)
  2. Effizienz: Durchschnittliche Token-Ausgaben pro Sitzung
  3. Kosteneffizienz: Dollarkosten pro Frage basierend auf OpenAI-Preisgestaltung

Vergleichsmethoden

  1. Interne Baseline: GPT-4-mini ohne Handbücher oder Teacher-Anleitung
  2. Externe Baseline: In ExCyTIn-Bench-Dokumentation berichtete GPT-4(Reasoning=High)-Leistung
  3. Aufgabenübergreifende Baseline: Offizielle GPT-4-mini-Baseline auf Incident #55

Implementierungsdetails

  • Seed-Phase: GPT-4 als Teacher, GPT-4-mini als Student
  • Evaluierungsphase: Nachfolgende Aufgaben nach Initialisierung durch semantische Ähnlichkeitsabfrage relevanter Handbücher
  • Bewertungskonfiguration: Zweischichtiger integrierter Bewerter, prinzipiengestützte Bewertung
  • Gedächtnisabfrage: Semantische Übereinstimmung basierend auf Aufgabenkontext

Experimentelle Ergebnisse

Hauptergebnisse

Incident #5-Leistung:

  • ATLAS-Erfolgsquote: 54,1% (53/98 Aufgaben)
  • Gegenüber GPT-4(High)-Baseline 48,0%: +6,1 Prozentpunkte
  • Gegenüber GPT-4-mini-Baseline 33,7%: +20,4 Prozentpunkte
  • Kostensenkung: ~86% (0,024vs.0,024 vs. 0,174 pro Frage)

Effizienzsteigerung:

  • Durchschnittliche Token-Ausgaben: 78.118 (45% Reduktion gegenüber Student-only 141.660)
  • Phasenweise Verbesserung:
    • Phase 1 (Aufgaben 1-25): 100.810 Token (-28,8%)
    • Phase 2 (Aufgaben 26-60): 73.980 Token (-47,8%)
    • Phase 3 (Aufgaben 61-98): 67.002 Token (-52,7%)

Aufgabenübergreifende Transferexperimente

Incident #55-Validierung:

  • Baseline-Genauigkeit: 28% (28/100)
  • Mit gefrorenem Handbuch: 41% (41/100), 46% Verbesserung
  • Ausgabezusammensetzungsänderungen:
    • Nicht-Reasoning-Token um 52,1% reduziert
    • Reasoning-Token um 2.135 erhöht
    • Von ausschweifender Exploration zu strukturiertem Reasoning

Ablationsstudien

Lernfortschrittsanalyse:

  • 69 von 98 Aufgabentrajektorien enthielten abgerufene Anleitung
  • 68 injizierte Fähigkeiten, die im ursprünglichen Prompt fehlten
  • Zeigt, dass Handbücher abstrakte Verfahren statt aufgabenspezifischer Vorlagen erfassen

Prozessuntersuchungs-Kostenanalyse:

  • Frühe drei Prozessfragen: durchschnittlich 217.700 Token
  • Späte drei Prozessfragen: durchschnittlich 48.800 Token
  • Beweist, dass dasselbe Handbuch verschiedene Prozessforensik-Aufgaben verkürzen kann

Fallstudien

Incident #5-Sitzung 71-Beispiel:

  • Anfängliches Versagen: Student validierte Antwort nicht, fehlte systematische Untersuchungsstrategie
  • Teacher-Intervention: Bietet prinzipiengestützte Anleitung (Telemetriequellen aufzählen, Tabellen priorisieren, SID validieren)
  • Erfolgreiche Wiederausführung: Systematischer Ansatz, korrekte SID-Extraktion, weniger Token-Verbrauch
  • Vergleich: Autonome Ausführung verbrauchte 304.389 Token ohne Erfolg, zeigt Wert des abgerufenen Handbuchs

Verwandte Arbeiten

Trainingsbasierte Methoden

  • LoRA, QLoRA, DoRA und andere parametereffiziente Methoden erfordern weiterhin Gradientenoptimierung
  • "Schnell-Langsam"-Dual-Speed-Lernsysteme erfordern weiterhin Gradientenberechnung
  • Stehen vor Kompromissen zwischen Lernrate und Vergessen

Prompt-Optimierung

  • Prompt Tuning, DSPy, GEPA und andere Methoden optimieren statische Prompts
  • Können sich nach Deployment nicht an verändernde Umgebungsbedingungen anpassen
  • ATLAS realisiert historienbasierte dynamische Ausführungsstrategienanpassung

Retrieval-Systeme

  • RAG, Self-RAG und andere erweitern Inhaltsebenen-Wissen
  • ATLAS konzentriert sich auf Verfeinerung strategischer Verhaltensrichtlinien
  • Realisiert Fähigkeitserwerb statt Inhaltserweiterung

Gedächtnismechanismen

  • Reflexion, LATS, Voyager, MemGPT und andere speichern Erfahrungen passiv
  • Fehlen aktive Komprimierungs- und Verallgemeinerungsmechanismen
  • ATLAS realisiert aktive Lernsubstrate, die Programmlernen unterstützen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Machbarkeit systemzentrierten CL: Beweist gradientenfreies kontinuierliches Lernen als gangbarer Weg für adaptive, einsetzbare KI-Systeme
  2. Pareto-Grenze von Effizienz und Genauigkeit: Erreicht höhere Genauigkeit und niedrigere Rechenkosten durch Inferenz-Zeit-Anpassung
  3. Aufgabenübergreifende Verallgemeinerungsfähigkeit: Gefrorene Handbücher verbessern Leistung bei neuen Vorfällen erheblich, ohne Umtraining
  4. Weltmodell-Daten-Engine: Erzeugt kausal annotierte Trajektorien, liefert Wert für Weltmodell-Training

Einschränkungen

  1. Architekturabhängigkeit: Erfordert Dual-Agent-Setup, erhöht Systemkomplexität
  2. Domänenspezifität: Hauptsächlich in Cybersecurity-Investigation validiert, Verallgemeinerbarkeit erfordert weitere Validierung
  3. Gedächtnismanagement: Gedächtnismanagement und Abrufeffizienz mit wachsender Erfahrung
  4. Bewertungsmethoden: Statische Benchmarks reichen nicht aus, um dynamische Lernsysteme zu bewerten

Zukünftige Richtungen

  1. Architektur-Explorationen: Vergleich von Multi-Agent-Integration, hierarchischen Gedächtnisstrukturen und anderen Alternativdesigns
  2. Wissensverallgemeinerung: Untersuchung von Prinzipientransfer über Modelle und Aufgaben hinweg
  3. Adaptive Bewertungsmethoden: Entwicklung dynamischer Benchmarks, die sich mit Agenten anpassen
  4. Hybrides Online-Offline-Lernen: Integration von Weltmodell-Training zurück in Echtzeitsysteme

Tiefgreifende Bewertung

Stärken

  1. Paradigmatische Innovation: Der Übergang vom modellzentrierten zum systemzentrierten Paradigma des kontinuierlichen Lernens hat wichtigen theoretischen Wert
  2. Hohe Praktikabilität: Erfordert keine spezialisierte Hardware oder Umtraining, einfach auf Standard-Inferenzinfrastruktur einsetzbar
  3. Umfassende Experimente: Validierung auf echten Benchmarks mit detaillierten Ablationsstudien und Fallstudien
  4. Signifikante Kosteneffizienz: Kleinere Modelle übertreffen größere Modelle bei drastisch reduzierten Kosten
  5. Gute Reproduzierbarkeit: Vollständige Datensätze und Implementierungsdetails bereitgestellt

Mängel

  1. Bewertungsbeschränkungen: Hauptsächlich in einzelner Domäne (Cybersecurity) validiert, fehlt breitere Domänenvalidierung
  2. Skalierbarkeitsprobleme: Mit zunehmenden Aufgaben können Gedächtnisabfrage und -verwaltung zu Engpässen werden
  3. Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Systemkonvergenz und Stabilität
  4. Teacher-Abhängigkeit: Erfordert stärkeres Teacher-Modell, könnte praktische Anwendungsszenarien begrenzen
  5. Langzeitlernen: Unzureichende Erforschung der Leistung in extrem langen Aufgabensequenzen

Einfluss

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung und Methodologie für kontinuierliches Lernen
  2. Praktischer Wert: Bietet praktikable Anpassungslösung für tatsächlich bereitgestellte KI-Systeme
  3. Inspirationswert: Systemische Anpassungsideen könnten andere KI-Systemdesigns inspirieren
  4. Datenwert: Erzeugte kausal annotierte Daten haben wichtigen Wert für Weltmodellforschung

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Deployment-Szenarien, in denen Modellumtraining nicht möglich ist
  2. Dynamische Aufgabenumgebungen: Szenarien, die schnelle Anpassung an sich ändernde Aufgabentypen und Anforderungen erfordern
  3. Kostensensitive Anwendungen: Anwendungen, die optimales Gleichgewicht zwischen Leistung und Kosten benötigen
  4. Spezialisierte Domänenanwendungen: Wie Cybersecurity, Fehlererkennung und andere Domänen, die Fachwissen erfordern

Referenzen

Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen wie kontinuierliches Lernen, Prompt-Optimierung, Retrieval-Augmented-Systeme und Gedächtnismechanismen, einschließlich:

  • Kirkpatrick et al. (2017) - Überwindung katastrophalen Vergessens in neuronalen Netzen
  • Hu et al. (2021) - LoRA Low-Rank-Adaptationsmethode
  • Lewis et al. (2020) - Retrieval-Augmented Generation
  • Shinn et al. (2023) - Reflexion Sprachagenten
  • Wu et al. (2025) - ExCyTIn-Bench-Benchmark

Dieses Paper stellt einen wichtigen Paradigmenwechsel im Bereich des kontinuierlichen Lernens dar, vom traditionellen modellzentrierten zum systemzentrierten Ansatz, mit wichtigem theoretischen Wert und praktischer Bedeutung. Obwohl es Raum für Verbesserungen in der Bewertungsbreite und theoretischen Analyse gibt, machen seine Innovativität und Praktikabilität es zu einem wichtigen Beitrag in diesem Bereich.