2025-11-24T19:25:18.115923

KnowThyself: An Agentic Assistant for LLM Interpretability

Prasai, Du, Zhang et al.

We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.

academic

KnowThyself: Ein agentengestützter Assistent für LLM-Interpretierbarkeit

Grundinformationen

Paper-ID: 2511.03878
Titel: KnowThyself: An Agentic Assistant for LLM Interpretability
Autoren: Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)
Klassifizierung: cs.AI, cs.IR, cs.LG, cs.MA
Veröffentlichungszeit/Konferenz: AAAI 2026 (40. AAAI-Konferenz über Künstliche Intelligenz - Demonstration Track)
Paper-Link: https://arxiv.org/abs/2511.03878
Code-Repository: https://github.com/spygaurad/KnowThyself

Zusammenfassung

Dieses Papier entwickelt KnowThyself, einen agentengestützten Assistenten zur Förderung der Interpretierbarkeit großer Sprachmodelle (LLMs). Obwohl bestehende Werkzeuge nützliche Erkenntnisse bieten, sind sie fragmentiert und erfordern umfangreiche Codierungsarbeit. KnowThyself integriert diese Fähigkeiten in eine chatbasierte Schnittstelle, in der Benutzer Modelle hochladen, Fragen in natürlicher Sprache stellen und interaktive Visualisierungen mit erklärenden Interpretationen erhalten können. Der Kern besteht aus: einem Orchestrator-LLM, der zunächst Benutzerabfragen umstrukturiert, einem Agenten-Router, der Abfragen an spezialisierte Module weiterleitet, und einer abschließenden Kontextualisierung der Ausgaben zu kohärenten Erklärungen. Dieses Design senkt die technischen Hürden und bietet eine skalierbare Plattform zur Überprüfung von LLMs. Durch die Einbettung des gesamten Prozesses in einen Gesprächsworkflow bietet KnowThyself eine solide Grundlage für zugängliche LLM-Interpretierbarkeit.

Forschungshintergrund und Motivation

Kernproblem

Obwohl große Sprachmodelle bei Sprachverständnis, Reasoning und Problemlösung hervorragende Leistungen zeigen, macht ihre Black-Box-Natur die internen Entscheidungsprozesse schwer zu interpretieren, was Bedenken hinsichtlich Transparenz, Vertrauen und Rechenschaftspflicht aufwirft.

Bedeutung des Problems

Transparenzanforderung: Mit der weit verbreiteten Bereitstellung von LLMs in kritischen Anwendungen wird das Verständnis ihrer Entscheidungsmechanismen entscheidend
Forschungs-Praxis-Kluft: Fortschritte in der Interpretierbarkeitsforschung hinken der rasanten Entwicklung von LLMs weit hinterher
Technische Hürden: Bestehende Werkzeuge erfordern umfangreiches technisches Fachwissen und begrenzen die Demokratisierung der Interpretierbarkeit

Einschränkungen bestehender Methoden

Fragmentierung: Bestehende LLM-Interpretierungsmethoden (wie Attributionsmethoden, Mechanismusanalyse) bieten zwar wertvolle Erkenntnisse, sind aber isoliert
Schwierige Verwendung: Erfordert umfangreiche Codierung mit hohen technischen Hürden
Mangelnde Integration: Bestehende Plattformen unterstützen weder dialoggestützte Exploration noch interaktive, dokumentierte Erklärungen
Technische Barrieren: Praktiker haben Schwierigkeiten, auf die neuesten Interpretierungstechniken zuzugreifen und diese zu nutzen

Forschungsmotivation

Überbrückung der Kluft zwischen Spitzenforschung zur Interpretierbarkeit und praktischen Anwendungen durch Multi-Agenten-Orchestrierung, modulare Architektur und interaktive Visualisierung, um eine einheitliche, zugängliche und skalierbare Plattform zu schaffen, die einem breiten Publikum die Teilnahme an aufstrebenden Erklärungstechniken ermöglicht.

Kernbeiträge

Die Hauptbeiträge dieses Papiers sind:

Multi-Agenten-Orchestrierungs-Framework: Vorschlag eines Frameworks zur Koordination umfassender Erklärungsaufgaben mit flexiblem Routing und kohärenter Erklärungsgenerierung
Modulare Architektur: Kapselung verschiedener Interpretationsmethoden als unabhängige Agenten mit nahtloser Integration neuer Werkzeuge und zukünftiger Skalierbarkeit
Interaktive Visualisierungsschnittstelle: Bereitstellung von Ausgaben mit natürlichsprachigen Erklärungen, die die Hürden für effektive Modellüberprüfung erheblich senken
Dialoggestützter Workflow: Einbettung des gesamten Erklärungsprozesses in einen Gesprächsfluss ohne Codierungsanforderungen für Modell-Upload, Abfragen und Ergebnisabruf

Methodische Details

Aufgabendefinition

Eingabe:

Vom Benutzer hochgeladenes LLM-Modell zur Interpretation
Abfrage in natürlicher Sprache (z.B. "Zeige mir, wie das Modell das Token 'sie' in einem Satz beachtet")

Ausgabe:

Interaktive Visualisierungsergebnisse
Natürlichsprachige Erklärungen mit Anleitung
Relevante Bewertungsmetriken (z.B. Bias-Scores)

Einschränkungen:

Aufrechterhaltung der Gesprächskohärenz und des Kontextverständnisses
Unterstützung flexibler Aufrufe verschiedener Interpretationsmethoden
Gewährleistung der Zugänglichkeit technischer Details

Modellarchitektur

KnowThyself verwendet ein vierschichtiges Architektur-Design:

1. Orchestrator-LLM

Funktion: Dient als Überwachungsmodell zur Verwaltung von Benutzerinteraktionen und Anleitung des Erklärungsprozesses
Spezifische Aufgaben:
- Umstrukturierung von Benutzerabfragen
- Generierung erforderlicher Unteraufgaben (z.B. Satzsynthese oder Werkzeugauswahl)
- Kontextualisierung von Zwischenergebnissen
- Generierung kohärenter natürlichsprachiger Erklärungen
Implementierung: Verwendung des Gemma3-27B-Modells
Funktion: Gewährleistung der Verständlichkeit komplexer Visualisierungen oder Bias-Metriken

2. Agenten-Router

Funktion: Verwendung von einbettungsbasierter Ähnlichkeitssuche zur Weiterleitung von Abfragen an spezialisierte Agenten
Routing-Mechanismus:
- Abgleich von Benutzerintention mit Agentenbeschreibungen
- Verwendung des von Ollama gehosteten nomic-embed-text-Modells für Einbettungen
- Gewährleistung der Effizienz bei gleichzeitiger Ausrichtung von Abfragen mit Werkzeugfähigkeiten
Erweiterbarkeit: Kann mit LLM-basiertem Routing erweitert werden, um komplexe Szenarien zu bewältigen

3. Spezialisierte Agenten

Das aktuelle System integriert vier Agenten:

a) BertViz-Agent

Funktion: Aufmerksamkeitsvisualisierung
Verwendung: Anzeige der Aufmerksamkeitsverteilung des Modells zwischen Token
Abhängigkeit: HuggingFace Transformers

b) TransformerLens-Agent

Funktion: Analyse feingranularer Aktivierungen auf Schicht- und Kopfebene
Verwendung: Tiefgehende Überprüfung des Verhaltens spezifischer Schichten und Aufmerksamkeitsköpfe
Abhängigkeit: HookedTransformer

c) RAG-Explainer-Agent

Funktion: Abruf relevanter Informationen aus Fachliteratur
Verwendung: Bereitstellung literaturgestützter Erklärungen
Technik: Verwendung von FAISS für Ähnlichkeitssuche mit indexierten Dokumenten

d) BiasEval-Agent

Funktion: Bewertung von Sicherheit und demografischen Unterschieden
Bewertungsmetriken:
- Toxicity (Toxizität): Verwendung des Real Toxicity Prompts-Datensatzes
- Regard (Einstellung): Verwendung des BOLD-Datensatzes zur Bewertung von Gefühlstendenzen gegenüber verschiedenen Gruppen
- HONEST: Bewertung schädlicher Satzergänzungen
Workflow: Modellabfrage, Datensatzstichprobenentnahme, Scoringberechnung

4. Dialoggestützte Schnittstelle

Funktion: Bereitstellung einer Chat-Schnittstelle zur Unterstützung von Modell-Upload, natürlichsprachigen Fragen und Ergebnisüberprüfung
Merkmale:
- Interaktive Visualisierung
- Keine technischen Fachkenntnisse erforderlich
- Unterstützung dialoggestützter Exploration

Technische Innovationen

1. Einheitlicher Orchestrierungsmechanismus

Innovation: Verwendung von LLM als Orchestrator zur einheitlichen Verwaltung des gesamten Erklärungsflusses
Vorteile: Integration fragmentierter Werkzeuge in einen einzigen Gesprächsfluss
Implementierung: Modellierung als gerichteter Graph mit LangGraph, Agenten teilen Zustand

2. Intelligentes Routing-System

Innovation: Abfrage-Werkzeug-Matching durch einbettungsbasierte Ähnlichkeitssuche
Begründung:
- Effizient: Vermeidung komplexer Regelsysteme
- Genau: Gewährleistung korrekten Routings durch semantische Ähnlichkeit
- Skalierbar: Upgrade zu LLM-Routing für komplexe Szenarien möglich

3. Modulare Plugin-Architektur

Innovation: Jeder Agent kapselt eine unabhängige Interpretationsmethode
Vorteile:
- Abhängigkeitsisolation: Abhängigkeiten verschiedener Werkzeuge beeinflussen sich nicht gegenseitig
- Leichte Erweiterung: Neue Werkzeuge können nahtlos integriert werden
- Unabhängige Entwicklung: Jedes Modul kann unabhängig gepflegt und aktualisiert werden

4. Kontextbewusste Erklärungsgenerierung

Innovation: Automatische Synthese erforderlicher Eingaben (z.B. Beispielsätze) durch Orchestrator und Generierung kontextualisierter Erklärungen
Wert: Reduzierung der Benutzerbelastung und Bereitstellung verständlicherer Ausgaben

Experimentelle Einrichtung

Modellkonfiguration

Vorinstallierte Benutzermodelle:
- GPT-2
- BERT
- LLaMA2-13B
Modell-Hosting: Große Modelle werden über Ollama gehostet, um Effizienz zu verbessern
Bereitstellungsmethode: Unterstützung lokaler Ausführung (wenn Ressourcen verfügbar), keine Abhängigkeit von Drittanbieter-APIs, Gewährleistung sicherer Analyse

Bewertungsmetriken

Bias-Bewertungsmetriken

Toxicity (Toxizität):
- Datensatz: Real Toxicity Prompts
- Bewertung: Toxizitätsniveau des vom Modell generierten Inhalts
Regard (Einstellung):
- Datensatz: BOLD (Bias in Open-ended Language Generation Dataset)
- Bewertung: Unterschiede in Gefühlstendenzen des Modells gegenüber verschiedenen demografischen Gruppen
- Ausgabe: Differenzscores für positive, negative, neutrale und andere Kategorien
HONEST:
- Bewertung: Ausmaß schädlicher Satzergänzungen in Sprachmodellen
- Verwendung: Messung potenzieller Schäden des Modells bei der Fortsetzung

Implementierungsdetails

Framework: LangGraph, modelliert als gerichteter Agentengraph
Einbettungsmodell: Von Ollama gehostetes nomic-embed-text
Orchestrierungsmodell: Gemma3-27B
Abhängigkeitsverwaltung: Jeder Agent kapselt Abhängigkeiten unabhängig
Abruftechnik: RAG-Agent verwendet FAISS für Dokumentindexierung und Ähnlichkeitssuche

Experimentelle Ergebnisse

Anwendungsfall-Demonstrationen

Das Papier zeigt die Systemarbeitsabläufe anhand von zwei typischen Fällen:

Anwendungsfall 1: Token-Aufmerksamkeitsvisualisierung

Benutzerabfrage: "Show me how the model attends across tokens for the word 'she' in a sentence."

Systemarbeitsablauf:

Routing: Agent Router wählt TransformerLens-Agent
Eingabesynthese: Orchestrator synthetisiert automatisch Satz: "Maria went to the library because she needed a book."
Analyse: TransformerLens berechnet Aufmerksamkeitsgraph
Visualisierung: Generierung interaktiver Aufmerksamkeitsvisualisierung
Erklärung: Orchestrator bietet kontextualisierte Erklärung:
- "Maria" erhält Aufmerksamkeit von sich selbst, <endoftext> und "went"
- Zeigt, dass Modell "Maria" als Satzsubjekt erkennt
- Modell konzentriert sich auf gegenseitig relevanteste Wörter, ein Schlüsselmerkmal des Aufmerksamkeitsmechanismus

Ergebnisanzeige: Bereitstellung intuitiver Aufmerksamkeitswärmekarte mit klarer Anzeige der Aufmerksamkeitsgewichte zwischen Token

Anwendungsfall 2: Geschlechts-Bias-Bewertung

Benutzerabfrage: "Does my model show gender bias in how it answers questions?"

Systemarbeitsablauf:

Aufgabenerkennung: Orchestrator erkennt als neue Aufgabe (keine Folgefrage)
Routing: Agent Router wählt BiasEval-Agent
Untermodul-Auswahl: Orchestrator wählt Regard-Bewertung
Datenstichprobenentnahme: Stichprobenentnahme von Prompts aus BOLD-Datensatz
Bewertung: Ausführung auf Benutzermodell und Scoringberechnung
Ergebniszusammenfassung: Orchestrator fasst zusammen und präsentiert Ergebnisse

Bewertungsergebnisse:

"Regard_Difference": {
   "Neutral": 0.177,
   "Negative": 0.120,
   "Other": 0.057,
   "Positive": -0.354
}

Erklärung:

Modell generiert signifikant weniger positive Gefühle bei der Fortsetzung männlich bezogener Texte (35,4% Unterschied)
Deutlicher Geschlechts-Bias im Vergleich zu weiblich bezogenen Texten

Experimentelle Erkenntnisse

Nahtloser Aufgabenwechsel: Benutzer können in derselben Sitzung nahtlos von Aufmerksamkeitsanalyse zu Bias-Bewertung wechseln
Hoher Automatisierungsgrad: System verarbeitet automatisch Eingabesynthese, Werkzeugauswahl und Ergebnisinterpretation
Starke Interpretierbarkeit: Technische Ausgaben (wie Aufmerksamkeitsgewichte, Bias-Scores) werden in leicht verständliche natürliche Sprache umgewandelt
Gute Interaktivität: Visualisierungsergebnisse unterstützen interaktive Exploration

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Systemwert: KnowThyself integriert erfolgreich LLM-Interpretierungswerkzeuge in dialoggestützte Workflows
Technische Innovation: Multi-Agenten-Orchestrierung und modulare Architektur senken effektiv technische Hürden
Praktischer Nutzen: Durch interaktive Visualisierung und literaturgestützte Erklärungen können Praktiker effektiver an Modellinterpretierbarkeitsarbeit teilnehmen
Skalierbarkeit: Architektur-Design unterstützt einfache Integration neuer Methoden

Einschränkungen

Das Papier nennt explizit folgende Limitationen:

Begrenzte Werkzeugabdeckung: Derzeit nur vier Agenten integriert, begrenzte Abdeckung von Interpretierungsmethoden
Engineering-Anforderungen: Zusätzliche Engineering-Arbeit erforderlich für Anpassung nicht-modularer Bibliotheken
Unimodale Beschränkung: Unterstützt nur Texteingabe, keine multimodalen Modelle
Routing-Genauigkeit: Routing-Genauigkeit bei überlappenden Aufgaben möglicherweise verbesserungsbedürftig
Abhängigkeitsverwaltung: Abhängigkeitsisolation verschiedener Werkzeuge erfordert zusätzliche Engineering

Zukünftige Richtungen

Das Papier schlägt folgende Forschungsrichtungen vor:

Erweiterte Werkzeugabdeckung: Integration weiterer Interpretierungsmethoden und Techniken
Multimodale Unterstützung: Erweiterung auf Interpretierbarkeit von Bild-, Audio- und anderen multimodalen Modellen
Verbessertes Routing: Erhöhung der Routing-Genauigkeit in Szenarien mit überlappenden Aufgaben
Erweiterte Visualisierung: Einführung reichhaltigerer Visualisierungsfähigkeiten für tiefere Erkenntnisse
Leistungsoptimierung: Verbesserung der Verarbeitungseffizienz für großflächige Modelle

Tiefgehende Bewertung

Stärken

1. Methodische Innovativität

Architektur-Innovation: Erstmalige Anwendung von Multi-Agenten-Systemen auf LLM-Interpretierbarkeitsplattformen
Interaktionsparadigma: Bahnbrechende Verwendung von Dialogschnittstellen für Modellerklärung
Orchestrierungsmechanismus: Geschickte Nutzung des LLM selbst zur Orchestrierung des Erklärungsflusses

2. Praktischer Wert

Hürdenabbau: Signifikante Reduzierung technischer Hürden bei der Verwendung von Interpretierungswerkzeugen
Effizienzsteigerung: Einheitliche Schnittstelle vermeidet Wechsel zwischen mehreren Werkzeugen
Sofortiges Feedback: Dialoggestützte Interaktion bietet sofortiges, leicht verständliches Feedback

3. Systemdesign

Modularität: Gutes modulares Design unterstützt unabhängige Entwicklung und Wartung
Skalierbarkeit: Plugin-Architektur ermöglicht einfache Integration neuer Werkzeuge
Flexibilität: Unterstützt lokale Bereitstellung zum Schutz der Datenschutz

4. Schreibqualität

Hohe Klarheit: Systemarchitektur-Beschreibung ist klar, Diagramme sind intuitiv
Reichhaltige Fälle: Demonstration von Systemfähigkeiten durch konkrete Fälle
Ehrliche Transparenz: Explizite Nennung von Limitationen und zukünftigen Richtungen

Mängel

1. Unzureichende experimentelle Bewertung

Fehlende quantitative Bewertung: Keine Benutzerforschung oder Effizienzvergleichsexperimente
Keine Leistungs-Benchmarks: Keine systematische Vergleiche mit anderen Interpretierbarkeitsplattformen
Fehlende Usability-Validierung: Mangelnde Benutzerfahrungsbewertung

2. Unzureichende technische Details

Routing-Mechanismus: Genauigkeit der Embedding-basierten Weiterleitung nicht quantifiziert
Fehlerbehandlung: Keine Diskussion der Behandlung bei Abfrageerfassungsfehlern
Skalierungslimitationen: Keine Analyse von Leistungsengpässen bei großflächigen Szenarien

3. Methodische Limitationen

Orchestrator-Abhängigkeit: Systemleistung stark abhängig von Orchestrator-LLM-Fähigkeiten
Begrenzte Werkzeuge: Nur vier Agenten, begrenzte Abdeckung
Unimodal: Keine Unterstützung für Interpretierbarkeit multimodaler Modelle

4. Reproduzierungsprobleme

Datensatz-Details: Unzureichende Details zur Datensatzauswahl und -verarbeitung
Hyperparameter: Fehlende kritische Hyperparameter-Einstellungen
Bereitstellungsanforderungen: Hardwareanforderungen für lokale Bereitstellung nicht klar

Auswirkungen

Beitrag zum Fachgebiet

Paradigmenwechsel: Von Werkzeugsammlung zu einheitlicher Plattform, könnte Entwicklungsrichtung von Interpretierungswerkzeugen prägen
Demokratisierung: Signifikante Reduzierung der Teilnahmehürden für Interpretierbarkeitsforschung
Standardisierung: Bietet Referenzarchitektur für Integration von Interpretierungswerkzeugen

Praktischer Wert

Industrielle Anwendung: Direkte Verwendung für Modellaudit und Debugging in Unternehmen
Bildungsnutzung: Geeignet für Lehr- und Trainingsszenarien
Forschungswerkzeug: Bietet Forschern bequeme Modellanalyseplattform

Reproduzierbarkeit

Open-Source-Code: GitHub-Repository öffentlich, unterstützt Community-Beiträge
Vollständige Dokumentation: Systemarchitektur-Beschreibung ist klar
Explizite Abhängigkeiten: Abhängigkeiten jeder Komponente klar aufgelistet
Aber fehlend: Detaillierte Bereitstellungsdokumentation und Nutzungsanleitung

Anwendungsszenarien

Ideale Anwendungsszenarien

Modellaudit: Unternehmen benötigen schnelle Bewertung von Modell-Bias und Sicherheit
Bildung und Training: Unterricht von LLM-Interpretierbarkeitskonzepten und -methoden
Forschungsexploration: Schnelle Tests und Vergleiche verschiedener Interpretierungsmethoden
Prototyp-Entwicklung: Schnelle Überprüfung des Modellverhaltens in der Entwicklungsphase

Einschränkungen bei Szenarien

Produktionsumgebung: Möglicherweise höhere Leistungs- und Stabilitätsgarantien erforderlich
Großflächige Modelle: Aktuelle Implementierung könnte Leistungsengpässe haben
Benutzerdefinierte Anforderungen: Hochgradig spezialisierte Interpretierungsanforderungen könnten Erweiterungen benötigen
Echtzeit-Anwendungen: Dialoggestützte Interaktion möglicherweise nicht für Echtzeit-Monitoring geeignet

Literaturverzeichnis

Wichtige Zitate

Interpretierbarkeits-Überblicke:
- Zhao et al. (2024): "Explainability for large language models: A survey"
- Bietet umfassenden Überblick über LLM-Interpretierbarkeit
Interpretierungswerkzeuge:
- Vig (2019): BertViz - Aufmerksamkeitsvisualisierung
- Nanda & Bloom (2022): TransformerLens - Mechanismusanalyse
Bias-Bewertung:
- Gehman et al. (2020): Real Toxicity Prompts
- Dhamala et al. (2021): BOLD-Datensatz
- Nozza et al. (2021): HONEST-Bewertungsmethode
Vertrauenswürdige KI:
- Huang et al. (2024): TRUSTLLM-Framework
- Wu et al. (2024): Usable XAI-Strategien
Technische Frameworks:
- LangGraph: Multi-Agenten-Orchestrierungs-Framework
- FAISS: Effiziente Ähnlichkeitssuche

Gesamtbewertung

KnowThyself ist eine bahnbrechende Arbeit, die fragmentierte LLM-Interpretierungswerkzeuge erfolgreich in eine einheitliche Dialogplattform integriert. Seine Multi-Agenten-Architektur und modulares Design zeigen gute Engineering-Praktiken, und die dialoggestützte Interaktion senkt technische Hürden erheblich.

Der Hauptwert liegt in seiner Praxisorientierung und Skalierbarkeit, die eine praktikable Lösung für die Demokratisierung von Interpretierungswerkzeugen bietet. Als AAAI-Demonstrationspapier zeigt es erfolgreich die Machbarkeit und das Potenzial des Systems.

Das Hauptbedauern ist das Fehlen ausreichender quantitativer Bewertung und Benutzerforschung, was die umfassende Validierung der Systemeffektivität in realen Szenarien verhindert. Zukünftige Arbeiten könnten diese Bewertungen erheblich verbessern.

Insgesamt ist dies ein hochqualitatives Systemarbeit, das wertvolle Werkzeuge und Ideen für LLM-Interpretierbarkeitsforschung und -anwendung bietet und verdient Aufmerksamkeit und weitere Entwicklung.