2025-11-24T19:25:18.115923

KnowThyself: An Agentic Assistant for LLM Interpretability

Prasai, Du, Zhang et al.

We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.

academic

KnowThyself : Un Assistant Agentique pour l'Interprétabilité des LLM

Informations Fondamentales

ID de l'article : 2511.03878
Titre : KnowThyself: An Agentic Assistant for LLM Interpretability
Auteurs : Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)
Classification : cs.AI, cs.IR, cs.LG, cs.MA
Date de publication/Conférence : AAAI 2026 (40e Conférence AAAI sur l'Intelligence Artificielle - Piste Démonstration)
Lien de l'article : https://arxiv.org/abs/2511.03878
Dépôt de code : https://github.com/spygaurad/KnowThyself

Résumé

Cet article développe KnowThyself, un assistant agentique qui fait progresser l'interprétabilité des grands modèles de langage (LLM). Bien que les outils existants offrent des perspectives utiles, ils demeurent fragmentés et nécessitent un travail de codage considérable. KnowThyself intègre ces capacités dans une interface basée sur le chat, où les utilisateurs peuvent télécharger des modèles, poser des questions en langage naturel et obtenir des visualisations interactives accompagnées d'explications guidées. Son noyau comprend : un LLM orchestrateur qui reconstruit d'abord la requête de l'utilisateur, un routeur agentique qui dirige ensuite la requête vers des modules spécialisés, et enfin contextualise la sortie en explications cohérentes. Cette conception réduit les barrières techniques et fournit une plateforme d'inspection des LLM extensible. En intégrant l'ensemble du processus dans un flux de travail conversationnel, KnowThyself fournit une base solide pour l'interprétabilité accessible des LLM.

Contexte de Recherche et Motivation

Problème Central

Bien que les grands modèles de langage excellent dans la compréhension du langage, le raisonnement et la résolution de problèmes, leur nature de boîte noire rend difficile l'explication du processus décisionnel interne, soulevant des préoccupations concernant la transparence, la confiance et la responsabilité.

Importance du Problème

Besoin de transparence : Avec le déploiement généralisé des LLM dans les applications critiques, comprendre leurs mécanismes décisionnels devient crucial
Fossé recherche-pratique : Les progrès en interprétabilité sont bien en retard par rapport au développement rapide des LLM
Barrière technique : Les outils existants nécessitent une expertise technique considérable, limitant la démocratisation de l'interprétabilité

Limitations des Approches Existantes

Fragmentation : Les méthodes existantes d'interprétabilité des LLM (telles que les méthodes d'attribution, l'analyse mécanique) offrent des perspectives précieuses mais restent isolées
Difficultés d'utilisation : Nécessitent l'écriture de code considérable avec une barrière technique élevée
Manque d'intégration : Les plateformes existantes ne supportent ni l'exploration conversationnelle ni les explications interactives et documentées
Barrières technologiques : Les praticiens ont du mal à accéder et utiliser les dernières techniques d'interprétabilité

Motivation de la Recherche

Combler le fossé entre la recherche avant-gardiste en interprétabilité et les applications pratiques, en créant une plateforme unifiée, accessible et extensible grâce à l'orchestration multi-agentique, une architecture modulaire et des visualisations interactives, permettant à un large public de participer aux techniques d'explication émergentes.

Contributions Principales

Les principales contributions de cet article incluent :

Cadre d'orchestration multi-agentique : Propose un cadre coordonnant un large éventail de tâches d'explication, supportant le routage flexible et la génération d'explications cohérentes
Architecture modulaire : Encapsule différentes méthodes d'explication en tant qu'agents indépendants, supportant l'intégration transparente de nouveaux outils et l'extensibilité future
Interface de visualisation interactive : Fournit une présentation des résultats avec explications en langage naturel, réduisant significativement les barrières à l'inspection efficace des modèles
Flux de travail conversationnel : Intègre l'ensemble du processus d'explication dans un flux conversationnel, permettant le téléchargement de modèles, les requêtes et la récupération des résultats sans écrire de code

Explication Détaillée de la Méthode

Définition de la Tâche

Entrées :

Modèle LLM téléchargé par l'utilisateur à interpréter
Requête en langage naturel (par exemple, « Montrez comment le modèle prête attention au token 'she' dans la phrase »)

Sorties :

Résultats de visualisation interactive
Explications en langage naturel guidées
Métriques d'évaluation pertinentes (par exemple, score de biais)

Contraintes :

Maintenir la cohérence conversationnelle et la compréhension du contexte
Supporter l'invocation flexible de plusieurs méthodes d'explication
Assurer l'accessibilité des détails techniques

Architecture du Modèle

KnowThyself adopte une conception architecturale à quatre niveaux :

1. LLM Orchestrateur (Orchestrator LLM)

Fonction : Agit comme modèle superviseur gérant les interactions utilisateur et guidant le processus d'explication
Tâches spécifiques :
- Restructurer les requêtes utilisateur
- Générer les sous-tâches nécessaires (par exemple, synthèse de phrases ou sélection d'outils)
- Contextualiser les résultats intermédiaires
- Générer des explications en langage naturel cohérentes
Implémentation : Utilise le modèle Gemma3-27B
Rôle : Assurer que les visualisations complexes ou les indices de biais restent compréhensibles

2. Routeur Agentique (Agent Router)

Fonction : Utilise la recherche de similarité basée sur les embeddings pour dispatcher les requêtes vers des agents spécialisés
Mécanisme de routage :
- Faire correspondre l'intention utilisateur avec les descriptions d'agents
- Utiliser le modèle nomic-embed-text hébergé par Ollama pour les embeddings
- Assurer l'alignement entre les requêtes et les capacités des outils tout en maintenant l'efficacité
Extensibilité : Peut être amélioré vers un routage basé sur LLM pour gérer les cas complexes à mesure que le système se développe

3. Agents Spécialisés (Specialized Agents)

Le système actuel intègre quatre agents :

a) Agent BertViz

Fonction : Visualisation de l'attention
Utilisation : Afficher la distribution de l'attention entre les tokens
Dépendances : HuggingFace Transformers

b) Agent TransformerLens

Fonction : Analyser les activations granulaires au niveau des couches et des têtes
Utilisation : Inspection approfondie du comportement de couches et têtes d'attention spécifiques
Dépendances : HookedTransformer

c) Agent RAG Explainer

Fonction : Récupérer les informations pertinentes dans la littérature du domaine
Utilisation : Fournir des explications soutenues par la littérature
Technique : Utiliser FAISS pour la recherche de similarité, indexer les documents pertinents

d) Agent BiasEval

Fonction : Évaluer la sécurité et les disparités démographiques
Métriques d'évaluation :
- Toxicité : Utiliser le dataset Real Toxicity Prompts
- Regard : Utiliser le dataset BOLD pour évaluer les tendances sentimentales envers différents groupes
- HONEST : Évaluer les complétions de phrases nuisibles
Flux de travail : Inviter le modèle, échantillonner le dataset, calculer les scores

4. Interface Conversationnelle (Conversational Interface)

Fonction : Fournir une interface de chat supportant le téléchargement de modèles, les questions en langage naturel et la vérification des résultats
Caractéristiques :
- Visualisations interactives
- Aucune expertise technique requise
- Support pour l'exploration conversationnelle

Points d'Innovation Technique

1. Mécanisme d'Orchestration Unifié

Innovation : Utiliser un LLM comme orchestrateur pour gérer uniformément l'ensemble du processus d'explication
Avantages : Intégrer les outils fragmentés dans un flux conversationnel unique
Implémentation : Modélisé comme un graphe dirigé via LangGraph, les agents partageant l'état

2. Système de Routage Intelligent

Innovation : Implémenter la correspondance requête-outil via recherche de similarité basée sur embeddings
Justification :
- Efficace : Évite les systèmes de règles complexes
- Précis : Assurer le routage correct via similarité sémantique
- Extensible : Peut être amélioré vers le routage par LLM pour les scénarios complexes

3. Architecture de Plugin Modulaire

Innovation : Chaque agent encapsule une méthode d'explication indépendante
Avantages :
- Isolation des dépendances : Les dépendances de différents outils ne s'interfèrent pas
- Facile à étendre : Les nouveaux outils s'intègrent transparemment
- Développement indépendant : Chaque module peut être maintenu et mis à niveau indépendamment

4. Génération d'Explications Consciente du Contexte

Innovation : L'orchestrateur synthétise automatiquement les entrées nécessaires (par exemple, des phrases d'exemple) et génère des explications contextualisées
Valeur : Réduire la charge utilisateur et fournir des résultats plus compréhensibles

Configuration Expérimentale

Configuration du Modèle

Modèles utilisateur pré-inclus :
- GPT-2
- BERT
- LLaMA2-13B
Hébergement du modèle : Les grands modèles sont hébergés via Ollama pour améliorer l'efficacité
Mode de déploiement : Support pour l'exécution locale (si les ressources le permettent), sans nécessiter d'API tiers, assurant une analyse sécurisée

Métriques d'Évaluation

Métriques d'Évaluation du Biais

Toxicité :
- Dataset : Real Toxicity Prompts
- Évaluation : Niveau de toxicité du contenu généré par le modèle
Regard :
- Dataset : BOLD (Bias in Open-ended Language Generation Dataset)
- Évaluation : Différences dans les tendances sentimentales du modèle envers différents groupes démographiques
- Résultat : Scores de différence pour les catégories positive, négative, neutre et autre
HONEST :
- Évaluation : Degré de complétions de phrases nuisibles dans les modèles de langage
- Utilisation : Mesurer le potentiel de nuisibilité du modèle lors de la continuation

Détails d'Implémentation

Cadre : LangGraph, modélisé comme graphe dirigé d'agents
Modèle d'embedding : nomic-embed-text hébergé par Ollama
Modèle d'orchestration : Gemma3-27B
Gestion des dépendances : Chaque agent encapsule indépendamment les dépendances
Technologie de récupération : L'agent RAG utilise FAISS pour l'indexation de documents et la recherche de similarité

Résultats Expérimentaux

Démonstration de Cas d'Usage

L'article présente deux cas typiques montrant le flux de travail du système :

Cas 1 : Visualisation de l'Attention des Tokens

Requête utilisateur : « Show me how the model attends across tokens for the word 'she' in a sentence. »

Flux de travail du système :

Routage : Agent Router sélectionne l'agent TransformerLens
Synthèse d'entrée : L'orchestrateur synthétise automatiquement la phrase : « Maria went to the library because she needed a book. »
Analyse : TransformerLens calcule le graphe d'attention
Visualisation : Génère une visualisation d'attention interactive
Explication : L'orchestrateur fournit une explication contextualisée :
- « Maria » reçoit l'attention d'elle-même, de <endoftext> et de « went »
- Indique que le modèle identifie « Maria » comme sujet de la phrase
- Le modèle prête attention aux mots les plus pertinents les uns par rapport aux autres, caractéristique clé du mécanisme d'attention

Présentation des résultats : Fournit une carte thermique d'attention intuitive, affichant clairement la distribution des poids d'attention entre les tokens

Cas 2 : Évaluation du Biais de Genre

Requête utilisateur : « Does my model show gender bias in how it answers questions? »

Flux de travail du système :

Identification de tâche : L'orchestrateur identifie comme nouvelle tâche (non question de suivi)
Routage : Agent Router sélectionne l'agent BiasEval
Sélection de sous-module : L'orchestrateur choisit l'évaluation regard
Échantillonnage de données : Échantillonner des invites du dataset BOLD
Évaluation : Exécuter et calculer les scores sur le modèle utilisateur
Résumé des résultats : L'orchestrateur résume et présente les résultats

Résultats d'évaluation :

"Regard_Difference": {
   "Neutral": 0.177,
   "Negative": 0.120,
   "Other": 0.057,
   "Positive": -0.354
}

Explication :

Le modèle génère significativement moins de sentiments positifs lors de la continuation de textes liés aux hommes (différence de 35,4%)
Il existe un biais de genre évident par rapport aux textes liés aux femmes

Résultats Expérimentaux

Commutation transparente de tâches : Les utilisateurs peuvent passer sans problème de l'analyse d'attention à l'évaluation du biais dans la même session
Haut degré d'automatisation : Le système gère automatiquement la synthèse d'entrée, la sélection d'outils et l'interprétation des résultats
Forte interprétabilité : Les résultats techniques (tels que les poids d'attention, les scores de biais) sont transformés en langage naturel compréhensible
Bonne interactivité : Les résultats de visualisation supportent l'exploration interactive

Travaux Connexes

Directions de Recherche en Interprétabilité des LLM

1. Méthodes d'Attribution (Attribution Methods)

Contenu de recherche : Assigner des scores d'importance aux tokens, échantillons ou états cachés
Travaux représentatifs :
- Enquête sur l'Attribution des LLM (Li et al., 2023)
- LLM Attributor (Lee et al., 2025)
Limitations : Nécessitent généralement une expertise technique, manquent d'interface unifiée

2. Analyse Mécanique (Mechanistic Analysis)

Contenu de recherche : Analyser les mécanismes internes des têtes d'attention, neurones ou circuits
Travaux représentatifs :
- Transcodeurs (Dunefsky et al., 2024)
- Exploration de l'Interprétabilité Mécanique (Gantla, 2025)
Limitations : Fragmentation des outils, difficiles à intégrer

3. Outils d'Interprétabilité

BertViz : Visualisation d'attention multi-échelle
TransformerLens : Analyse d'activation granulaire
Limitations : Indépendants les uns des autres, nécessitent un apprentissage et une utilisation séparés

4. Recherche en IA de Confiance

TRUSTLLM : Cadre de fiabilité pour les grands modèles de langage
Usable XAI : Stratégies d'explicabilité utilisables pour l'ère des LLM
Positionnement de cet article : Réaliser la mise en pratique de ces cadres théoriques

Avantages de Cet Article

Plateforme unifiée : Première intégration de plusieurs méthodes d'interprétabilité dans une interface conversationnelle unique
Réduction des barrières : Utiliser des outils d'explication avancés sans codage
Conception modulaire : Support pour le développement indépendant d'outils et l'intégration transparente
Orientation pratique : Transition des outils de recherche vers des assistants pratiques

Conclusion et Discussion

Conclusions Principales

Valeur du système : KnowThyself intègre avec succès les outils d'interprétabilité des LLM dans un flux de travail conversationnel
Innovation technique : L'orchestration multi-agentique et l'architecture modulaire réduisent efficacement les barrières techniques
Praticité : Grâce aux visualisations interactives et aux explications soutenues par la littérature, les praticiens peuvent participer plus efficacement aux travaux d'interprétabilité des modèles
Extensibilité : La conception architecturale supporte l'intégration facile de nouvelles méthodes

Limitations

L'article identifie clairement les restrictions suivantes :

Couverture d'outils limitée : Actuellement, seuls quatre agents sont intégrés, couvrant des méthodes d'explication limitées
Exigences d'ingénierie : Nécessite un travail d'ingénierie supplémentaire pour adapter les bibliothèques non-modulaires
Limitation unimodale : Supporte uniquement les entrées textuelles, ne supporte pas les modèles multimodaux
Précision du routage : Pour les tâches qui se chevauchent, la précision du routage peut nécessiter une amélioration
Gestion des dépendances : L'isolation des dépendances entre différents outils nécessite un travail d'ingénierie supplémentaire

Directions Futures

L'article propose les directions de recherche suivantes :

Élargir la couverture d'outils : Intégrer plus de méthodes et techniques d'interprétabilité
Support multimodal : Étendre à l'explication de modèles multimodaux (images, audio, etc.)
Améliorer le routage : Améliorer la précision du routage dans les scénarios de tâches qui se chevauchent
Améliorer la visualisation : Introduire des capacités de visualisation plus riches pour fournir des perspectives plus approfondies
Optimisation des performances : Améliorer l'efficacité du traitement des modèles à grande échelle

Évaluation Approfondie

Points Forts

1. Innovativité de la Méthode

Innovation architecturale : Première application des systèmes multi-agentiques à une plateforme d'interprétabilité des LLM
Paradigme d'interaction : Utilisation novatrice d'une interface conversationnelle pour l'explication de modèles
Mécanisme d'orchestration : Exploitation astucieuse du LLM lui-même pour orchestrer le flux d'explication

2. Valeur Pratique

Réduction des barrières : Réduction significative des barrières techniques à l'utilisation des outils d'interprétabilité
Amélioration de l'efficacité : L'interface unifiée évite de basculer entre plusieurs outils
Retour immédiat : L'interaction conversationnelle fournit un retour immédiat et compréhensible

3. Conception du Système

Modularité : Bonne conception modulaire supportant le développement et la maintenance indépendants
Extensibilité : L'architecture de plugin facilite l'intégration de nouveaux outils
Flexibilité : Support pour le déploiement local, protégeant la confidentialité des données

4. Qualité de la Rédaction

Clarté élevée : Description claire de l'architecture système, illustrations intuitives
Cas riches : Démonstration des capacités du système par des cas concrets
Transparence honnête : Identification claire des limitations et des directions futures

Insuffisances

1. Évaluation Expérimentale Insuffisante

Manque d'évaluation quantitative : Pas d'études utilisateur ou d'expériences de comparaison d'efficacité
Pas de référence de performance : Pas de comparaison systématique avec d'autres plateformes d'interprétabilité
Validation d'utilisabilité : Manque d'évaluation de l'expérience utilisateur

2. Détails Techniques Insuffisants

Mécanisme de routage : La précision du routage basé sur embeddings n'est pas quantifiée
Gestion des erreurs : Pas de discussion sur la gestion des défaillances de compréhension de requêtes
Limitations d'extensibilité : Pas d'analyse des goulots d'étranglement de performance dans les scénarios à grande échelle

3. Limitations de la Méthode

Dépendance à l'orchestrateur : Les performances du système dépendent fortement des capacités du LLM orchestrateur
Outils limités : Seulement quatre agents, couverture limitée
Unimodal : Ne supporte pas les besoins d'explication des modèles multimodaux

4. Problèmes de Reproductibilité

Détails du dataset : Pas de description détaillée de la sélection et du traitement des datasets d'évaluation
Hyperparamètres : Manque de paramètres clés
Exigences de déploiement : Les exigences matérielles pour le déploiement local ne sont pas claires

Impact

Contribution au Domaine

Changement de paradigme : Transition d'une collection d'outils vers une plateforme unifiée, pouvant guider le développement futur des outils d'interprétabilité
Démocratisation : Réduction significative des barrières à la participation à la recherche en interprétabilité
Standardisation : Fournit une architecture de référence pour l'intégration des outils d'interprétabilité

Valeur Pratique

Applications industrielles : Peut être directement utilisé pour l'audit et le débogage de modèles en entreprise
Utilisation éducative : Approprié pour l'enseignement et la formation
Outil de recherche : Fournit une plateforme d'analyse de modèles pratique pour les chercheurs

Reproductibilité

Code open-source : Dépôt GitHub public, supportant les contributions communautaires
Documentation complète : Description claire de l'architecture système
Dépendances explicites : Dépendances de chaque composant clairement énumérées
Mais manque : Documentation de déploiement détaillée et tutoriels d'utilisation

Scénarios Applicables

Scénarios d'Application Idéaux

Audit de modèles : Les entreprises ont besoin d'évaluer rapidement les biais et la sécurité des modèles
Formation éducative : Enseigner les concepts et méthodes d'interprétabilité des LLM
Exploration de recherche : Tester et comparer rapidement différentes méthodes d'explication
Développement de prototypes : Vérifier rapidement le comportement des modèles pendant la phase de développement

Scénarios Limités

Environnement de production : Peut nécessiter des garanties de performance et de stabilité plus élevées
Modèles à très grande échelle : L'implémentation actuelle peut faire face à des goulots d'étranglement de performance
Exigences personnalisées : Les besoins d'explication hautement spécialisés peuvent nécessiter une extension
Applications en temps réel : L'interaction conversationnelle peut ne pas être appropriée pour la surveillance en temps réel

Références

Citations Clés

Enquêtes sur l'interprétabilité :
- Zhao et al. (2024): « Explainability for large language models: A survey »
- Fournit une enquête complète sur l'interprétabilité des LLM
Outils d'interprétabilité :
- Vig (2019): BertViz - Visualisation d'attention
- Nanda & Bloom (2022): TransformerLens - Analyse mécanique
Évaluation du biais :
- Gehman et al. (2020): Real Toxicity Prompts
- Dhamala et al. (2021): Dataset BOLD
- Nozza et al. (2021): Méthode d'évaluation HONEST
IA de Confiance :
- Huang et al. (2024): Cadre TRUSTLLM
- Wu et al. (2024): Stratégies Usable XAI
Cadres techniques :
- LangGraph: Cadre d'orchestration multi-agentique
- FAISS: Recherche de similarité efficace

Évaluation Globale

KnowThyself est un travail de nature pionnière, intégrant avec succès les outils fragmentés d'interprétabilité des LLM dans une plateforme conversationnelle unifiée. Son architecture multi-agentique et sa conception modulaire démontrent de bonnes pratiques d'ingénierie, et l'interaction conversationnelle réduit significativement les barrières techniques.

La valeur principale réside dans son orientation pratique et son extensibilité, fournissant une solution réalisable pour la démocratisation des outils d'interprétabilité. En tant qu'article de démonstration AAAI, il démontre avec succès la faisabilité et le potentiel du système.

Le principal regret est l'absence d'évaluation quantitative suffisante et d'études utilisateur, empêchant une vérification complète de l'efficacité du système dans des scénarios réels. Si les travaux futurs peuvent compléter ces évaluations, cela augmentera considérablement la force de conviction de l'article.

Dans l'ensemble, c'est un article de système de haute qualité, fournissant des outils et des perspectives précieuses pour la recherche et l'application en interprétabilité des LLM, méritant attention et développement ultérieur.