2025-11-24T19:25:18.115923

KnowThyself: An Agentic Assistant for LLM Interpretability

Prasai, Du, Zhang et al.
We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.
academic

KnowThyself : Un Assistant Agentique pour l'Interprétabilité des LLM

Informations Fondamentales

  • ID de l'article : 2511.03878
  • Titre : KnowThyself: An Agentic Assistant for LLM Interpretability
  • Auteurs : Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)
  • Classification : cs.AI, cs.IR, cs.LG, cs.MA
  • Date de publication/Conférence : AAAI 2026 (40e Conférence AAAI sur l'Intelligence Artificielle - Piste Démonstration)
  • Lien de l'article : https://arxiv.org/abs/2511.03878
  • Dépôt de code : https://github.com/spygaurad/KnowThyself

Résumé

Cet article développe KnowThyself, un assistant agentique qui fait progresser l'interprétabilité des grands modèles de langage (LLM). Bien que les outils existants offrent des perspectives utiles, ils demeurent fragmentés et nécessitent un travail de codage considérable. KnowThyself intègre ces capacités dans une interface basée sur le chat, où les utilisateurs peuvent télécharger des modèles, poser des questions en langage naturel et obtenir des visualisations interactives accompagnées d'explications guidées. Son noyau comprend : un LLM orchestrateur qui reconstruit d'abord la requête de l'utilisateur, un routeur agentique qui dirige ensuite la requête vers des modules spécialisés, et enfin contextualise la sortie en explications cohérentes. Cette conception réduit les barrières techniques et fournit une plateforme d'inspection des LLM extensible. En intégrant l'ensemble du processus dans un flux de travail conversationnel, KnowThyself fournit une base solide pour l'interprétabilité accessible des LLM.

Contexte de Recherche et Motivation

Problème Central

Bien que les grands modèles de langage excellent dans la compréhension du langage, le raisonnement et la résolution de problèmes, leur nature de boîte noire rend difficile l'explication du processus décisionnel interne, soulevant des préoccupations concernant la transparence, la confiance et la responsabilité.

Importance du Problème

  1. Besoin de transparence : Avec le déploiement généralisé des LLM dans les applications critiques, comprendre leurs mécanismes décisionnels devient crucial
  2. Fossé recherche-pratique : Les progrès en interprétabilité sont bien en retard par rapport au développement rapide des LLM
  3. Barrière technique : Les outils existants nécessitent une expertise technique considérable, limitant la démocratisation de l'interprétabilité

Limitations des Approches Existantes

  1. Fragmentation : Les méthodes existantes d'interprétabilité des LLM (telles que les méthodes d'attribution, l'analyse mécanique) offrent des perspectives précieuses mais restent isolées
  2. Difficultés d'utilisation : Nécessitent l'écriture de code considérable avec une barrière technique élevée
  3. Manque d'intégration : Les plateformes existantes ne supportent ni l'exploration conversationnelle ni les explications interactives et documentées
  4. Barrières technologiques : Les praticiens ont du mal à accéder et utiliser les dernières techniques d'interprétabilité

Motivation de la Recherche

Combler le fossé entre la recherche avant-gardiste en interprétabilité et les applications pratiques, en créant une plateforme unifiée, accessible et extensible grâce à l'orchestration multi-agentique, une architecture modulaire et des visualisations interactives, permettant à un large public de participer aux techniques d'explication émergentes.

Contributions Principales

Les principales contributions de cet article incluent :

  1. Cadre d'orchestration multi-agentique : Propose un cadre coordonnant un large éventail de tâches d'explication, supportant le routage flexible et la génération d'explications cohérentes
  2. Architecture modulaire : Encapsule différentes méthodes d'explication en tant qu'agents indépendants, supportant l'intégration transparente de nouveaux outils et l'extensibilité future
  3. Interface de visualisation interactive : Fournit une présentation des résultats avec explications en langage naturel, réduisant significativement les barrières à l'inspection efficace des modèles
  4. Flux de travail conversationnel : Intègre l'ensemble du processus d'explication dans un flux conversationnel, permettant le téléchargement de modèles, les requêtes et la récupération des résultats sans écrire de code

Explication Détaillée de la Méthode

Définition de la Tâche

Entrées :

  • Modèle LLM téléchargé par l'utilisateur à interpréter
  • Requête en langage naturel (par exemple, « Montrez comment le modèle prête attention au token 'she' dans la phrase »)

Sorties :

  • Résultats de visualisation interactive
  • Explications en langage naturel guidées
  • Métriques d'évaluation pertinentes (par exemple, score de biais)

Contraintes :

  • Maintenir la cohérence conversationnelle et la compréhension du contexte
  • Supporter l'invocation flexible de plusieurs méthodes d'explication
  • Assurer l'accessibilité des détails techniques

Architecture du Modèle

KnowThyself adopte une conception architecturale à quatre niveaux :

1. LLM Orchestrateur (Orchestrator LLM)

  • Fonction : Agit comme modèle superviseur gérant les interactions utilisateur et guidant le processus d'explication
  • Tâches spécifiques :
    • Restructurer les requêtes utilisateur
    • Générer les sous-tâches nécessaires (par exemple, synthèse de phrases ou sélection d'outils)
    • Contextualiser les résultats intermédiaires
    • Générer des explications en langage naturel cohérentes
  • Implémentation : Utilise le modèle Gemma3-27B
  • Rôle : Assurer que les visualisations complexes ou les indices de biais restent compréhensibles

2. Routeur Agentique (Agent Router)

  • Fonction : Utilise la recherche de similarité basée sur les embeddings pour dispatcher les requêtes vers des agents spécialisés
  • Mécanisme de routage :
    • Faire correspondre l'intention utilisateur avec les descriptions d'agents
    • Utiliser le modèle nomic-embed-text hébergé par Ollama pour les embeddings
    • Assurer l'alignement entre les requêtes et les capacités des outils tout en maintenant l'efficacité
  • Extensibilité : Peut être amélioré vers un routage basé sur LLM pour gérer les cas complexes à mesure que le système se développe

3. Agents Spécialisés (Specialized Agents)

Le système actuel intègre quatre agents :

a) Agent BertViz

  • Fonction : Visualisation de l'attention
  • Utilisation : Afficher la distribution de l'attention entre les tokens
  • Dépendances : HuggingFace Transformers

b) Agent TransformerLens

  • Fonction : Analyser les activations granulaires au niveau des couches et des têtes
  • Utilisation : Inspection approfondie du comportement de couches et têtes d'attention spécifiques
  • Dépendances : HookedTransformer

c) Agent RAG Explainer

  • Fonction : Récupérer les informations pertinentes dans la littérature du domaine
  • Utilisation : Fournir des explications soutenues par la littérature
  • Technique : Utiliser FAISS pour la recherche de similarité, indexer les documents pertinents

d) Agent BiasEval

  • Fonction : Évaluer la sécurité et les disparités démographiques
  • Métriques d'évaluation :
    • Toxicité : Utiliser le dataset Real Toxicity Prompts
    • Regard : Utiliser le dataset BOLD pour évaluer les tendances sentimentales envers différents groupes
    • HONEST : Évaluer les complétions de phrases nuisibles
  • Flux de travail : Inviter le modèle, échantillonner le dataset, calculer les scores

4. Interface Conversationnelle (Conversational Interface)

  • Fonction : Fournir une interface de chat supportant le téléchargement de modèles, les questions en langage naturel et la vérification des résultats
  • Caractéristiques :
    • Visualisations interactives
    • Aucune expertise technique requise
    • Support pour l'exploration conversationnelle

Points d'Innovation Technique

1. Mécanisme d'Orchestration Unifié

  • Innovation : Utiliser un LLM comme orchestrateur pour gérer uniformément l'ensemble du processus d'explication
  • Avantages : Intégrer les outils fragmentés dans un flux conversationnel unique
  • Implémentation : Modélisé comme un graphe dirigé via LangGraph, les agents partageant l'état

2. Système de Routage Intelligent

  • Innovation : Implémenter la correspondance requête-outil via recherche de similarité basée sur embeddings
  • Justification :
    • Efficace : Évite les systèmes de règles complexes
    • Précis : Assurer le routage correct via similarité sémantique
    • Extensible : Peut être amélioré vers le routage par LLM pour les scénarios complexes

3. Architecture de Plugin Modulaire

  • Innovation : Chaque agent encapsule une méthode d'explication indépendante
  • Avantages :
    • Isolation des dépendances : Les dépendances de différents outils ne s'interfèrent pas
    • Facile à étendre : Les nouveaux outils s'intègrent transparemment
    • Développement indépendant : Chaque module peut être maintenu et mis à niveau indépendamment

4. Génération d'Explications Consciente du Contexte

  • Innovation : L'orchestrateur synthétise automatiquement les entrées nécessaires (par exemple, des phrases d'exemple) et génère des explications contextualisées
  • Valeur : Réduire la charge utilisateur et fournir des résultats plus compréhensibles

Configuration Expérimentale

Configuration du Modèle

  1. Modèles utilisateur pré-inclus :
    • GPT-2
    • BERT
    • LLaMA2-13B
  2. Hébergement du modèle : Les grands modèles sont hébergés via Ollama pour améliorer l'efficacité
  3. Mode de déploiement : Support pour l'exécution locale (si les ressources le permettent), sans nécessiter d'API tiers, assurant une analyse sécurisée

Métriques d'Évaluation

Métriques d'Évaluation du Biais

  1. Toxicité :
    • Dataset : Real Toxicity Prompts
    • Évaluation : Niveau de toxicité du contenu généré par le modèle
  2. Regard :
    • Dataset : BOLD (Bias in Open-ended Language Generation Dataset)
    • Évaluation : Différences dans les tendances sentimentales du modèle envers différents groupes démographiques
    • Résultat : Scores de différence pour les catégories positive, négative, neutre et autre
  3. HONEST :
    • Évaluation : Degré de complétions de phrases nuisibles dans les modèles de langage
    • Utilisation : Mesurer le potentiel de nuisibilité du modèle lors de la continuation

Détails d'Implémentation

  1. Cadre : LangGraph, modélisé comme graphe dirigé d'agents
  2. Modèle d'embedding : nomic-embed-text hébergé par Ollama
  3. Modèle d'orchestration : Gemma3-27B
  4. Gestion des dépendances : Chaque agent encapsule indépendamment les dépendances
  5. Technologie de récupération : L'agent RAG utilise FAISS pour l'indexation de documents et la recherche de similarité

Résultats Expérimentaux

Démonstration de Cas d'Usage

L'article présente deux cas typiques montrant le flux de travail du système :

Cas 1 : Visualisation de l'Attention des Tokens

Requête utilisateur : « Show me how the model attends across tokens for the word 'she' in a sentence. »

Flux de travail du système :

  1. Routage : Agent Router sélectionne l'agent TransformerLens
  2. Synthèse d'entrée : L'orchestrateur synthétise automatiquement la phrase : « Maria went to the library because she needed a book. »
  3. Analyse : TransformerLens calcule le graphe d'attention
  4. Visualisation : Génère une visualisation d'attention interactive
  5. Explication : L'orchestrateur fournit une explication contextualisée :
    • « Maria » reçoit l'attention d'elle-même, de <endoftext> et de « went »
    • Indique que le modèle identifie « Maria » comme sujet de la phrase
    • Le modèle prête attention aux mots les plus pertinents les uns par rapport aux autres, caractéristique clé du mécanisme d'attention

Présentation des résultats : Fournit une carte thermique d'attention intuitive, affichant clairement la distribution des poids d'attention entre les tokens

Cas 2 : Évaluation du Biais de Genre

Requête utilisateur : « Does my model show gender bias in how it answers questions? »

Flux de travail du système :

  1. Identification de tâche : L'orchestrateur identifie comme nouvelle tâche (non question de suivi)
  2. Routage : Agent Router sélectionne l'agent BiasEval
  3. Sélection de sous-module : L'orchestrateur choisit l'évaluation regard
  4. Échantillonnage de données : Échantillonner des invites du dataset BOLD
  5. Évaluation : Exécuter et calculer les scores sur le modèle utilisateur
  6. Résumé des résultats : L'orchestrateur résume et présente les résultats

Résultats d'évaluation :

"Regard_Difference": {
   "Neutral": 0.177,
   "Negative": 0.120,
   "Other": 0.057,
   "Positive": -0.354
}

Explication :

  • Le modèle génère significativement moins de sentiments positifs lors de la continuation de textes liés aux hommes (différence de 35,4%)
  • Il existe un biais de genre évident par rapport aux textes liés aux femmes

Résultats Expérimentaux

  1. Commutation transparente de tâches : Les utilisateurs peuvent passer sans problème de l'analyse d'attention à l'évaluation du biais dans la même session
  2. Haut degré d'automatisation : Le système gère automatiquement la synthèse d'entrée, la sélection d'outils et l'interprétation des résultats
  3. Forte interprétabilité : Les résultats techniques (tels que les poids d'attention, les scores de biais) sont transformés en langage naturel compréhensible
  4. Bonne interactivité : Les résultats de visualisation supportent l'exploration interactive

Travaux Connexes

Directions de Recherche en Interprétabilité des LLM

1. Méthodes d'Attribution (Attribution Methods)

  • Contenu de recherche : Assigner des scores d'importance aux tokens, échantillons ou états cachés
  • Travaux représentatifs :
    • Enquête sur l'Attribution des LLM (Li et al., 2023)
    • LLM Attributor (Lee et al., 2025)
  • Limitations : Nécessitent généralement une expertise technique, manquent d'interface unifiée

2. Analyse Mécanique (Mechanistic Analysis)

  • Contenu de recherche : Analyser les mécanismes internes des têtes d'attention, neurones ou circuits
  • Travaux représentatifs :
    • Transcodeurs (Dunefsky et al., 2024)
    • Exploration de l'Interprétabilité Mécanique (Gantla, 2025)
  • Limitations : Fragmentation des outils, difficiles à intégrer

3. Outils d'Interprétabilité

  • BertViz : Visualisation d'attention multi-échelle
  • TransformerLens : Analyse d'activation granulaire
  • Limitations : Indépendants les uns des autres, nécessitent un apprentissage et une utilisation séparés

4. Recherche en IA de Confiance

  • TRUSTLLM : Cadre de fiabilité pour les grands modèles de langage
  • Usable XAI : Stratégies d'explicabilité utilisables pour l'ère des LLM
  • Positionnement de cet article : Réaliser la mise en pratique de ces cadres théoriques

Avantages de Cet Article

  1. Plateforme unifiée : Première intégration de plusieurs méthodes d'interprétabilité dans une interface conversationnelle unique
  2. Réduction des barrières : Utiliser des outils d'explication avancés sans codage
  3. Conception modulaire : Support pour le développement indépendant d'outils et l'intégration transparente
  4. Orientation pratique : Transition des outils de recherche vers des assistants pratiques

Conclusion et Discussion

Conclusions Principales

  1. Valeur du système : KnowThyself intègre avec succès les outils d'interprétabilité des LLM dans un flux de travail conversationnel
  2. Innovation technique : L'orchestration multi-agentique et l'architecture modulaire réduisent efficacement les barrières techniques
  3. Praticité : Grâce aux visualisations interactives et aux explications soutenues par la littérature, les praticiens peuvent participer plus efficacement aux travaux d'interprétabilité des modèles
  4. Extensibilité : La conception architecturale supporte l'intégration facile de nouvelles méthodes

Limitations

L'article identifie clairement les restrictions suivantes :

  1. Couverture d'outils limitée : Actuellement, seuls quatre agents sont intégrés, couvrant des méthodes d'explication limitées
  2. Exigences d'ingénierie : Nécessite un travail d'ingénierie supplémentaire pour adapter les bibliothèques non-modulaires
  3. Limitation unimodale : Supporte uniquement les entrées textuelles, ne supporte pas les modèles multimodaux
  4. Précision du routage : Pour les tâches qui se chevauchent, la précision du routage peut nécessiter une amélioration
  5. Gestion des dépendances : L'isolation des dépendances entre différents outils nécessite un travail d'ingénierie supplémentaire

Directions Futures

L'article propose les directions de recherche suivantes :

  1. Élargir la couverture d'outils : Intégrer plus de méthodes et techniques d'interprétabilité
  2. Support multimodal : Étendre à l'explication de modèles multimodaux (images, audio, etc.)
  3. Améliorer le routage : Améliorer la précision du routage dans les scénarios de tâches qui se chevauchent
  4. Améliorer la visualisation : Introduire des capacités de visualisation plus riches pour fournir des perspectives plus approfondies
  5. Optimisation des performances : Améliorer l'efficacité du traitement des modèles à grande échelle

Évaluation Approfondie

Points Forts

1. Innovativité de la Méthode

  • Innovation architecturale : Première application des systèmes multi-agentiques à une plateforme d'interprétabilité des LLM
  • Paradigme d'interaction : Utilisation novatrice d'une interface conversationnelle pour l'explication de modèles
  • Mécanisme d'orchestration : Exploitation astucieuse du LLM lui-même pour orchestrer le flux d'explication

2. Valeur Pratique

  • Réduction des barrières : Réduction significative des barrières techniques à l'utilisation des outils d'interprétabilité
  • Amélioration de l'efficacité : L'interface unifiée évite de basculer entre plusieurs outils
  • Retour immédiat : L'interaction conversationnelle fournit un retour immédiat et compréhensible

3. Conception du Système

  • Modularité : Bonne conception modulaire supportant le développement et la maintenance indépendants
  • Extensibilité : L'architecture de plugin facilite l'intégration de nouveaux outils
  • Flexibilité : Support pour le déploiement local, protégeant la confidentialité des données

4. Qualité de la Rédaction

  • Clarté élevée : Description claire de l'architecture système, illustrations intuitives
  • Cas riches : Démonstration des capacités du système par des cas concrets
  • Transparence honnête : Identification claire des limitations et des directions futures

Insuffisances

1. Évaluation Expérimentale Insuffisante

  • Manque d'évaluation quantitative : Pas d'études utilisateur ou d'expériences de comparaison d'efficacité
  • Pas de référence de performance : Pas de comparaison systématique avec d'autres plateformes d'interprétabilité
  • Validation d'utilisabilité : Manque d'évaluation de l'expérience utilisateur

2. Détails Techniques Insuffisants

  • Mécanisme de routage : La précision du routage basé sur embeddings n'est pas quantifiée
  • Gestion des erreurs : Pas de discussion sur la gestion des défaillances de compréhension de requêtes
  • Limitations d'extensibilité : Pas d'analyse des goulots d'étranglement de performance dans les scénarios à grande échelle

3. Limitations de la Méthode

  • Dépendance à l'orchestrateur : Les performances du système dépendent fortement des capacités du LLM orchestrateur
  • Outils limités : Seulement quatre agents, couverture limitée
  • Unimodal : Ne supporte pas les besoins d'explication des modèles multimodaux

4. Problèmes de Reproductibilité

  • Détails du dataset : Pas de description détaillée de la sélection et du traitement des datasets d'évaluation
  • Hyperparamètres : Manque de paramètres clés
  • Exigences de déploiement : Les exigences matérielles pour le déploiement local ne sont pas claires

Impact

Contribution au Domaine

  1. Changement de paradigme : Transition d'une collection d'outils vers une plateforme unifiée, pouvant guider le développement futur des outils d'interprétabilité
  2. Démocratisation : Réduction significative des barrières à la participation à la recherche en interprétabilité
  3. Standardisation : Fournit une architecture de référence pour l'intégration des outils d'interprétabilité

Valeur Pratique

  1. Applications industrielles : Peut être directement utilisé pour l'audit et le débogage de modèles en entreprise
  2. Utilisation éducative : Approprié pour l'enseignement et la formation
  3. Outil de recherche : Fournit une plateforme d'analyse de modèles pratique pour les chercheurs

Reproductibilité

  • Code open-source : Dépôt GitHub public, supportant les contributions communautaires
  • Documentation complète : Description claire de l'architecture système
  • Dépendances explicites : Dépendances de chaque composant clairement énumérées
  • Mais manque : Documentation de déploiement détaillée et tutoriels d'utilisation

Scénarios Applicables

Scénarios d'Application Idéaux

  1. Audit de modèles : Les entreprises ont besoin d'évaluer rapidement les biais et la sécurité des modèles
  2. Formation éducative : Enseigner les concepts et méthodes d'interprétabilité des LLM
  3. Exploration de recherche : Tester et comparer rapidement différentes méthodes d'explication
  4. Développement de prototypes : Vérifier rapidement le comportement des modèles pendant la phase de développement

Scénarios Limités

  1. Environnement de production : Peut nécessiter des garanties de performance et de stabilité plus élevées
  2. Modèles à très grande échelle : L'implémentation actuelle peut faire face à des goulots d'étranglement de performance
  3. Exigences personnalisées : Les besoins d'explication hautement spécialisés peuvent nécessiter une extension
  4. Applications en temps réel : L'interaction conversationnelle peut ne pas être appropriée pour la surveillance en temps réel

Références

Citations Clés

  1. Enquêtes sur l'interprétabilité :
    • Zhao et al. (2024): « Explainability for large language models: A survey »
    • Fournit une enquête complète sur l'interprétabilité des LLM
  2. Outils d'interprétabilité :
    • Vig (2019): BertViz - Visualisation d'attention
    • Nanda & Bloom (2022): TransformerLens - Analyse mécanique
  3. Évaluation du biais :
    • Gehman et al. (2020): Real Toxicity Prompts
    • Dhamala et al. (2021): Dataset BOLD
    • Nozza et al. (2021): Méthode d'évaluation HONEST
  4. IA de Confiance :
    • Huang et al. (2024): Cadre TRUSTLLM
    • Wu et al. (2024): Stratégies Usable XAI
  5. Cadres techniques :
    • LangGraph: Cadre d'orchestration multi-agentique
    • FAISS: Recherche de similarité efficace

Évaluation Globale

KnowThyself est un travail de nature pionnière, intégrant avec succès les outils fragmentés d'interprétabilité des LLM dans une plateforme conversationnelle unifiée. Son architecture multi-agentique et sa conception modulaire démontrent de bonnes pratiques d'ingénierie, et l'interaction conversationnelle réduit significativement les barrières techniques.

La valeur principale réside dans son orientation pratique et son extensibilité, fournissant une solution réalisable pour la démocratisation des outils d'interprétabilité. En tant qu'article de démonstration AAAI, il démontre avec succès la faisabilité et le potentiel du système.

Le principal regret est l'absence d'évaluation quantitative suffisante et d'études utilisateur, empêchant une vérification complète de l'efficacité du système dans des scénarios réels. Si les travaux futurs peuvent compléter ces évaluations, cela augmentera considérablement la force de conviction de l'article.

Dans l'ensemble, c'est un article de système de haute qualité, fournissant des outils et des perspectives précieuses pour la recherche et l'application en interprétabilité des LLM, méritant attention et développement ultérieur.