KnowThyself: An Agentic Assistant for LLM Interpretability
Prasai, Du, Zhang et al.
We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.
academic
KnowThyself : Un Assistant Agentique pour l'Interprétabilité des LLM
Titre : KnowThyself: An Agentic Assistant for LLM Interpretability
Auteurs : Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)
Classification : cs.AI, cs.IR, cs.LG, cs.MA
Date de publication/Conférence : AAAI 2026 (40e Conférence AAAI sur l'Intelligence Artificielle - Piste Démonstration)
Cet article développe KnowThyself, un assistant agentique qui fait progresser l'interprétabilité des grands modèles de langage (LLM). Bien que les outils existants offrent des perspectives utiles, ils demeurent fragmentés et nécessitent un travail de codage considérable. KnowThyself intègre ces capacités dans une interface basée sur le chat, où les utilisateurs peuvent télécharger des modèles, poser des questions en langage naturel et obtenir des visualisations interactives accompagnées d'explications guidées. Son noyau comprend : un LLM orchestrateur qui reconstruit d'abord la requête de l'utilisateur, un routeur agentique qui dirige ensuite la requête vers des modules spécialisés, et enfin contextualise la sortie en explications cohérentes. Cette conception réduit les barrières techniques et fournit une plateforme d'inspection des LLM extensible. En intégrant l'ensemble du processus dans un flux de travail conversationnel, KnowThyself fournit une base solide pour l'interprétabilité accessible des LLM.
Bien que les grands modèles de langage excellent dans la compréhension du langage, le raisonnement et la résolution de problèmes, leur nature de boîte noire rend difficile l'explication du processus décisionnel interne, soulevant des préoccupations concernant la transparence, la confiance et la responsabilité.
Besoin de transparence : Avec le déploiement généralisé des LLM dans les applications critiques, comprendre leurs mécanismes décisionnels devient crucial
Fossé recherche-pratique : Les progrès en interprétabilité sont bien en retard par rapport au développement rapide des LLM
Barrière technique : Les outils existants nécessitent une expertise technique considérable, limitant la démocratisation de l'interprétabilité
Fragmentation : Les méthodes existantes d'interprétabilité des LLM (telles que les méthodes d'attribution, l'analyse mécanique) offrent des perspectives précieuses mais restent isolées
Difficultés d'utilisation : Nécessitent l'écriture de code considérable avec une barrière technique élevée
Manque d'intégration : Les plateformes existantes ne supportent ni l'exploration conversationnelle ni les explications interactives et documentées
Barrières technologiques : Les praticiens ont du mal à accéder et utiliser les dernières techniques d'interprétabilité
Combler le fossé entre la recherche avant-gardiste en interprétabilité et les applications pratiques, en créant une plateforme unifiée, accessible et extensible grâce à l'orchestration multi-agentique, une architecture modulaire et des visualisations interactives, permettant à un large public de participer aux techniques d'explication émergentes.
Les principales contributions de cet article incluent :
Cadre d'orchestration multi-agentique : Propose un cadre coordonnant un large éventail de tâches d'explication, supportant le routage flexible et la génération d'explications cohérentes
Architecture modulaire : Encapsule différentes méthodes d'explication en tant qu'agents indépendants, supportant l'intégration transparente de nouveaux outils et l'extensibilité future
Interface de visualisation interactive : Fournit une présentation des résultats avec explications en langage naturel, réduisant significativement les barrières à l'inspection efficace des modèles
Flux de travail conversationnel : Intègre l'ensemble du processus d'explication dans un flux conversationnel, permettant le téléchargement de modèles, les requêtes et la récupération des résultats sans écrire de code
Innovation : L'orchestrateur synthétise automatiquement les entrées nécessaires (par exemple, des phrases d'exemple) et génère des explications contextualisées
Valeur : Réduire la charge utilisateur et fournir des résultats plus compréhensibles
Synthèse d'entrée : L'orchestrateur synthétise automatiquement la phrase : « Maria went to the library because she needed a book. »
Analyse : TransformerLens calcule le graphe d'attention
Visualisation : Génère une visualisation d'attention interactive
Explication : L'orchestrateur fournit une explication contextualisée :
« Maria » reçoit l'attention d'elle-même, de <endoftext> et de « went »
Indique que le modèle identifie « Maria » comme sujet de la phrase
Le modèle prête attention aux mots les plus pertinents les uns par rapport aux autres, caractéristique clé du mécanisme d'attention
Présentation des résultats : Fournit une carte thermique d'attention intuitive, affichant clairement la distribution des poids d'attention entre les tokens
Commutation transparente de tâches : Les utilisateurs peuvent passer sans problème de l'analyse d'attention à l'évaluation du biais dans la même session
Haut degré d'automatisation : Le système gère automatiquement la synthèse d'entrée, la sélection d'outils et l'interprétation des résultats
Forte interprétabilité : Les résultats techniques (tels que les poids d'attention, les scores de biais) sont transformés en langage naturel compréhensible
Bonne interactivité : Les résultats de visualisation supportent l'exploration interactive
Valeur du système : KnowThyself intègre avec succès les outils d'interprétabilité des LLM dans un flux de travail conversationnel
Innovation technique : L'orchestration multi-agentique et l'architecture modulaire réduisent efficacement les barrières techniques
Praticité : Grâce aux visualisations interactives et aux explications soutenues par la littérature, les praticiens peuvent participer plus efficacement aux travaux d'interprétabilité des modèles
Extensibilité : La conception architecturale supporte l'intégration facile de nouvelles méthodes
Changement de paradigme : Transition d'une collection d'outils vers une plateforme unifiée, pouvant guider le développement futur des outils d'interprétabilité
Démocratisation : Réduction significative des barrières à la participation à la recherche en interprétabilité
Standardisation : Fournit une architecture de référence pour l'intégration des outils d'interprétabilité
KnowThyself est un travail de nature pionnière, intégrant avec succès les outils fragmentés d'interprétabilité des LLM dans une plateforme conversationnelle unifiée. Son architecture multi-agentique et sa conception modulaire démontrent de bonnes pratiques d'ingénierie, et l'interaction conversationnelle réduit significativement les barrières techniques.
La valeur principale réside dans son orientation pratique et son extensibilité, fournissant une solution réalisable pour la démocratisation des outils d'interprétabilité. En tant qu'article de démonstration AAAI, il démontre avec succès la faisabilité et le potentiel du système.
Le principal regret est l'absence d'évaluation quantitative suffisante et d'études utilisateur, empêchant une vérification complète de l'efficacité du système dans des scénarios réels. Si les travaux futurs peuvent compléter ces évaluations, cela augmentera considérablement la force de conviction de l'article.
Dans l'ensemble, c'est un article de système de haute qualité, fournissant des outils et des perspectives précieuses pour la recherche et l'application en interprétabilité des LLM, méritant attention et développement ultérieur.