We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.
论文ID : 2511.03878标题 : KnowThyself: An Agentic Assistant for LLM Interpretability作者 : Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)分类 : cs.AI, cs.IR, cs.LG, cs.MA发表时间/会议 : AAAI 2026 (40th AAAI Conference on Artificial Intelligence - Demonstration Track)论文链接 : https://arxiv.org/abs/2511.03878 代码仓库 : https://github.com/spygaurad/KnowThyself 本文开发了KnowThyself,一个推进大型语言模型(LLM)可解释性的智能体助手。现有工具虽然提供有用的洞察,但仍然碎片化且需要大量编码工作。KnowThyself将这些能力整合到基于聊天的界面中,用户可以上传模型、提出自然语言问题,并获得带有引导性解释的交互式可视化。其核心包括:编排器LLM首先重构用户查询,智能体路由器进一步将查询导向专门模块,最后将输出情境化为连贯的解释。这种设计降低了技术门槛,并提供了一个可扩展的LLM检查平台。通过将整个过程嵌入对话工作流,KnowThyself为可访问的LLM可解释性提供了坚实基础。
大型语言模型虽然在语言理解、推理和问题解决方面表现出色,但其黑箱特性使得内部决策过程难以解释,这引发了关于透明度、信任和问责制的担忧。
透明度需求 :随着LLM在关键应用中的广泛部署,理解其决策机制变得至关重要研究-实践鸿沟 :可解释性研究进展远远落后于LLM的快速发展技术门槛 :现有工具需要大量技术专业知识,限制了可解释性的民主化碎片化 :现有LLM可解释性方法(如归因方法、机制分析)虽然提供有价值的洞察,但各自孤立难以使用 :需要编写大量代码,技术门槛高缺乏整合 :现有平台既不支持对话式探索,也不提供交互式、有据可查的解释技术壁垒 :从业者难以访问和使用最新的可解释性技术弥合前沿可解释性研究与实际应用之间的差距,通过多智能体编排、模块化架构和交互式可视化,创建一个统一、可访问且可扩展的平台,使广大受众能够参与到新兴的解释技术中。
本文的主要贡献包括:
多智能体编排框架 :提出了一个协调广泛解释任务的框架,支持灵活路由并生成连贯的解释模块化架构 :将不同的解释方法封装为独立智能体,支持新工具的无缝集成和未来的可扩展性交互式可视化界面 :提供带有自然语言解释的输出展示,显著降低有效模型检查的门槛对话式工作流 :将整个解释过程嵌入对话流程,无需编写代码即可完成模型上传、查询和结果获取输入 :
用户上传的待解释LLM模型 自然语言查询(如"展示模型如何关注句子中'she'这个词的token") 输出 :
交互式可视化结果 带有引导性的自然语言解释 相关的评估指标(如偏见分数) 约束条件 :
保持对话的连贯性和上下文理解 支持多种解释方法的灵活调用 确保技术细节的可访问性 KnowThyself采用四层架构设计:
功能 :作为监督模型管理用户交互和指导解释过程具体任务 :
重构用户查询 生成必要的子任务(如句子合成或工具选择) 情境化中间结果 生成连贯的自然语言解释 实现 :使用Gemma3-27B模型作用 :确保复杂的可视化或偏见指标保持可理解性功能 :使用基于嵌入的相似性搜索将查询分派到专门智能体路由机制 :
将用户意图与智能体描述进行匹配 使用Ollama托管的nomic-embed-text模型进行嵌入 保持效率的同时确保查询与工具能力的对齐 扩展性 :随着系统规模扩大,可以增强为基于LLM的路由以适应复杂情况当前系统集成四个智能体:
a) BertViz Agent
功能:注意力可视化 用途:展示模型在token间的注意力分布 依赖:HuggingFace Transformers b) TransformerLens Agent
功能:分析细粒度的层级和头级激活 用途:深入检查特定层和注意力头的行为 依赖:HookedTransformer c) RAG Explainer Agent
功能:在领域文献中检索相关信息 用途:提供有文献支撑的解释 技术:使用FAISS进行相似性搜索,索引相关文档 d) BiasEval Agent
功能:评估安全性和人口统计学差异 评估指标:
Toxicity (毒性):使用Real Toxicity Prompts数据集Regard (态度):使用BOLD数据集评估对不同群体的情感倾向HONEST :评估有害句子补全 工作流程:提示模型、采样数据集、计算分数 功能 :提供聊天界面支持模型上传、自然语言提问和结果检查特点 :
创新 :使用LLM作为编排器统一管理整个解释流程优势 :将碎片化的工具整合到单一对话流中实现 :通过LangGraph建模为有向图,智能体共享状态创新 :基于嵌入的相似性搜索实现查询-工具匹配合理性 :
高效:避免复杂的规则系统 准确:通过语义相似性确保正确路由 可扩展:可升级为LLM路由处理复杂场景 创新 :每个智能体封装独立的解释方法优势 :
隔离依赖:不同工具的依赖互不干扰 易于扩展:新工具可无缝集成 独立开发:各模块可独立维护和升级 创新 :编排器自动合成必要输入(如示例句子)并生成情境化解释价值 :降低用户负担,提供更易理解的输出预包含的用户模型 :
模型托管 :大型模型通过Ollama托管以提高效率部署方式 :支持本地运行(资源允许时),无需第三方API,确保安全分析Toxicity(毒性) :数据集:Real Toxicity Prompts 评估:模型生成内容的毒性水平 Regard(态度) :数据集:BOLD (Bias in Open-ended Language Generation Dataset) 评估:模型对不同人口统计群体的情感倾向差异 输出:正面、负面、中性、其他类别的差异分数 HONEST :评估:语言模型中有害句子补全的程度 用途:衡量模型在续写时的潜在伤害性 框架 :LangGraph,建模为智能体有向图嵌入模型 :Ollama托管的nomic-embed-text编排模型 :Gemma3-27B依赖管理 :各智能体独立封装依赖检索技术 :RAG智能体使用FAISS进行文档索引和相似性搜索论文通过两个典型案例展示了系统的工作流程:
用户查询 :"Show me how the model attends across tokens for the word 'she' in a sentence."
系统工作流 :
路由 :Agent Router选择TransformerLens智能体输入合成 :编排器自动合成句子:"Maria went to the library because she needed a book."分析 :TransformerLens计算注意力图可视化 :生成交互式注意力可视化解释 :编排器提供情境化解释:
"Maria"接收来自自身、<endoftext>和"went"的注意力 表明模型将"Maria"识别为句子主语 模型关注彼此最相关的词,这是注意力机制的关键特征 结果展示 :提供直观的注意力热图,清晰显示token间的注意力权重分布
用户查询 :"Does my model show gender bias in how it answers questions?"
系统工作流 :
任务识别 :编排器识别为新任务(非跟进问题)路由 :Agent Router选择BiasEval智能体子模块选择 :编排器选择regard评估数据采样 :从BOLD数据集采样提示评估 :在用户模型上运行并计算分数结果汇总 :编排器总结并呈现结果评估结果 :
" Regard_Difference " : {
" Neutral " : 0.177 ,
" Negative " : 0.120 ,
" Other " : 0.057 ,
" Positive " : -0.354
}
解释 :
模型在续写男性相关文本时生成的积极情感显著减少(35.4%差异) 相比女性相关文本,存在明显的性别偏见 无缝任务切换 :用户可以在同一会话中从注意力分析无缝切换到偏见评估自动化程度高 :系统自动处理输入合成、工具选择和结果解释可解释性强 :技术输出(如注意力权重、偏见分数)被转化为易懂的自然语言交互性好 :可视化结果支持交互式探索研究内容 :为token、样本或隐藏状态分配重要性分数代表工作 :
LLM Attribution survey (Li et al., 2023) LLM Attributor (Lee et al., 2025) 局限 :通常需要技术专业知识,缺乏统一界面研究内容 :分析注意力头、神经元或电路的内部机制代表工作 :
Transcoders (Dunefsky et al., 2024) Mechanistic Interpretability探索 (Gantla, 2025) 局限 :工具碎片化,难以整合使用BertViz :多尺度注意力可视化TransformerLens :细粒度激活分析局限 :各自独立,需要分别学习和使用TRUSTLLM :大型语言模型的可信赖性框架Usable XAI :面向LLM时代的可用可解释性策略本文定位 :实现这些理论框架的实用化统一平台 :首次将多种可解释性方法整合到单一对话界面降低门槛 :无需编码即可使用高级解释工具模块化设计 :支持工具的独立开发和无缝集成实用导向 :从研究工具转向实用助手系统价值 :KnowThyself成功将LLM可解释性工具整合到对话式工作流中技术创新 :多智能体编排和模块化架构有效降低了技术门槛实用性 :通过交互式可视化和文献支撑的解释,使从业者能更有效地参与模型可解释性工作可扩展性 :架构设计支持新方法的轻松集成论文明确指出以下限制:
工具覆盖有限 :当前仅集成四个智能体,覆盖的解释方法有限工程需求 :需要额外工程工作来适配非模块化库单模态限制 :仅支持文本输入,不支持多模态模型路由精度 :对于重叠任务,路由精度可能需要改进依赖管理 :不同工具的依赖隔离需要额外工程论文提出以下研究方向:
扩大工具覆盖 :集成更多可解释性方法和技术多模态支持 :扩展到图像、音频等多模态模型的解释改进路由 :提高重叠任务场景下的路由精确度增强可视化 :引入更丰富的可视化能力以提供更深入的洞察性能优化 :提高大规模模型的处理效率架构创新 :首次将多智能体系统应用于LLM可解释性平台交互范式 :开创性地使用对话界面进行模型解释编排机制 :巧妙利用LLM本身来编排解释流程降低门槛 :显著降低使用可解释性工具的技术门槛提高效率 :统一界面避免了在多个工具间切换即时反馈 :对话式交互提供即时、易懂的反馈模块化 :良好的模块化设计支持独立开发和维护可扩展性 :插件式架构便于集成新工具灵活性 :支持本地部署,保护数据隐私清晰度高 :系统架构描述清晰,图示直观案例丰富 :通过具体案例展示系统能力诚实透明 :明确指出局限性和未来方向缺乏定量评估 :未提供用户研究或效率对比实验无性能基准 :未与其他可解释性平台进行系统性比较可用性验证 :缺乏用户体验评估路由机制 :嵌入式路由的准确率未量化错误处理 :未讨论查询理解失败时的处理机制扩展性限制 :未分析系统在大规模场景下的性能瓶颈依赖编排器 :系统性能高度依赖编排LLM的能力工具有限 :仅四个智能体,覆盖面有限单模态 :不支持多模态模型的解释需求数据集细节 :未详细说明评估数据集的选择和处理超参数 :缺少关键超参数设置部署要求 :本地部署的硬件要求未明确范式转变 :从工具集合转向统一平台,可能引领可解释性工具的发展方向民主化 :显著降低可解释性研究的参与门槛标准化 :为可解释性工具的集成提供了参考架构工业应用 :可直接用于企业的模型审计和调试教育用途 :适合教学和培训场景研究工具 :为研究者提供便捷的模型分析平台代码开源 :GitHub仓库公开,支持社区贡献文档完整 :系统架构描述清晰依赖明确 :各组件依赖明确列出但缺少 :详细的部署文档和使用教程模型审计 :企业需要快速评估模型偏见和安全性教育培训 :教授LLM可解释性概念和方法研究探索 :快速测试和比较不同解释方法原型开发 :在开发阶段快速检查模型行为生产环境 :可能需要更高的性能和稳定性保证超大规模模型 :当前实现可能面临性能瓶颈定制需求 :高度专业化的解释需求可能需要扩展实时应用 :对话式交互可能不适合实时监控场景可解释性综述 :Zhao et al. (2024): "Explainability for large language models: A survey" 提供了LLM可解释性的全面综述 可解释性工具 :Vig (2019): BertViz - 注意力可视化 Nanda & Bloom (2022): TransformerLens - 机制分析 偏见评估 :Gehman et al. (2020): Real Toxicity Prompts Dhamala et al. (2021): BOLD数据集 Nozza et al. (2021): HONEST评估方法 可信赖AI :Huang et al. (2024): TRUSTLLM框架 Wu et al. (2024): Usable XAI策略 技术框架 :LangGraph: 多智能体编排框架 FAISS: 高效相似性搜索 KnowThyself是一个具有开创性的工作 ,成功地将碎片化的LLM可解释性工具整合到统一的对话式平台中。其多智能体架构和模块化设计展示了良好的工程实践,对话式交互显著降低了技术门槛。
主要价值 在于其实用导向 和可扩展性 ,为可解释性工具的民主化提供了切实可行的方案。作为AAAI演示论文,它成功展示了系统的可行性和潜力。
主要遗憾 是缺乏充分的定量评估和用户研究,无法全面验证系统在真实场景中的效果。未来工作如能补充这些评估,将大大增强论文的说服力。
总体而言,这是一篇高质量的系统论文 ,为LLM可解释性研究和应用提供了有价值的工具和思路,值得关注和进一步发展。