2025-11-24T19:25:18.115923

KnowThyself: An Agentic Assistant for LLM Interpretability

Prasai, Du, Zhang et al.

We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.

academic

KnowThyself: An Agentic Assistant for LLM Interpretability

基本信息

论文ID: 2511.03878
标题: KnowThyself: An Agentic Assistant for LLM Interpretability
作者: Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)
分类: cs.AI, cs.IR, cs.LG, cs.MA
发表时间/会议: AAAI 2026 (40th AAAI Conference on Artificial Intelligence - Demonstration Track)
论文链接: https://arxiv.org/abs/2511.03878
代码仓库: https://github.com/spygaurad/KnowThyself

摘要

本文开发了KnowThyself，一个推进大型语言模型（LLM）可解释性的智能体助手。现有工具虽然提供有用的洞察，但仍然碎片化且需要大量编码工作。KnowThyself将这些能力整合到基于聊天的界面中，用户可以上传模型、提出自然语言问题，并获得带有引导性解释的交互式可视化。其核心包括：编排器LLM首先重构用户查询，智能体路由器进一步将查询导向专门模块，最后将输出情境化为连贯的解释。这种设计降低了技术门槛，并提供了一个可扩展的LLM检查平台。通过将整个过程嵌入对话工作流，KnowThyself为可访问的LLM可解释性提供了坚实基础。

透明度需求：随着LLM在关键应用中的广泛部署，理解其决策机制变得至关重要
研究-实践鸿沟：可解释性研究进展远远落后于LLM的快速发展
技术门槛：现有工具需要大量技术专业知识，限制了可解释性的民主化

现有方法的局限性

碎片化：现有LLM可解释性方法（如归因方法、机制分析）虽然提供有价值的洞察，但各自孤立
难以使用：需要编写大量代码，技术门槛高
缺乏整合：现有平台既不支持对话式探索，也不提供交互式、有据可查的解释
技术壁垒：从业者难以访问和使用最新的可解释性技术

研究动机

弥合前沿可解释性研究与实际应用之间的差距，通过多智能体编排、模块化架构和交互式可视化，创建一个统一、可访问且可扩展的平台，使广大受众能够参与到新兴的解释技术中。

核心贡献

本文的主要贡献包括：

多智能体编排框架：提出了一个协调广泛解释任务的框架，支持灵活路由并生成连贯的解释
模块化架构：将不同的解释方法封装为独立智能体，支持新工具的无缝集成和未来的可扩展性
交互式可视化界面：提供带有自然语言解释的输出展示，显著降低有效模型检查的门槛
对话式工作流：将整个解释过程嵌入对话流程，无需编写代码即可完成模型上传、查询和结果获取

方法详解

任务定义

输入：

用户上传的待解释LLM模型
自然语言查询（如"展示模型如何关注句子中'she'这个词的token"）

输出：

交互式可视化结果
带有引导性的自然语言解释
相关的评估指标（如偏见分数）

约束条件：

保持对话的连贯性和上下文理解
支持多种解释方法的灵活调用
确保技术细节的可访问性

模型架构

KnowThyself采用四层架构设计：

1. 编排器LLM (Orchestrator LLM)

功能：作为监督模型管理用户交互和指导解释过程
具体任务：
- 重构用户查询
- 生成必要的子任务（如句子合成或工具选择）
- 情境化中间结果
- 生成连贯的自然语言解释
实现：使用Gemma3-27B模型
作用：确保复杂的可视化或偏见指标保持可理解性

2. 智能体路由器 (Agent Router)

功能：使用基于嵌入的相似性搜索将查询分派到专门智能体
路由机制：
- 将用户意图与智能体描述进行匹配
- 使用Ollama托管的nomic-embed-text模型进行嵌入
- 保持效率的同时确保查询与工具能力的对齐
扩展性：随着系统规模扩大，可以增强为基于LLM的路由以适应复杂情况

3. 专门智能体 (Specialized Agents)

当前系统集成四个智能体：

a) BertViz Agent

功能：注意力可视化
用途：展示模型在token间的注意力分布
依赖：HuggingFace Transformers

b) TransformerLens Agent

功能：分析细粒度的层级和头级激活
用途：深入检查特定层和注意力头的行为
依赖：HookedTransformer

c) RAG Explainer Agent

功能：在领域文献中检索相关信息
用途：提供有文献支撑的解释
技术：使用FAISS进行相似性搜索，索引相关文档

d) BiasEval Agent

功能：评估安全性和人口统计学差异
评估指标：
- Toxicity（毒性）：使用Real Toxicity Prompts数据集
- Regard（态度）：使用BOLD数据集评估对不同群体的情感倾向
- HONEST：评估有害句子补全
工作流程：提示模型、采样数据集、计算分数

4. 对话界面 (Conversational Interface)

功能：提供聊天界面支持模型上传、自然语言提问和结果检查
特点：
- 交互式可视化
- 无需技术专业知识
- 支持对话式探索

技术创新点

1. 统一的编排机制

创新：使用LLM作为编排器统一管理整个解释流程
优势：将碎片化的工具整合到单一对话流中
实现：通过LangGraph建模为有向图，智能体共享状态

2. 智能路由系统

创新：基于嵌入的相似性搜索实现查询-工具匹配
合理性：
- 高效：避免复杂的规则系统
- 准确：通过语义相似性确保正确路由
- 可扩展：可升级为LLM路由处理复杂场景

3. 模块化插件架构

创新：每个智能体封装独立的解释方法
优势：
- 隔离依赖：不同工具的依赖互不干扰
- 易于扩展：新工具可无缝集成
- 独立开发：各模块可独立维护和升级

4. 上下文感知的解释生成

创新：编排器自动合成必要输入（如示例句子）并生成情境化解释
价值：降低用户负担，提供更易理解的输出

实验设置

模型配置

预包含的用户模型：
- GPT-2
- BERT
- LLaMA2-13B
模型托管：大型模型通过Ollama托管以提高效率
部署方式：支持本地运行（资源允许时），无需第三方API，确保安全分析

评价指标

偏见评估指标

Toxicity（毒性）：
- 数据集：Real Toxicity Prompts
- 评估：模型生成内容的毒性水平
Regard（态度）：
- 数据集：BOLD (Bias in Open-ended Language Generation Dataset)
- 评估：模型对不同人口统计群体的情感倾向差异
- 输出：正面、负面、中性、其他类别的差异分数
HONEST：
- 评估：语言模型中有害句子补全的程度
- 用途：衡量模型在续写时的潜在伤害性

实现细节

框架：LangGraph，建模为智能体有向图
嵌入模型：Ollama托管的nomic-embed-text
编排模型：Gemma3-27B
依赖管理：各智能体独立封装依赖
检索技术：RAG智能体使用FAISS进行文档索引和相似性搜索

路由：Agent Router选择TransformerLens智能体
输入合成：编排器自动合成句子："Maria went to the library because she needed a book."
分析：TransformerLens计算注意力图
可视化：生成交互式注意力可视化
解释：编排器提供情境化解释：
- "Maria"接收来自自身、<endoftext>和"went"的注意力
- 表明模型将"Maria"识别为句子主语
- 模型关注彼此最相关的词，这是注意力机制的关键特征

结果展示：提供直观的注意力热图，清晰显示token间的注意力权重分布

案例2：性别偏见评估

用户查询："Does my model show gender bias in how it answers questions?"

系统工作流：

任务识别：编排器识别为新任务（非跟进问题）
路由：Agent Router选择BiasEval智能体
子模块选择：编排器选择regard评估
数据采样：从BOLD数据集采样提示
评估：在用户模型上运行并计算分数
结果汇总：编排器总结并呈现结果

评估结果：

"Regard_Difference": {
   "Neutral": 0.177,
   "Negative": 0.120,
   "Other": 0.057,
   "Positive": -0.354
}

解释：

模型在续写男性相关文本时生成的积极情感显著减少（35.4%差异）
相比女性相关文本，存在明显的性别偏见

实验发现

无缝任务切换：用户可以在同一会话中从注意力分析无缝切换到偏见评估
自动化程度高：系统自动处理输入合成、工具选择和结果解释
可解释性强：技术输出（如注意力权重、偏见分数）被转化为易懂的自然语言
交互性好：可视化结果支持交互式探索

结论与讨论

主要结论

系统价值：KnowThyself成功将LLM可解释性工具整合到对话式工作流中
技术创新：多智能体编排和模块化架构有效降低了技术门槛
实用性：通过交互式可视化和文献支撑的解释，使从业者能更有效地参与模型可解释性工作
可扩展性：架构设计支持新方法的轻松集成

局限性

论文明确指出以下限制：

工具覆盖有限：当前仅集成四个智能体，覆盖的解释方法有限
工程需求：需要额外工程工作来适配非模块化库
单模态限制：仅支持文本输入，不支持多模态模型
路由精度：对于重叠任务，路由精度可能需要改进
依赖管理：不同工具的依赖隔离需要额外工程

未来方向

论文提出以下研究方向：

扩大工具覆盖：集成更多可解释性方法和技术
多模态支持：扩展到图像、音频等多模态模型的解释
改进路由：提高重叠任务场景下的路由精确度
增强可视化：引入更丰富的可视化能力以提供更深入的洞察
性能优化：提高大规模模型的处理效率

架构创新：首次将多智能体系统应用于LLM可解释性平台
交互范式：开创性地使用对话界面进行模型解释
编排机制：巧妙利用LLM本身来编排解释流程

2. 实用价值

降低门槛：显著降低使用可解释性工具的技术门槛
提高效率：统一界面避免了在多个工具间切换
即时反馈：对话式交互提供即时、易懂的反馈

3. 系统设计

模块化：良好的模块化设计支持独立开发和维护
可扩展性：插件式架构便于集成新工具
灵活性：支持本地部署，保护数据隐私

4. 写作质量

清晰度高：系统架构描述清晰，图示直观
案例丰富：通过具体案例展示系统能力
诚实透明：明确指出局限性和未来方向

不足

1. 实验评估不足

缺乏定量评估：未提供用户研究或效率对比实验
无性能基准：未与其他可解释性平台进行系统性比较
可用性验证：缺乏用户体验评估

2. 技术细节不够充分

路由机制：嵌入式路由的准确率未量化
错误处理：未讨论查询理解失败时的处理机制
扩展性限制：未分析系统在大规模场景下的性能瓶颈

3. 方法局限性

依赖编排器：系统性能高度依赖编排LLM的能力
工具有限：仅四个智能体，覆盖面有限
单模态：不支持多模态模型的解释需求

4. 可复现性问题

数据集细节：未详细说明评估数据集的选择和处理
超参数：缺少关键超参数设置
部署要求：本地部署的硬件要求未明确

影响力

对领域的贡献

范式转变：从工具集合转向统一平台，可能引领可解释性工具的发展方向
民主化：显著降低可解释性研究的参与门槛
标准化：为可解释性工具的集成提供了参考架构

实用价值

工业应用：可直接用于企业的模型审计和调试
教育用途：适合教学和培训场景
研究工具：为研究者提供便捷的模型分析平台

可复现性

代码开源：GitHub仓库公开，支持社区贡献
文档完整：系统架构描述清晰
依赖明确：各组件依赖明确列出
但缺少：详细的部署文档和使用教程

适用场景

理想应用场景

模型审计：企业需要快速评估模型偏见和安全性
教育培训：教授LLM可解释性概念和方法
研究探索：快速测试和比较不同解释方法
原型开发：在开发阶段快速检查模型行为

限制场景

生产环境：可能需要更高的性能和稳定性保证
超大规模模型：当前实现可能面临性能瓶颈
定制需求：高度专业化的解释需求可能需要扩展
实时应用：对话式交互可能不适合实时监控场景

参考文献

关键引用

可解释性综述：
- Zhao et al. (2024): "Explainability for large language models: A survey"
- 提供了LLM可解释性的全面综述
可解释性工具：
- Vig (2019): BertViz - 注意力可视化
- Nanda & Bloom (2022): TransformerLens - 机制分析
偏见评估：
- Gehman et al. (2020): Real Toxicity Prompts
- Dhamala et al. (2021): BOLD数据集
- Nozza et al. (2021): HONEST评估方法
可信赖AI：
- Huang et al. (2024): TRUSTLLM框架
- Wu et al. (2024): Usable XAI策略
技术框架：
- LangGraph: 多智能体编排框架
- FAISS: 高效相似性搜索

总体评价

KnowThyself是一个具有开创性的工作，成功地将碎片化的LLM可解释性工具整合到统一的对话式平台中。其多智能体架构和模块化设计展示了良好的工程实践，对话式交互显著降低了技术门槛。

主要价值在于其实用导向和可扩展性，为可解释性工具的民主化提供了切实可行的方案。作为AAAI演示论文，它成功展示了系统的可行性和潜力。

主要遗憾是缺乏充分的定量评估和用户研究，无法全面验证系统在真实场景中的效果。未来工作如能补充这些评估，将大大增强论文的说服力。

总体而言，这是一篇高质量的系统论文，为LLM可解释性研究和应用提供了有价值的工具和思路，值得关注和进一步发展。