2025-11-24T19:25:18.115923

KnowThyself: An Agentic Assistant for LLM Interpretability

Prasai, Du, Zhang et al.
We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.
academic

KnowThyself: LLM解釈可能性のためのエージェント型アシスタント

基本情報

  • 論文ID: 2511.03878
  • タイトル: KnowThyself: An Agentic Assistant for LLM Interpretability
  • 著者: Suraj Prasai (Wake Forest University)、Mengnan Du (New Jersey Institute of Technology)、Ying Zhang (Wake Forest University)、Fan Yang (Wake Forest University)
  • 分類: cs.AI、cs.IR、cs.LG、cs.MA
  • 発表時期/会議: AAAI 2026 (第40回AAAI人工知能会議 - デモンストレーショントラック)
  • 論文リンク: https://arxiv.org/abs/2511.03878
  • コードリポジトリ: https://github.com/spygaurad/KnowThyself

要約

本論文は、大規模言語モデル(LLM)の解釈可能性を推進するエージェント型アシスタント「KnowThyself」を開発した。既存のツールは有用な洞察を提供するが、依然として断片化されており、大量のコーディング作業を必要とする。KnowThyself は、これらの機能をチャットベースのインターフェースに統合し、ユーザーはモデルをアップロードし、自然言語で質問を提出し、ガイド付き解釈を伴うインタラクティブな可視化を取得できる。その中核には以下が含まれる:オーケストレーターLLMがまずユーザークエリを再構成し、エージェントルーターがクエリを専門モジュールへさらに導き、最後に出力を一貫した解釈に文脈化する。この設計は技術的障壁を低減し、スケーラブルなLLM検査プラットフォームを提供する。プロセス全体を対話ワークフローに組み込むことで、KnowThyself はアクセス可能なLLM解釈可能性のための堅固な基盤を提供する。

研究背景と動機

核心的課題

大規模言語モデルは言語理解、推論、問題解決において優れた性能を示すが、その黒箱的性質により内部の意思決定プロセスが解釈困難であり、透明性、信頼性、説明責任に関する懸念を引き起こしている。

問題の重要性

  1. 透明性の必要性:LLMが重要なアプリケーションに広く展開されるにつれ、その意思決定メカニズムの理解が極めて重要になる
  2. 研究と実践のギャップ:解釈可能性研究の進展はLLMの急速な発展に大きく遅れている
  3. 技術的障壁:既存ツールは大量の技術的専門知識を必要とし、解釈可能性の民主化を制限している

既存手法の限界

  1. 断片化:既存のLLM解釈可能性手法(帰属法、メカニズム分析など)は価値ある洞察を提供するが、各々が孤立している
  2. 使用困難性:大量のコード記述が必要であり、技術的障壁が高い
  3. 統合の欠如:既存プラットフォームは対話的な探索をサポートせず、インタラクティブで根拠のある解釈を提供していない
  4. 技術的障壁:実務家が最新の解釈可能性技術にアクセスし使用することが困難である

研究動機

最先端の解釈可能性研究と実際のアプリケーション間のギャップを埋めることで、マルチエージェント編成、モジュール化アーキテクチャ、インタラクティブな可視化を通じて、統一的でアクセス可能かつスケーラブルなプラットフォームを構築し、広範な利用者が新興の解釈技術に参加できるようにする。

核心的貢献

本論文の主な貢献は以下の通りである:

  1. マルチエージェント編成フレームワーク:広範な解釈タスクを調整するフレームワークを提案し、柔軟なルーティングと一貫した解釈の生成をサポートする
  2. モジュール化アーキテクチャ:異なる解釈方法を独立したエージェントにカプセル化し、新しいツールのシームレスな統合と将来のスケーラビリティをサポートする
  3. インタラクティブな可視化インターフェース:自然言語解釈を伴う出力表示を提供し、効果的なモデル検査の障壁を大幅に低減する
  4. 対話的ワークフロー:解釈プロセス全体を対話フローに組み込み、コード記述なしでモデルのアップロード、クエリ、結果取得を完了できる

方法の詳細

タスク定義

入力

  • ユーザーがアップロードした解釈対象のLLMモデル
  • 自然言語クエリ(例:「モデルが文中の'she'というトークンにどのように注意を向けるかを表示してください」)

出力

  • インタラクティブな可視化結果
  • ガイド付きの自然言語解釈
  • 関連する評価指標(バイアススコアなど)

制約条件

  • 対話の一貫性と文脈理解の維持
  • 複数の解釈方法の柔軟な呼び出しのサポート
  • 技術的詳細のアクセス可能性の確保

モデルアーキテクチャ

KnowThyself は4層アーキテクチャ設計を採用している:

1. オーケストレーターLLM (Orchestrator LLM)

  • 機能:ユーザーインタラクションを監督し、解釈プロセスをガイドするモデルとして機能する
  • 具体的タスク
    • ユーザークエリの再構成
    • 必要なサブタスク(文生成やツール選択など)の生成
    • 中間結果の文脈化
    • 一貫した自然言語解釈の生成
  • 実装:Gemma3-27Bモデルを使用
  • 役割:複雑な可視化またはバイアス指標の理解可能性を確保する

2. エージェントルーター (Agent Router)

  • 機能:埋め込みベースの類似性検索を使用してクエリを専門エージェントにディスパッチする
  • ルーティングメカニズム
    • ユーザーの意図をエージェント説明と照合
    • Ollama でホストされた nomic-embed-text モデルを使用して埋め込みを実行
    • 効率を維持しながらクエリとツール機能の整合性を確保
  • 拡張性:システムスケールの拡大に伴い、複雑な状況に対応するためLLMベースのルーティングに強化可能

3. 専門エージェント (Specialized Agents)

現在のシステムは4つのエージェントを統合している:

a) BertViz エージェント

  • 機能:注意メカニズムの可視化
  • 用途:トークン間の注意分布を表示
  • 依存関係:HuggingFace Transformers

b) TransformerLens エージェント

  • 機能:細粒度の層およびヘッドレベルの活性化を分析
  • 用途:特定の層と注意ヘッドの動作を深く検査
  • 依存関係:HookedTransformer

c) RAG説明エージェント

  • 機能:領域文献から関連情報を検索
  • 用途:文献に支持された解釈を提供
  • 技術:FAISSを使用した類似性検索、関連文書のインデックス化

d) BiasEval エージェント

  • 機能:安全性と人口統計学的差異を評価
  • 評価指標:
    • Toxicity(毒性):Real Toxicity Prompts データセットを使用
    • Regard(態度):BOLD データセットを使用して異なるグループに対する感情傾向を評価
    • HONEST:有害な文補完を評価
  • ワークフロー:モデルへのプロンプト、データセットのサンプリング、スコアの計算

4. 対話インターフェース (Conversational Interface)

  • 機能:モデルのアップロード、自然言語での質問、結果の確認をサポートするチャットインターフェースを提供
  • 特徴
    • インタラクティブな可視化
    • 技術的専門知識不要
    • 対話的な探索をサポート

技術的革新点

1. 統一された編成メカニズム

  • 革新:LLMをオーケストレーターとして使用して解釈プロセス全体を統一的に管理
  • 利点:断片化されたツールを単一の対話フローに統合
  • 実装:LangGraph を使用して有向グラフとしてモデル化し、エージェント間で状態を共有

2. インテリジェントルーティングシステム

  • 革新:埋め込みベースの類似性検索によるクエリ-ツール照合を実装
  • 合理性
    • 効率的:複雑なルールシステムを回避
    • 正確:セマンティック類似性により正確なルーティングを確保
    • スケーラブル:複雑なシナリオに対応するためLLMルーティングにアップグレード可能

3. モジュール化プラグインアーキテクチャ

  • 革新:各エージェントが独立した解釈方法をカプセル化
  • 利点
    • 依存関係の分離:異なるツールの依存関係は相互に干渉しない
    • 拡張の容易性:新しいツールをシームレスに統合可能
    • 独立した開発:各モジュールを独立して保守・アップグレード可能

4. 文脈認識の解釈生成

  • 革新:オーケストレーターが必要な入力(例:サンプル文)を自動合成し、文脈化された解釈を生成
  • 価値:ユーザーの負担を軽減し、より理解しやすい出力を提供

実験設定

モデル構成

  1. 事前に含まれるユーザーモデル
    • GPT-2
    • BERT
    • LLaMA2-13B
  2. モデルホスティング:大規模モデルは効率向上のためOllama でホスト
  3. デプロイ方法:ローカル実行をサポート(リソース許可時)、第三者API不要で安全な分析を確保

評価指標

バイアス評価指標

  1. Toxicity(毒性)
    • データセット:Real Toxicity Prompts
    • 評価:モデルが生成するコンテンツの毒性レベル
  2. Regard(態度)
    • データセット:BOLD (Bias in Open-ended Language Generation Dataset)
    • 評価:異なる人口統計グループに対するモデルの感情傾向差異
    • 出力:肯定的、否定的、中立的、その他カテゴリーの差異スコア
  3. HONEST
    • 評価:言語モデルにおける有害な文補完の程度
    • 用途:補完時のモデルの潜在的害を測定

実装詳細

  1. フレームワーク:LangGraph、エージェント有向グラフとしてモデル化
  2. 埋め込みモデル:Ollama でホストされた nomic-embed-text
  3. 編成モデル:Gemma3-27B
  4. 依存関係管理:各エージェントが依存関係を独立してカプセル化
  5. 検索技術:RAG エージェントは文書インデックスと類似性検索に FAISS を使用

実験結果

ユースケースデモンストレーション

論文は、システムのワークフローを示すために2つの典型的なケースを提示している:

ケース1:トークン注意可視化

ユーザークエリ:「文中の単語'she'に対してモデルがトークン間でどのように注意を向けるかを表示してください」

システムワークフロー

  1. ルーティング:Agent Router が TransformerLens エージェントを選択
  2. 入力合成:オーケストレーターが自動的に文を合成:「Maria went to the library because she needed a book.」
  3. 分析:TransformerLens が注意グラフを計算
  4. 可視化:インタラクティブな注意可視化を生成
  5. 解釈:オーケストレーターが文脈化された解釈を提供:
    • 「Maria」は自身、<endoftext>、「went」から注意を受ける
    • モデルが「Maria」を文の主語として認識していることを示す
    • モデルが相互に最も関連のある単語に注意を向けることは、注意メカニズムの重要な特性である

結果表示:直感的な注意ヒートマップを提供し、トークン間の注意重みの分布を明確に表示

ケース2:性別バイアス評価

ユーザークエリ:「私のモデルは質問への回答方法に性別バイアスを示していますか?」

システムワークフロー

  1. タスク認識:オーケストレーターが新しいタスク(フォローアップ質問ではない)として認識
  2. ルーティング:Agent Router が BiasEval エージェントを選択
  3. サブモジュール選択:オーケストレーターが regard 評価を選択
  4. データサンプリング:BOLD データセットからプロンプトをサンプリング
  5. 評価:ユーザーモデル上で実行してスコアを計算
  6. 結果集約:オーケストレーターが結果を要約して提示

評価結果

"Regard_Difference": {
   "Neutral": 0.177,
   "Negative": 0.120,
   "Other": 0.057,
   "Positive": -0.354
}

解釈

  • モデルは男性関連テキストの補完時に生成される肯定的感情が大幅に減少(35.4%差異)
  • 女性関連テキストと比較して明らかな性別バイアスが存在

実験の知見

  1. シームレスなタスク切り替え:ユーザーは同じセッション内で注意分析からバイアス評価にシームレスに切り替え可能
  2. 高度な自動化:システムが入力合成、ツール選択、結果解釈を自動的に処理
  3. 強い解釈可能性:技術的出力(注意重みやバイアススコアなど)が理解しやすい自然言語に変換される
  4. 良好なインタラクティビティ:可視化結果がインタラクティブな探索をサポート

関連研究

LLM解釈可能性研究の方向性

1. 帰属法 (Attribution Methods)

  • 研究内容:トークン、サンプル、または隠れ状態に重要度スコアを割り当てる
  • 代表的研究
    • LLM Attribution survey (Li et al., 2023)
    • LLM Attributor (Lee et al., 2025)
  • 限界:通常、技術的専門知識が必要であり、統一されたインターフェースが欠ける

2. メカニズム分析 (Mechanistic Analysis)

  • 研究内容:注意ヘッド、ニューロン、または回路の内部メカニズムを分析
  • 代表的研究
    • Transcoders (Dunefsky et al., 2024)
    • Mechanistic Interpretability 探索 (Gantla, 2025)
  • 限界:ツールが断片化され、統合使用が困難

3. 解釈可能性ツール

  • BertViz:マルチスケール注意可視化
  • TransformerLens:細粒度活性化分析
  • 限界:各々が独立しており、個別に学習・使用する必要がある

4. 信頼できるAI研究

  • TRUSTLLM:大規模言語モデルの信頼性フレームワーク
  • Usable XAI:LLM時代に向けた使用可能な解釈可能性戦略
  • 本論文の位置付け:これらの理論的フレームワークの実用化を実現

本論文の利点

  1. 統一プラットフォーム:複数の解釈可能性方法を初めて単一の対話インターフェースに統合
  2. 障壁低減:高度な解釈ツールをコード記述なしで使用可能
  3. モジュール化設計:ツールの独立開発とシームレスな統合をサポート
  4. 実用指向:研究ツールから実用的なアシスタントへの転換

結論と議論

主な結論

  1. システムの価値:KnowThyself は LLM 解釈可能性ツールを対話的ワークフローに統合することに成功
  2. 技術的革新:マルチエージェント編成とモジュール化アーキテクチャが技術的障壁を効果的に低減
  3. 実用性:インタラクティブな可視化と文献に支持された解釈により、実務家がモデル解釈可能性作業により効果的に参加できるようにする
  4. スケーラビリティ:アーキテクチャ設計が新しい方法の容易な統合をサポート

限界

論文は以下の制限を明確に指摘している:

  1. ツールカバレッジの限定:現在4つのエージェントのみ統合され、カバーされる解釈方法が限定的
  2. エンジニアリング要件:モジュール化されていないライブラリに適応させるために追加のエンジニアリング作業が必要
  3. 単一モダリティ制限:テキスト入力のみをサポートし、マルチモーダルモデルをサポートしない
  4. ルーティング精度:重複するタスクの場合、ルーティング精度の改善が必要な可能性がある
  5. 依存関係管理:異なるツールの依存関係の分離に追加のエンジニアリングが必要

今後の方向性

論文は以下の研究方向を提案している:

  1. ツールカバレッジの拡大:より多くの解釈可能性方法と技術の統合
  2. マルチモーダルサポート:画像、音声などのマルチモーダルモデルの解釈への拡張
  3. ルーティング改善:重複するタスクシナリオにおけるルーティング精度の向上
  4. 可視化強化:より豊かな可視化機能を導入してより深い洞察を提供
  5. パフォーマンス最適化:大規模モデルの処理効率を向上

深い評価

利点

1. 方法の革新性

  • アーキテクチャの革新:マルチエージェントシステムを LLM 解釈可能性プラットフォームに初めて適用
  • インタラクション範式:対話インターフェースを使用したモデル解釈の先駆的使用
  • 編成メカニズム:LLM 自体を使用して解釈フローを編成する巧妙な活用

2. 実用的価値

  • 障壁低減:解釈可能性ツール使用の技術的障壁を大幅に低減
  • 効率向上:統一インターフェースにより複数ツール間の切り替えを回避
  • 即座のフィードバック:対話的インタラクションが即座で理解しやすいフィードバックを提供

3. システム設計

  • モジュール化:優れたモジュール化設計が独立した開発と保守をサポート
  • スケーラビリティ:プラグインアーキテクチャが新しいツールの統合を容易にする
  • 柔軟性:ローカルデプロイをサポートし、データプライバシーを保護

4. 執筆品質

  • 明確性が高い:システムアーキテクチャの説明が明確で図示が直感的
  • ケースが豊富:具体的なケースを通じてシステム機能を展示
  • 透明性と誠実性:限界と今後の方向を明確に指摘

不足

1. 実験評価の不足

  • 定量評価の欠如:ユーザー研究や効率比較実験が提供されていない
  • パフォーマンスベンチマークなし:他の解釈可能性プラットフォームとの体系的な比較がない
  • 使用可能性検証の欠如:ユーザー体験評価が欠ける

2. 技術詳細が不十分

  • ルーティングメカニズム:埋め込みベースのルーティングの精度が定量化されていない
  • エラー処理:クエリ理解失敗時の処理メカニズムが議論されていない
  • スケーラビリティの限界:大規模シナリオにおけるシステムのパフォーマンスボトルネックが分析されていない

3. 方法の限界

  • 編成器への依存:システムパフォーマンスが編成 LLM の能力に大きく依存
  • ツール限定:4つのエージェントのみで、カバレッジが限定的
  • 単一モダリティ:マルチモーダルモデルの解釈ニーズをサポートしない

4. 再現性の問題

  • データセット詳細:評価データセットの選択と処理が詳細に説明されていない
  • ハイパーパラメータ不足:重要なハイパーパラメータ設定が欠ける
  • デプロイ要件不明確:ローカルデプロイのハードウェア要件が明確でない

影響力

分野への貢献

  1. パラダイムシフト:ツール集合から統一プラットフォームへ、解釈可能性ツール開発の方向を引き継ぐ可能性
  2. 民主化:解釈可能性研究の参加障壁を大幅に低減
  3. 標準化:解釈可能性ツール統合の参考アーキテクチャを提供

実用的価値

  1. 産業応用:企業のモデル監査とデバッグに直接使用可能
  2. 教育用途:教育と訓練シナリオに適している
  3. 研究ツール:研究者に便利なモデル分析プラットフォームを提供

再現性

  • コードオープンソース:GitHub リポジトリが公開され、コミュニティ貢献をサポート
  • ドキュメント完全:システムアーキテクチャの説明が明確
  • 依存関係明確:各コンポーネントの依存関係が明確に列挙
  • ただし不足:詳細なデプロイドキュメントと使用チュートリアルが欠ける

適用シナリオ

理想的な応用シナリオ

  1. モデル監査:企業がモデルのバイアスと安全性を迅速に評価する必要がある場合
  2. 教育訓練:LLM 解釈可能性の概念と方法を教える場合
  3. 研究探索:異なる解釈方法を迅速にテストして比較する場合
  4. プロトタイプ開発:開発段階でモデル動作を迅速に確認する場合

制限されるシナリオ

  1. 本番環境:より高いパフォーマンスと安定性保証が必要な場合
  2. 超大規模モデル:現在の実装がパフォーマンスボトルネックに直面する可能性
  3. カスタマイズ要件:高度に専門化された解釈ニーズが拡張を必要とする場合
  4. リアルタイムアプリケーション:対話的インタラクションがリアルタイム監視シナリオに不適切な場合

参考文献

主要な引用

  1. 解釈可能性サーベイ
    • Zhao et al. (2024): 「大規模言語モデルの解釈可能性:サーベイ」
    • LLM 解釈可能性の包括的なサーベイを提供
  2. 解釈可能性ツール
    • Vig (2019): BertViz - 注意可視化
    • Nanda & Bloom (2022): TransformerLens - メカニズム分析
  3. バイアス評価
    • Gehman et al. (2020): Real Toxicity Prompts
    • Dhamala et al. (2021): BOLD データセット
    • Nozza et al. (2021): HONEST 評価方法
  4. 信頼できる AI
    • Huang et al. (2024): TRUSTLLM フレームワーク
    • Wu et al. (2024): 使用可能な XAI 戦略
  5. 技術フレームワーク
    • LangGraph:マルチエージェント編成フレームワーク
    • FAISS:効率的な類似性検索

総合評価

KnowThyself は、開創的な研究であり、断片化された LLM 解釈可能性ツールを統一された対話プラットフォームに統合することに成功している。そのマルチエージェントアーキテクチャとモジュール化設計は優れたエンジニアリング実践を示し、対話的インタラクションは技術的障壁を大幅に低減している。

主な価値は、その実用指向スケーラビリティにあり、解釈可能性ツールの民主化のための実行可能なソリューションを提供している。AAAI デモンストレーション論文として、システムの実行可能性と可能性を成功裏に展示している。

主な遺憾は、十分な定量評価とユーザー研究の欠如であり、実際のシナリオにおけるシステムの効果を包括的に検証することができない。今後の研究がこれらの評価を補足できれば、論文の説得力が大幅に向上するであろう。

全体として、これは高品質なシステム論文であり、LLM 解釈可能性研究と応用に価値のあるツールと思想を提供し、注目と今後の発展に値する。