本論文は、大規模言語モデル(LLM)の解釈可能性を推進するエージェント型アシスタント「KnowThyself」を開発した。既存のツールは有用な洞察を提供するが、依然として断片化されており、大量のコーディング作業を必要とする。KnowThyself は、これらの機能をチャットベースのインターフェースに統合し、ユーザーはモデルをアップロードし、自然言語で質問を提出し、ガイド付き解釈を伴うインタラクティブな可視化を取得できる。その中核には以下が含まれる:オーケストレーターLLMがまずユーザークエリを再構成し、エージェントルーターがクエリを専門モジュールへさらに導き、最後に出力を一貫した解釈に文脈化する。この設計は技術的障壁を低減し、スケーラブルなLLM検査プラットフォームを提供する。プロセス全体を対話ワークフローに組み込むことで、KnowThyself はアクセス可能なLLM解釈可能性のための堅固な基盤を提供する。
大規模言語モデルは言語理解、推論、問題解決において優れた性能を示すが、その黒箱的性質により内部の意思決定プロセスが解釈困難であり、透明性、信頼性、説明責任に関する懸念を引き起こしている。
最先端の解釈可能性研究と実際のアプリケーション間のギャップを埋めることで、マルチエージェント編成、モジュール化アーキテクチャ、インタラクティブな可視化を通じて、統一的でアクセス可能かつスケーラブルなプラットフォームを構築し、広範な利用者が新興の解釈技術に参加できるようにする。
本論文の主な貢献は以下の通りである:
入力:
出力:
制約条件:
KnowThyself は4層アーキテクチャ設計を採用している:
現在のシステムは4つのエージェントを統合している:
a) BertViz エージェント
b) TransformerLens エージェント
c) RAG説明エージェント
d) BiasEval エージェント
論文は、システムのワークフローを示すために2つの典型的なケースを提示している:
ユーザークエリ:「文中の単語'she'に対してモデルがトークン間でどのように注意を向けるかを表示してください」
システムワークフロー:
<endoftext>、「went」から注意を受ける結果表示:直感的な注意ヒートマップを提供し、トークン間の注意重みの分布を明確に表示
ユーザークエリ:「私のモデルは質問への回答方法に性別バイアスを示していますか?」
システムワークフロー:
評価結果:
"Regard_Difference": {
"Neutral": 0.177,
"Negative": 0.120,
"Other": 0.057,
"Positive": -0.354
}
解釈:
論文は以下の制限を明確に指摘している:
論文は以下の研究方向を提案している:
KnowThyself は、開創的な研究であり、断片化された LLM 解釈可能性ツールを統一された対話プラットフォームに統合することに成功している。そのマルチエージェントアーキテクチャとモジュール化設計は優れたエンジニアリング実践を示し、対話的インタラクションは技術的障壁を大幅に低減している。
主な価値は、その実用指向とスケーラビリティにあり、解釈可能性ツールの民主化のための実行可能なソリューションを提供している。AAAI デモンストレーション論文として、システムの実行可能性と可能性を成功裏に展示している。
主な遺憾は、十分な定量評価とユーザー研究の欠如であり、実際のシナリオにおけるシステムの効果を包括的に検証することができない。今後の研究がこれらの評価を補足できれば、論文の説得力が大幅に向上するであろう。
全体として、これは高品質なシステム論文であり、LLM 解釈可能性研究と応用に価値のあるツールと思想を提供し、注目と今後の発展に値する。