2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.
Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
academic

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

基本情報

  • 論文ID: 2506.21582
  • タイトル: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
  • 著者: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
  • 分類: cs.CL cs.AI cs.HC
  • 発表日時: 2025年10月13日 (arXiv v4)
  • 論文リンク: https://arxiv.org/abs/2506.21582

要約

テキスト分析は従来、自然言語処理(NLP)またはテキスト分析の専門知識を必要とし、初級レベルのアナリストにとって技術的な障壁となっていました。大規模言語モデル(LLMs)の最近の進展は、トピック検出、要約、情報抽出など、より利用しやすく自動化されたテキスト分析をサポートすることで、NLPの状況を変えました。本論文では、初級レベルのデータアナリストがインテリジェントエージェントと協力して高度なテキスト分析を実行できるVIDEEシステムを紹介します。VIDEEは、3段階の人機協働ワークフローを実装しています:(1)分解段階では、人間がループ内にあるモンテカルロ木探索アルゴリズムと組み合わせて、人間のフィードバックを伴う生成推論をサポートします;(2)実行段階では、実行可能なテキスト分析パイプラインを生成します;(3)評価段階では、LLMベースの評価と可視化を統合し、ユーザーが実行結果を検証できるようにします。

研究背景と動機

問題定義

従来のテキスト分析は4つの主要な課題に直面しています:

  1. 大規模な分解空間の問題:プロンプトの柔軟性により、異なるサブタスクの組み合わせを通じて目標を達成する複数の分解方法が可能になり、アナリストはサブタスクの難易度とパイプライン全体のロバスト性のバランスを取る必要があります。
  2. 技術知識の障壁:アナリストは異なるレベルの技術知識、特にLLMに関する知識を持っています。LLM関連分野は急速に発展しており、アナリストは最新技術に追いつけない可能性があります。
  3. 実装と実験の困難さ:テキスト分析パイプラインの構築と実装には、入出力形式の処理、中間データ変換、パラメータ分析など、多大なエンジニアリング努力が必要です。
  4. 評価の課題:LLMベースのテキスト分析パイプラインの評価には、まだ広く普及していない独特の評価方法が必要です。

研究動機

これらの課題により、テキスト分析者をサポートするエージェントシステムの必要性が生じました。ユーザーの目標とデータセットが与えられた場合、十分な技術知識を持つエージェントは、目標を自動的に分解し、大規模な分解空間を探索してテキスト分析計画を生成し、その後パイプラインを実装・実行し、最後に結果を評価することができます。

核心的貢献

  1. 3段階の人機協働ワークフローの提案:分解(Decomposition)、実行(Execution)、評価(Evaluation)の完全なワークフロープロセスを設計し、複雑なテキスト分析目標を実現します。
  2. VIDEEシステムの開発:可視化インターフェースを備えたエージェントシステムを実装し、データアナリストがコードなし環境でテキスト分析を実行できるようにします。
  3. 技術的革新
    • モンテカルロ木探索(MCTS)に基づく人間がループ内にある分解アルゴリズム
    • データ構造の変化に対処するための分析単位の概念フレームワーク
    • LLム評判者と可視化を統合した評価メカニズム
  4. 実証的研究知見:システム評価とユーザー研究を通じて、エージェントシステムと人機協働に関する新しい洞察を提供します。

方法の詳細

タスク定義

入力:ユーザーの目標(自然言語記述)とテキストデータセット 出力:完全なテキスト分析パイプラインとその実行結果 制約:コードなし環境をサポートし、異なる技術レベルのユーザーに適応

3段階ワークフロー構造

1. 分解段階(Decomposition)

  • 目標:ユーザーの目標をセマンティックタスク列に分解する
  • コアアルゴリズム:改良されたモンテカルロ木探索(MCTS)
  • 人機協働:人間が探索プロセスを監視し、エージェントが可能なパイプラインオプションを探索

MCTSアルゴリズムの改良

  • LLM評判者を報酬関数として使用
  • 3つの評価基準を定義:複雑性、一貫性、重要性
  • 人間のフィードバックで探索方向を調整
  • ランダム展開を包括的な報酬計算に置き換え

2. 実行段階(Execution)

  • 変換プロセス:セマンティックタスク→プリミティブタスク→実行可能パイプライン
  • コンパイルプロセス:入出力パターン、アルゴリズム選択、ハイパーパラメータを生成
  • 技術サポート:LangGraphベースの実行グラフ構築

分析単位の概念フレームワーク

  • 各プリミティブタスクの入力単位を定義
  • MapReduceパラダイムを採用してデータ構造の変化に対処
  • 新しい分析単位を自動作成

3. 評価段階(Evaluation)

  • 評価方法:真実ラベルなしのLLM評判者ベースの評価
  • 可視化:棒グラフと拡張トピック放射状グラフ
  • 自動推奨:システムが各タスクに対して3つの評価基準を推奨

技術的革新点

  1. 生成推論とMCTSの組み合わせ:ビーム探索の貪欲戦略と比較して、MCTSの逆伝播はより後方フィードバックを提供し、テキスト分析パイプライン計画に適しています。
  2. 分析単位フレームワーク:MapReduceパラダイムを通じてデータ構造の変化を自動的に処理し、多様なプリミティブタスク組み合わせをサポートします。
  3. 人機協働ダイナミクス:ユーザーがマネージャーとして、LLM評判者がアドバイザーとして機能し、LLM整列の必要性を減らします。

実験設定

データセット

  1. 分解器評価
    • LLooMシナリオ:HCI論文要約データセット
    • TnT-LLMシナリオ:マイクロソフトBing Copilotユーザー会話データセット
  2. 実行器評価
    • Wikipediaデータセット(n=210)、真実ラベルとしてのトピックを含む
  3. ユーザー研究
    • HCI論文要約データセット(100論文)
    • 概念帰納タスク

評価指標

  1. 分解器評価:Arenaメソッド、o3-miniモデルを使用して生成パイプラインと人工パイプラインを比較
  2. 実行器評価:概念カバレッジ(concept coverage)
  3. ユーザー研究:タスク完了、ユーザー行動パターン、ユーザビリティフィードバック

比較方法

  1. 分解器:手作りパイプライン(LLooMおよびTnT-LLM)
  2. 実行器:BERTopic およびGPT-4oベースライン方法

実装詳細

  • モデル:GPT-4o、Claude-3.5-Sonnet、Gemini-2.0
  • フレームワーク:AutoGen + LangGraph
  • コスト:拡張ごとの平均0.005米ドル、完全なツリーは約7分

実験結果

主要な結果

分解器評価

  • 性能:10回の比較中、6回生成パイプラインがより良いと評価(LLooM 2回、TnT-LLM 4回)
  • 利点:生成されたパイプラインはより直接的かつ簡潔
  • 不足:長いデータ処理のコンテキストウィンドウ制限を考慮していない

実行器評価

  • 概念カバレッジ:83% vs BERTopic(52.6%) vs GPT-4o(53%)
  • 性能向上:ベースライン方法と比較して30%の改善
  • 信頼性:LLooM人工パイプラインと同等の結果を達成

ユーザー研究の知見

肯定的フィードバック

  1. 明確で直感的なワークフロー:すべての参加者が合理的な時間内にタスクを完了できた
  2. 自動化の重要性:専門家レベルの参加者でさえ、コーディングより効率的だと考えた
  3. プログラム生成への信頼:ChatGPTなどのブラックボックスシステムと比較して、ユーザーは明示的なプロセスをより信頼する

ユーザー行動パターン

  1. 探索戦略の選好:バランスの取れた戦略ではなく「先に利用、後に探索」
  2. 整列 vs 推奨:ユーザーはLLM評判者を真実の基準ではなく提案として見なす
  3. 分析単位の理解的役割:明確な分析単位はパイプラインの理解とエラーデバッグに役立つ

システムの制限事項

  1. 実行エラー:コンパイルプロセス中に誤った分析単位を選択する可能性
  2. 学習曲線:熟練するまでに30分のトレーニングが必要
  3. 技術依存:並列化クラウドLLMクエリに大きく依存

関連研究

LLMベースのテキスト分析

  • 個別分析:テキスト分類、情報抽出などのタスクでLLMが優れた性能を示す
  • エンドツーエンドパイプライン:TnT-LLM、LLooM、トピック分析フレームワークなど

LLM支援データ分析

  • データクリーニング変換ツール(Data Wrangler)
  • 可視化データ探索システム(LightVA、InterChat)
  • 従来のデータ分析と比較して、テキスト分析は独特の課題を持つ

人機協働設計研究

  • プロンプトエンジニアリングの課題と解決策
  • エージェントシステムにおけるユーザーコントロールと評価の必要性
  • 多層抽象化とインタラクティブシステム設計

結論と考察

主要な結論

  1. 実現可能性の検証:3段階ワークフローはテキスト分析の技術的障壁を効果的に低減
  2. ユーザー受け入れ:異なる技術レベルのユーザーがシステムを正常に使用できる
  3. 技術的有効性:生成されたパイプラインの品質は専門家が作成したパイプラインと同等

制限事項

  1. ユーザー研究の規模:6名の参加者のみ、サンプルが大学院生に偏っている
  2. 技術的制限:クラウドLLMに依存、自己修正メカニズムの欠如
  3. 機能的制限:時系列分析、ネットワーク分析、外部知識ベースをサポートしない

今後の方向性

  1. 対話型エージェント:自然言語コマンド変換の統合
  2. フィードバックループ:実行と評価の結果を分解段階にフィードバック
  3. 評価方法の拡張:クラスタリング分析など非テキストタスクの評価をサポート
  4. オープンソースエコシステム統合:LangSmithなどのツールとの統合

深い評価

利点

  1. システム的革新:完全な人機協働テキスト分析ワークフローを初めて提案
  2. 技術的深さ:MCTSアルゴリズムの改良、分析単位フレームワークなど理論的貢献を持つ
  3. 実用的価値:テキスト分析の技術的障壁を真に低減
  4. 評価の包括性:定量的実験と定性的ユーザー研究を組み合わせ

不足点

  1. スケーラビリティ:クラウドAPIに大きく依存、コストと遅延の問題
  2. エラー処理:堅牢なエラー検出と回復メカニズムの欠如
  3. 適用範囲:主に標準的なテキスト分析タスクに適用、特殊領域のサポートは限定的

影響力

  1. 学術的貢献:人機協働とエージェントシステム設計に新しいパラダイムを提供
  2. 実用的価値:テキスト分析の民主化を推進する可能性
  3. 再現性:オープンソースフレームワークに基づき、再現と拡張が容易

適用シナリオ

  1. 対象ユーザー:初級レベルのデータアナリスト、社会科学研究者、ジャーナリスト
  2. 応用分野:顧客フィードバック分析、学術文献マイニング、ソーシャルメディア分析
  3. 使用条件:一定のデータ分析基礎と30分のトレーニング時間が必要

参考文献

本論文は63篇の関連文献を引用しており、主に以下を含みます:

  • LLMテキスト分析応用(TnT-LLM、LLooMなど)
  • 人機協働インターフェース設計(AutoGen、LangGraphなど)
  • 可視化とインタラクティブシステム設計
  • モンテカルロ木探索アルゴリズム

総合評価:これは人機協働テキスト分析分野における重要な貢献をした高品質なシステム論文です。技術的革新は堅実であり、実験評価は十分であり、テキスト分析ツールの普及促進に重要な意義を持ちます。いくつかの技術的制限がありますが、将来の研究に対して明確な方向性を提供しています。