2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.
Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
academic

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

基本信息

  • 论文ID: 2506.21582
  • 标题: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
  • 作者: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
  • 分类: cs.CL cs.AI cs.HC
  • 发表时间: 2025年10月13日 (arXiv v4)
  • 论文链接: https://arxiv.org/abs/2506.21582

摘要

文本分析传统上需要自然语言处理(NLP)或文本分析的专业知识,这为入门级分析师带来了技术壁垒。大语言模型(LLMs)的最新进展通过支持更易获取和自动化的文本分析(如主题检测、摘要、信息提取等)改变了NLP的格局。本文介绍了VIDEE系统,支持入门级数据分析师与智能代理协作进行高级文本分析。VIDEE实例化了一个三阶段的人机协作工作流:(1) 分解阶段,结合人在回路的蒙特卡洛树搜索算法,支持带有人类反馈的生成推理;(2) 执行阶段,生成可执行的文本分析管道;(3) 评估阶段,集成基于LLM的评估和可视化,支持用户对执行结果的验证。

研究背景与动机

问题定义

传统文本分析面临四个主要挑战:

  1. 大分解空间问题:提示的灵活性允许通过不同子任务组合实现目标的多种分解方式,分析师必须在子任务难度和管道整体鲁棒性之间权衡。
  2. 技术知识壁垒:分析师具有不同水平的技术知识,特别是关于LLMs的知识。LLM相关领域正在快速发展,分析师可能无法跟上最新技术。
  3. 实现和实验困难:构建和实现文本分析管道需要大量工程努力,包括处理输入输出格式、中间数据转换和分析参数。
  4. 评估挑战:评估基于LLM的文本分析管道需要独特的评估方法,这些方法尚未广泛普及。

研究动机

这些挑战促使需要一个代理系统来支持文本分析师。给定用户目标和数据集,具有充分技术知识的代理可以自动分解目标、搜索大分解空间并生成文本分析计划,然后实现并执行管道,最后评估结果。

核心贡献

  1. 提出三阶段人机协作工作流:设计了分解(Decomposition)、执行(Execution)和评估(Evaluation)的完整工作流程来实现复杂的文本分析目标。
  2. 开发VIDEE系统:实现了具有可视化界面的代理系统,支持数据分析师在无代码环境中执行文本分析。
  3. 技术创新
    • 基于蒙特卡洛树搜索(MCTS)的人在回路分解算法
    • 基于分析单元的概念框架处理数据结构变化
    • LLM评判器与可视化集成的评估机制
  4. 实证研究发现:通过系统评估和用户研究,提供了关于代理系统和人机协作的新见解。

方法详解

任务定义

输入:用户目标(自然语言描述)和文本数据集 输出:完整的文本分析管道及其执行结果 约束:支持无代码环境,适应不同技术水平的用户

三阶段工作流架构

1. 分解阶段(Decomposition)

  • 目标:将用户目标分解为语义任务序列
  • 核心算法:改进的蒙特卡洛树搜索(MCTS)
  • 人机协作:人类监控搜索过程,代理探索可能的管道选项

MCTS算法改进

  • 使用LLM评判器作为奖励函数
  • 定义三个评估标准:复杂度、连贯性、重要性
  • 支持人类反馈调整搜索方向
  • 替换随机展开为全面奖励计算

2. 执行阶段(Execution)

  • 转换过程:语义任务→原始任务→可执行管道
  • 编译过程:生成输入/输出模式、算法选择、超参数
  • 技术支持:基于LangGraph的执行图构建

分析单元概念框架

  • 定义每个原始任务的输入单元
  • 采用MapReduce范式处理数据结构变化
  • 自动创建新的分析单元

3. 评估阶段(Evaluation)

  • 评估方法:基于LLM评判器的无真实标签评估
  • 可视化:柱状图和扩展的主题径向图
  • 自动推荐:系统为每个任务推荐3个评估标准

技术创新点

  1. 生成推理与MCTS结合:相比beam搜索的贪婪策略,MCTS的反向传播提供了后向反馈,更适合文本分析管道规划。
  2. 分析单元框架:通过MapReduce范式自动处理数据结构变化,支持多样化的原始任务组合。
  3. 人机协作动态:用户作为管理者,LLM评判器作为顾问,减少了LLM对齐的必要性。

实验设置

数据集

  1. 分解器评估
    • LLooM场景:HCI论文摘要数据集
    • TnT-LLM场景:微软Bing Copilot用户对话数据集
  2. 执行器评估
    • Wikipedia数据集(n=210),包含真实标签作为主题
  3. 用户研究
    • HCI论文摘要数据集(100篇)
    • 概念归纳任务

评价指标

  1. 分解器评估:Arena方法,使用o3-mini模型比较生成管道与人工管道
  2. 执行器评估:概念覆盖率(concept coverage)
  3. 用户研究:任务完成情况、用户行为模式、可用性反馈

对比方法

  1. 分解器:人工制作的管道(LLooM和TnT-LLM)
  2. 执行器:BERTopic和GPT-4o基线方法

实现细节

  • 模型:GPT-4o、Claude-3.5-Sonnet、Gemini-2.0
  • 框架:AutoGen + LangGraph
  • 成本:每次扩展平均0.005美元,完整树约7分钟

实验结果

主要结果

分解器评估

  • 性能:10次比较中,6次生成管道被评为更好(LLooM 2次,TnT-LLM 4次)
  • 优势:生成的管道更直接和精简
  • 不足:未能考虑长数据处理的上下文窗口限制

执行器评估

  • 概念覆盖率:83% vs BERTopic(52.6%) vs GPT-4o(53%)
  • 性能提升:相比基线方法提升30%
  • 可靠性:与LLooM人工管道达到可比较的结果

用户研究发现

积极反馈

  1. 清晰直观的工作流:所有参与者都能在合理时间内完成任务
  2. 自动化的重要性:即使专家级参与者也认为比编码更高效
  3. 程序化生成的信任:相比ChatGPT等黑盒系统,用户更信任显式过程

用户行为模式

  1. 搜索策略偏好:"先利用后探索"而非平衡策略
  2. 对齐vs建议:用户将LLM评判器视为建议而非真实标准
  3. 分析单元的理解作用:明确的分析单元有助于理解管道和调试错误

系统局限性

  1. 执行错误:编译过程中可能选择错误的分析单元
  2. 学习曲线:需要30分钟培训才能熟练使用
  3. 技术依赖:严重依赖并行化云端LLM查询

相关工作

基于LLM的文本分析

  • 个体分析:LLMs在文本分类、信息提取等任务上表现出色
  • 端到端管道:TnT-LLM、LLooM、主题分析框架等

LLM辅助数据分析

  • 数据清理转换工具(Data Wrangler)
  • 可视化数据探索系统(LightVA、InterChat)
  • 与传统数据分析相比,文本分析具有独特挑战

人机协作设计研究

  • 提示工程挑战和解决方案
  • 代理系统中的用户控制和评估需求
  • 多层抽象和交互式系统设计

结论与讨论

主要结论

  1. 可行性验证:三阶段工作流有效降低了文本分析的技术壁垒
  2. 用户接受度:不同技术水平的用户都能成功使用系统
  3. 技术有效性:生成的管道质量与专家制作的管道相当

局限性

  1. 用户研究规模:仅6名参与者,样本偏向研究生
  2. 技术限制:依赖云端LLM,缺乏自我纠错机制
  3. 功能局限:不支持时间序列分析、网络分析或外部知识库

未来方向

  1. 对话式代理:集成自然语言命令转换
  2. 反馈循环:执行和评估结果反馈到分解阶段
  3. 评估方法扩展:支持聚类分析等非文本任务的评估
  4. 开源生态集成:与LangSmith等工具集成

深度评价

优点

  1. 系统性创新:首次提出完整的人机协作文本分析工作流
  2. 技术深度:MCTS算法改进、分析单元框架等具有理论贡献
  3. 实用价值:真正降低了文本分析的技术门槛
  4. 评估全面:结合定量实验和定性用户研究

不足

  1. 可扩展性:严重依赖云端API,成本和延迟问题
  2. 错误处理:缺乏鲁棒的错误检测和恢复机制
  3. 适用范围:主要适用于标准文本分析任务,对特殊领域支持有限

影响力

  1. 学术贡献:为人机协作和代理系统设计提供了新范式
  2. 实用价值:有望推动文本分析的民主化
  3. 可复现性:基于开源框架,便于复现和扩展

适用场景

  1. 目标用户:入门级数据分析师、社会科学研究者、记者
  2. 应用领域:客户反馈分析、学术文献挖掘、社交媒体分析
  3. 使用条件:需要一定的数据分析基础和30分钟培训时间

参考文献

本文引用了63篇相关文献,主要包括:

  • LLM文本分析应用(TnT-LLM, LLooM等)
  • 人机协作界面设计(AutoGen, LangGraph等)
  • 可视化和交互系统设计
  • 蒙特卡洛树搜索算法

总体评价:这是一篇高质量的系统论文,在人机协作文本分析领域做出了重要贡献。技术创新扎实,实验评估充分,对推动文本分析工具的普及具有重要意义。尽管存在一些技术局限性,但为未来研究提供了清晰的方向。