2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.
Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
academic

VIDEE: Визуальная и интерактивная декомпозиция, выполнение и оценка текстовой аналитики с интеллектуальными агентами

Основная информация

  • ID статьи: 2506.21582
  • Название: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
  • Авторы: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
  • Классификация: cs.CL cs.AI cs.HC
  • Дата публикации: 13 октября 2025 г. (arXiv v4)
  • Ссылка на статью: https://arxiv.org/abs/2506.21582

Аннотация

Текстовая аналитика традиционно требует специальных знаний в области обработки естественного языка (NLP) или текстовой аналитики, что создает технические барьеры для аналитиков начального уровня. Недавние достижения в области больших языковых моделей (LLM) преобразили ландшафт NLP, обеспечив более доступную и автоматизированную текстовую аналитику (такую как обнаружение тем, суммаризация, извлечение информации и т.д.). В данной статье представлена система VIDEE, которая поддерживает сотрудничество аналитиков данных начального уровня с интеллектуальными агентами для выполнения продвинутой текстовой аналитики. VIDEE реализует трехэтапный рабочий процесс взаимодействия человека и машины: (1) этап декомпозиции, объединяющий алгоритм поиска по дереву Монте-Карло с участием человека в цикле, поддерживающий генеративное рассуждение с обратной связью от человека; (2) этап выполнения, генерирующий исполняемые конвейеры текстовой аналитики; (3) этап оценки, интегрирующий оценку на основе LLM и визуализацию, поддерживающий проверку пользователем результатов выполнения.

Исследовательский контекст и мотивация

Определение проблемы

Традиционная текстовая аналитика сталкивается с четырьмя основными проблемами:

  1. Проблема большого пространства декомпозиции: Гибкость подсказок позволяет множество способов разложения цели через различные комбинации подзадач, и аналитики должны балансировать между сложностью подзадач и общей надежностью конвейера.
  2. Барьер технических знаний: Аналитики обладают различными уровнями технических знаний, особенно в отношении LLM. Область, связанная с LLM, быстро развивается, и аналитики могут не успевать за последними технологиями.
  3. Сложность реализации и экспериментирования: Построение и реализация конвейеров текстовой аналитики требует значительных инженерных усилий, включая обработку форматов ввода-вывода, преобразование промежуточных данных и анализ параметров.
  4. Проблемы оценки: Оценка конвейеров текстовой аналитики на основе LLM требует уникальных методов оценки, которые еще не получили широкого распространения.

Исследовательская мотивация

Эти проблемы обусловили необходимость в системе агентов для поддержки аналитиков текста. Учитывая цель пользователя и набор данных, агент с достаточными техническими знаниями может автоматически разложить цель, выполнить поиск в большом пространстве декомпозиции и сгенерировать план текстовой аналитики, затем реализовать и выполнить конвейер и, наконец, оценить результаты.

Основные вклады

  1. Предложение трехэтапного рабочего процесса взаимодействия человека и машины: Разработан полный рабочий процесс декомпозиции (Decomposition), выполнения (Execution) и оценки (Evaluation) для достижения сложных целей текстовой аналитики.
  2. Разработка системы VIDEE: Реализована система агентов с визуальным интерфейсом, поддерживающая выполнение текстовой аналитики аналитиками данных в среде без кода.
  3. Технологические инновации:
    • Алгоритм декомпозиции с участием человека в цикле на основе поиска по дереву Монте-Карло (MCTS)
    • Концептуальная основа на основе аналитических единиц для обработки изменений структуры данных
    • Механизм оценки с интеграцией оценивателя LLM и визуализации
  4. Эмпирические результаты исследования: Посредством систематической оценки и исследования пользователей предоставлены новые выводы о системах агентов и взаимодействии человека и машины.

Подробное описание методов

Определение задачи

Входные данные: Цель пользователя (описание на естественном языке) и набор текстовых данных Выходные данные: Полный конвейер текстовой аналитики и результаты его выполнения Ограничения: Поддержка среды без кода, адаптация к пользователям с различными техническими уровнями

Архитектура трехэтапного рабочего процесса

1. Этап декомпозиции (Decomposition)

  • Цель: Разложить цель пользователя на последовательность семантических задач
  • Основной алгоритм: Улучшенный поиск по дереву Монте-Карло (MCTS)
  • Взаимодействие человека и машины: Человек контролирует процесс поиска, агент исследует возможные варианты конвейера

Улучшения алгоритма MCTS:

  • Использование оценивателя LLM в качестве функции вознаграждения
  • Определение трех критериев оценки: сложность, связность, важность
  • Поддержка обратной связи от человека для корректировки направления поиска
  • Замена случайного развертывания на комплексный расчет вознаграждения

2. Этап выполнения (Execution)

  • Процесс преобразования: Семантическая задача → Примитивная задача → Исполняемый конвейер
  • Процесс компиляции: Генерация шаблонов ввода-вывода, выбор алгоритма, гиперпараметры
  • Техническая поддержка: Построение графа выполнения на основе LangGraph

Концептуальная основа аналитических единиц:

  • Определение входных единиц для каждой примитивной задачи
  • Применение парадигмы MapReduce для обработки изменений структуры данных
  • Автоматическое создание новых аналитических единиц

3. Этап оценки (Evaluation)

  • Метод оценки: Оценка на основе оценивателя LLM без истинных меток
  • Визуализация: Столбчатые диаграммы и расширенные радиальные графики тем
  • Автоматические рекомендации: Система рекомендует 3 критерия оценки для каждой задачи

Технологические инновационные моменты

  1. Сочетание генеративного рассуждения и MCTS: По сравнению с жадной стратегией поиска beam search, обратное распространение MCTS обеспечивает обратную связь, что более подходит для планирования конвейеров текстовой аналитики.
  2. Основа аналитических единиц: Автоматическая обработка изменений структуры данных через парадигму MapReduce, поддерживающая разнообразные комбинации примитивных задач.
  3. Динамика взаимодействия человека и машины: Пользователь выступает в роли менеджера, оценивателя LLM в роли советника, что снижает необходимость в выравнивании LLM.

Экспериментальная установка

Наборы данных

  1. Оценка декомпозитора:
    • Сценарий LLooM: Набор данных аннотаций статей HCI
    • Сценарий TnT-LLM: Набор данных диалогов пользователей Microsoft Bing Copilot
  2. Оценка исполнителя:
    • Набор данных Wikipedia (n=210) с истинными метками в качестве тем
  3. Исследование пользователей:
    • Набор данных аннотаций статей HCI (100 статей)
    • Задача индукции концепций

Метрики оценки

  1. Оценка декомпозитора: Метод Arena с использованием модели o3-mini для сравнения сгенерированных конвейеров с ручными конвейерами
  2. Оценка исполнителя: Охват концепций (concept coverage)
  3. Исследование пользователей: Завершение задач, модели поведения пользователей, обратная связь по удобству использования

Методы сравнения

  1. Декомпозитор: Ручно созданные конвейеры (LLooM и TnT-LLM)
  2. Исполнитель: Методы базовых линий BERTopic и GPT-4o

Детали реализации

  • Модели: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
  • Фреймворк: AutoGen + LangGraph
  • Стоимость: В среднем 0,005 доллара за расширение, полное дерево около 7 минут

Результаты экспериментов

Основные результаты

Оценка декомпозитора

  • Производительность: В 6 из 10 сравнений сгенерированные конвейеры оценены как лучшие (2 раза для LLooM, 4 раза для TnT-LLM)
  • Преимущества: Сгенерированные конвейеры более прямые и компактные
  • Недостатки: Не учитывают ограничения контекстного окна при обработке больших данных

Оценка исполнителя

  • Охват концепций: 83% против BERTopic (52,6%) против GPT-4o (53%)
  • Улучшение производительности: Повышение на 30% по сравнению с методами базовой линии
  • Надежность: Достижение сравнимых результатов с ручными конвейерами LLooM

Результаты исследования пользователей

Положительная обратная связь:

  1. Ясный и интуитивный рабочий процесс: Все участники смогли завершить задачи в разумное время
  2. Важность автоматизации: Даже участники экспертного уровня считали это более эффективным, чем кодирование
  3. Доверие к программно сгенерированному процессу: Пользователи больше доверяют явному процессу по сравнению с черными ящиками, такими как ChatGPT

Модели поведения пользователей:

  1. Предпочтение стратегии поиска: "Сначала использовать, затем исследовать" вместо сбалансированной стратегии
  2. Выравнивание vs рекомендации: Пользователи рассматривают оценивателя LLM как советника, а не как истинный стандарт
  3. Роль понимания аналитических единиц: Явные аналитические единицы помогают понять конвейер и отладить ошибки

Ограничения системы

  1. Ошибки выполнения: Возможность выбора неправильных аналитических единиц во время компиляции
  2. Кривая обучения: Требуется 30 минут обучения для свободного использования
  3. Техническая зависимость: Серьезная зависимость от параллельных облачных запросов LLM

Связанные работы

Текстовая аналитика на основе LLM

  • Индивидуальный анализ: LLM показывают отличные результаты в классификации текста, извлечении информации и других задачах
  • Сквозные конвейеры: TnT-LLM, LLooM, фреймворки анализа тем и т.д.

Анализ данных с поддержкой LLM

  • Инструменты очистки и преобразования данных (Data Wrangler)
  • Системы визуального исследования данных (LightVA, InterChat)
  • Текстовая аналитика имеет уникальные проблемы по сравнению с традиционным анализом данных

Исследования проектирования взаимодействия человека и машины

  • Проблемы и решения инженерии подсказок
  • Требования к контролю пользователя и оценке в системах агентов
  • Проектирование многоуровневых абстракций и интерактивных систем

Заключение и обсуждение

Основные выводы

  1. Проверка осуществимости: Трехэтапный рабочий процесс эффективно снижает технические барьеры для текстовой аналитики
  2. Принятие пользователями: Пользователи с различными техническими уровнями могут успешно использовать систему
  3. Техническая эффективность: Качество сгенерированных конвейеров сравнимо с конвейерами, созданными экспертами

Ограничения

  1. Масштаб исследования пользователей: Только 6 участников, выборка смещена в сторону аспирантов
  2. Технические ограничения: Зависимость от облачных LLM, отсутствие механизма самокоррекции
  3. Функциональные ограничения: Не поддерживает анализ временных рядов, сетевой анализ или внешние базы знаний

Будущие направления

  1. Диалоговый агент: Интеграция преобразования команд на естественном языке
  2. Циклы обратной связи: Обратная связь результатов выполнения и оценки на этап декомпозиции
  3. Расширение методов оценки: Поддержка оценки для анализа кластеризации и других нетекстовых задач
  4. Интеграция экосистемы с открытым исходным кодом: Интеграция с инструментами, такими как LangSmith

Глубокая оценка

Преимущества

  1. Системная инновация: Первое предложение полного рабочего процесса взаимодействия человека и машины для текстовой аналитики
  2. Техническая глубина: Улучшения алгоритма MCTS, основа аналитических единиц и другие элементы имеют теоретический вклад
  3. Практическая ценность: Действительно снижает технические барьеры для текстовой аналитики
  4. Комплексная оценка: Сочетание количественных экспериментов и качественного исследования пользователей

Недостатки

  1. Масштабируемость: Серьезная зависимость от облачных API, проблемы с затратами и задержками
  2. Обработка ошибок: Отсутствие надежных механизмов обнаружения и восстановления ошибок
  3. Область применения: Главным образом применима к стандартным задачам текстовой аналитики, ограниченная поддержка специализированных областей

Влияние

  1. Академический вклад: Предоставляет новую парадигму для проектирования взаимодействия человека и машины и систем агентов
  2. Практическая ценность: Вероятно, будет способствовать демократизации текстовой аналитики
  3. Воспроизводимость: На основе фреймворков с открытым исходным кодом, удобна для воспроизведения и расширения

Применимые сценарии

  1. Целевые пользователи: Аналитики данных начального уровня, исследователи социальных наук, журналисты
  2. Области применения: Анализ отзывов клиентов, интеллектуальный анализ академической литературы, анализ социальных сетей
  3. Условия использования: Требуется определенная основа в анализе данных и 30 минут времени на обучение

Ссылки

В статье цитируется 63 соответствующих источника, включая главным образом:

  • Приложения текстовой аналитики LLM (TnT-LLM, LLooM и т.д.)
  • Проектирование интерфейсов взаимодействия человека и машины (AutoGen, LangGraph и т.д.)
  • Проектирование систем визуализации и взаимодействия
  • Алгоритмы поиска по дереву Монте-Карло

Общая оценка: Это высококачественная системная статья, которая вносит значительный вклад в область взаимодействия человека и машины при текстовой аналитике. Технологические инновации прочны, экспериментальная оценка полна, что имеет важное значение для продвижения популяризации инструментов текстовой аналитики. Несмотря на некоторые технические ограничения, она предоставляет четкие направления для будущих исследований.