2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.

Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.

academic

VIDEE: Descomposición Visual e Interactiva, Ejecución y Evaluación de Análisis de Texto con Agentes Inteligentes

Información Básica

ID del Artículo: 2506.21582
Título: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
Autores: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
Clasificación: cs.CL cs.AI cs.HC
Fecha de Publicación: 13 de octubre de 2025 (arXiv v4)
Enlace del Artículo: https://arxiv.org/abs/2506.21582

Resumen

El análisis de texto tradicionalmente requiere conocimientos especializados en procesamiento del lenguaje natural (PLN) o análisis textual, lo que presenta barreras técnicas para analistas de nivel inicial. Los avances recientes en modelos de lenguaje grandes (LLMs) han transformado el panorama del PLN al permitir análisis de texto más accesible y automatizado (como detección de temas, resumen, extracción de información, etc.). Este artículo presenta el sistema VIDEE, que permite a analistas de datos de nivel inicial colaborar con agentes inteligentes para realizar análisis de texto avanzado. VIDEE implementa un flujo de trabajo de colaboración humano-máquina de tres fases: (1) fase de descomposición, que combina búsqueda de árbol de Monte Carlo con retroalimentación humana en el bucle, permitiendo razonamiento generativo con retroalimentación humana; (2) fase de ejecución, que genera canalizaciones de análisis de texto ejecutables; (3) fase de evaluación, que integra evaluación basada en LLM y visualización, permitiendo a los usuarios validar los resultados de la ejecución.

Contexto de Investigación y Motivación

Definición del Problema

El análisis de texto tradicional enfrenta cuatro desafíos principales:

Problema del Espacio de Descomposición Grande: La flexibilidad de las indicaciones permite múltiples formas de descomponer objetivos mediante diferentes combinaciones de subtareas. Los analistas deben equilibrar la dificultad de las subtareas con la robustez general de la canalización.
Barrera de Conocimiento Técnico: Los analistas poseen diferentes niveles de conocimiento técnico, particularmente sobre LLMs. El campo relacionado con LLMs evoluciona rápidamente, y los analistas pueden no poder mantenerse al día con la tecnología más reciente.
Dificultades de Implementación y Experimentación: Construir e implementar canalizaciones de análisis de texto requiere un esfuerzo de ingeniería considerable, incluyendo el manejo de formatos de entrada/salida, transformaciones de datos intermedios y parámetros de análisis.
Desafíos de Evaluación: Evaluar canalizaciones de análisis de texto basadas en LLM requiere métodos de evaluación únicos que aún no están ampliamente disponibles.

Motivación de la Investigación

Estos desafíos motivan la necesidad de un sistema de agentes que apoye a los analistas de texto. Dado un objetivo del usuario y un conjunto de datos, un agente con conocimiento técnico suficiente puede descomponer automáticamente el objetivo, buscar en el gran espacio de descomposición, generar un plan de análisis de texto, implementar y ejecutar la canalización, y finalmente evaluar los resultados.

Contribuciones Principales

Propuesta de Flujo de Trabajo de Colaboración Humano-Máquina de Tres Fases: Se diseñó un flujo de trabajo completo de descomposición (Decomposition), ejecución (Execution) y evaluación (Evaluation) para lograr objetivos complejos de análisis de texto.
Desarrollo del Sistema VIDEE: Se implementó un sistema de agentes con interfaz de visualización que permite a analistas de datos ejecutar análisis de texto en un entorno sin código.
Innovaciones Técnicas:
- Algoritmo de descomposición con humano en el bucle basado en búsqueda de árbol de Monte Carlo (MCTS)
- Marco conceptual basado en unidades de análisis para manejar cambios en estructuras de datos
- Mecanismo de evaluación que integra evaluadores LLM con visualización
Hallazgos de Investigación Empírica: A través de evaluación sistemática e investigación con usuarios, se proporcionan nuevas perspectivas sobre sistemas de agentes y colaboración humano-máquina.

Detalles del Método

Definición de Tareas

Entrada: Objetivo del usuario (descripción en lenguaje natural) y conjunto de datos de texto Salida: Canalización completa de análisis de texto y sus resultados de ejecución Restricciones: Apoyo a entornos sin código, adaptación a usuarios con diferentes niveles técnicos

Arquitectura de Flujo de Trabajo de Tres Fases

1. Fase de Descomposición (Decomposition)

Objetivo: Descomponer el objetivo del usuario en una secuencia de tareas semánticas
Algoritmo Principal: Búsqueda de árbol de Monte Carlo (MCTS) mejorada
Colaboración Humano-Máquina: Los humanos supervisan el proceso de búsqueda, mientras que el agente explora posibles opciones de canalización

Mejoras del Algoritmo MCTS:

Uso de evaluadores LLM como función de recompensa
Definición de tres criterios de evaluación: complejidad, coherencia, importancia
Apoyo a retroalimentación humana para ajustar la dirección de búsqueda
Sustitución de la expansión aleatoria por cálculo de recompensa integral

2. Fase de Ejecución (Execution)

Proceso de Transformación: Tareas semánticas → Tareas primitivas → Canalización ejecutable
Proceso de Compilación: Generación de patrones de entrada/salida, selección de algoritmos, hiperparámetros
Apoyo Técnico: Construcción de gráficos de ejecución basada en LangGraph

Marco Conceptual de Unidades de Análisis:

Definición de unidades de entrada para cada tarea primitiva
Adopción del paradigma MapReduce para manejar cambios en estructuras de datos
Creación automática de nuevas unidades de análisis

3. Fase de Evaluación (Evaluation)

Método de Evaluación: Evaluación sin etiquetas de verdad basada en evaluadores LLM
Visualización: Gráficos de barras y gráficos radiales de temas extendidos
Recomendación Automática: El sistema recomienda 3 criterios de evaluación para cada tarea

Puntos de Innovación Técnica

Combinación de Razonamiento Generativo y MCTS: En comparación con la estrategia codiciosa de búsqueda de haz, la retropropagación de MCTS proporciona retroalimentación hacia atrás, siendo más adecuada para la planificación de canalizaciones de análisis de texto.
Marco de Unidades de Análisis: Manejo automático de cambios en estructuras de datos mediante el paradigma MapReduce, permitiendo combinaciones diversas de tareas primitivas.
Dinámicas de Colaboración Humano-Máquina: Los usuarios actúan como gestores, los evaluadores LLM como asesores, reduciendo la necesidad de alineación de LLM.

Configuración Experimental

Conjuntos de Datos

Evaluación del Descompositor:
- Escenario LLooM: Conjunto de datos de resúmenes de artículos de HCI
- Escenario TnT-LLM: Conjunto de datos de conversaciones de usuarios de Microsoft Bing Copilot
Evaluación del Ejecutor:
- Conjunto de datos de Wikipedia (n=210), que contiene etiquetas reales como temas
Investigación con Usuarios:
- Conjunto de datos de resúmenes de artículos de HCI (100 artículos)
- Tarea de inducción conceptual

Métricas de Evaluación

Evaluación del Descompositor: Método Arena, utilizando el modelo o3-mini para comparar canalizaciones generadas con canalizaciones manuales
Evaluación del Ejecutor: Cobertura conceptual (concept coverage)
Investigación con Usuarios: Finalización de tareas, patrones de comportamiento del usuario, retroalimentación de usabilidad

Métodos de Comparación

Descompositor: Canalizaciones elaboradas manualmente (LLooM y TnT-LLM)
Ejecutor: Métodos de línea base BERTopic y GPT-4o

Detalles de Implementación

Modelos: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
Marco: AutoGen + LangGraph
Costo: Promedio de $0.005 por expansión, árbol completo aproximadamente 7 minutos

Resultados Experimentales

Resultados Principales

Evaluación del Descompositor

Desempeño: En 10 comparaciones, 6 canalizaciones generadas fueron evaluadas como mejores (2 en LLooM, 4 en TnT-LLM)
Ventajas: Las canalizaciones generadas son más directas y concisas
Limitaciones: No consideran limitaciones de ventana de contexto para procesamiento de datos largos

Evaluación del Ejecutor

Cobertura Conceptual: 83% vs BERTopic (52.6%) vs GPT-4o (53%)
Mejora de Desempeño: Mejora del 30% en comparación con métodos de línea base
Confiabilidad: Logra resultados comparables con canalizaciones manuales de LLooM

Hallazgos de la Investigación con Usuarios

Retroalimentación Positiva:

Flujo de Trabajo Claro e Intuitivo: Todos los participantes completaron las tareas en tiempo razonable
Importancia de la Automatización: Incluso participantes de nivel experto consideraron el sistema más eficiente que la codificación
Confianza en Procesos Generados Programáticamente: Los usuarios confían más en procesos explícitos en comparación con sistemas de caja negra como ChatGPT

Patrones de Comportamiento del Usuario:

Preferencia de Estrategia de Búsqueda: "Explotar primero, luego explorar" en lugar de estrategias equilibradas
Alineación vs Recomendación: Los usuarios ven evaluadores LLM como asesores en lugar de estándares verdaderos
Rol Facilitador de Unidades de Análisis: Las unidades de análisis explícitas ayudan a comprender canalizaciones y depurar errores

Limitaciones del Sistema

Errores de Ejecución: Posible selección de unidades de análisis incorrectas durante la compilación
Curva de Aprendizaje: Se requieren 30 minutos de capacitación para usar el sistema con competencia
Dependencia Técnica: Dependencia severa de consultas paralelas a LLM en la nube

Trabajo Relacionado

Análisis de Texto Basado en LLM

Análisis Individual: Los LLMs muestran excelente desempeño en tareas como clasificación de texto, extracción de información
Canalizaciones End-to-End: TnT-LLM, LLooM, marcos de análisis de temas, etc.

Análisis de Datos Asistido por LLM

Herramientas de limpieza y transformación de datos (Data Wrangler)
Sistemas de exploración de datos con visualización (LightVA, InterChat)
El análisis de texto presenta desafíos únicos en comparación con análisis de datos tradicionales

Investigación de Diseño de Colaboración Humano-Máquina

Desafíos y soluciones de ingeniería de indicaciones
Necesidad de control del usuario y evaluación en sistemas de agentes
Diseño de abstracción múltiple e interfaces interactivas

Conclusiones y Discusión

Conclusiones Principales

Validación de Viabilidad: El flujo de trabajo de tres fases reduce efectivamente las barreras técnicas para el análisis de texto
Aceptación del Usuario: Usuarios con diferentes niveles técnicos pueden usar el sistema con éxito
Efectividad Técnica: La calidad de las canalizaciones generadas es comparable a las canalizaciones elaboradas por expertos

Limitaciones

Escala de Investigación con Usuarios: Solo 6 participantes, muestra sesgada hacia estudiantes de posgrado
Limitaciones Técnicas: Dependencia de LLM en la nube, falta de mecanismos de autocorrección
Limitaciones Funcionales: No admite análisis de series temporales, análisis de redes o bases de conocimiento externas

Direcciones Futuras

Agentes Conversacionales: Integración de transformación de comandos en lenguaje natural
Bucles de Retroalimentación: Retroalimentación de resultados de ejecución y evaluación a la fase de descomposición
Extensión de Métodos de Evaluación: Apoyo a evaluación de análisis de agrupamiento y otras tareas no textuales
Integración del Ecosistema de Código Abierto: Integración con herramientas como LangSmith

Evaluación Profunda

Fortalezas

Innovación Sistemática: Primera propuesta de un flujo de trabajo completo de análisis de texto con colaboración humano-máquina
Profundidad Técnica: Mejoras del algoritmo MCTS, marco de unidades de análisis y otras contribuciones teóricas
Valor Práctico: Reduce genuinamente las barreras técnicas para el análisis de texto
Evaluación Integral: Combina experimentos cuantitativos e investigación cualitativa con usuarios

Deficiencias

Escalabilidad: Dependencia severa de API en la nube, problemas de costo y latencia
Manejo de Errores: Falta de mecanismos robustos de detección y recuperación de errores
Rango de Aplicabilidad: Principalmente aplicable a tareas estándar de análisis de texto, soporte limitado para dominios especializados

Impacto

Contribución Académica: Proporciona un nuevo paradigma para diseño de colaboración humano-máquina y sistemas de agentes
Valor Práctico: Promete democratizar el análisis de texto
Reproducibilidad: Basado en marcos de código abierto, facilitando reproducción y extensión

Escenarios de Aplicabilidad

Usuarios Objetivo: Analistas de datos de nivel inicial, investigadores en ciencias sociales, periodistas
Campos de Aplicación: Análisis de retroalimentación de clientes, minería de literatura académica, análisis de redes sociales
Condiciones de Uso: Requiere conocimiento básico de análisis de datos y 30 minutos de capacitación

Referencias

Este artículo cita 63 referencias relacionadas, incluyendo principalmente:

Aplicaciones de análisis de texto con LLM (TnT-LLM, LLooM, etc.)
Diseño de interfaces de colaboración humano-máquina (AutoGen, LangGraph, etc.)
Diseño de sistemas de visualización e interacción
Algoritmos de búsqueda de árbol de Monte Carlo

Evaluación General: Este es un artículo de sistema de alta calidad que realiza contribuciones importantes en el campo del análisis de texto con colaboración humano-máquina. Las innovaciones técnicas son sólidas, la evaluación experimental es completa, y tiene importancia significativa para promover la popularización de herramientas de análisis de texto. Aunque existen algunas limitaciones técnicas, proporciona direcciones claras para investigación futura.