Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
- ID del Artículo: 2506.21582
- Título: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
- Autores: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
- Clasificación: cs.CL cs.AI cs.HC
- Fecha de Publicación: 13 de octubre de 2025 (arXiv v4)
- Enlace del Artículo: https://arxiv.org/abs/2506.21582
El análisis de texto tradicionalmente requiere conocimientos especializados en procesamiento del lenguaje natural (PLN) o análisis textual, lo que presenta barreras técnicas para analistas de nivel inicial. Los avances recientes en modelos de lenguaje grandes (LLMs) han transformado el panorama del PLN al permitir análisis de texto más accesible y automatizado (como detección de temas, resumen, extracción de información, etc.). Este artículo presenta el sistema VIDEE, que permite a analistas de datos de nivel inicial colaborar con agentes inteligentes para realizar análisis de texto avanzado. VIDEE implementa un flujo de trabajo de colaboración humano-máquina de tres fases: (1) fase de descomposición, que combina búsqueda de árbol de Monte Carlo con retroalimentación humana en el bucle, permitiendo razonamiento generativo con retroalimentación humana; (2) fase de ejecución, que genera canalizaciones de análisis de texto ejecutables; (3) fase de evaluación, que integra evaluación basada en LLM y visualización, permitiendo a los usuarios validar los resultados de la ejecución.
El análisis de texto tradicional enfrenta cuatro desafíos principales:
- Problema del Espacio de Descomposición Grande: La flexibilidad de las indicaciones permite múltiples formas de descomponer objetivos mediante diferentes combinaciones de subtareas. Los analistas deben equilibrar la dificultad de las subtareas con la robustez general de la canalización.
- Barrera de Conocimiento Técnico: Los analistas poseen diferentes niveles de conocimiento técnico, particularmente sobre LLMs. El campo relacionado con LLMs evoluciona rápidamente, y los analistas pueden no poder mantenerse al día con la tecnología más reciente.
- Dificultades de Implementación y Experimentación: Construir e implementar canalizaciones de análisis de texto requiere un esfuerzo de ingeniería considerable, incluyendo el manejo de formatos de entrada/salida, transformaciones de datos intermedios y parámetros de análisis.
- Desafíos de Evaluación: Evaluar canalizaciones de análisis de texto basadas en LLM requiere métodos de evaluación únicos que aún no están ampliamente disponibles.
Estos desafíos motivan la necesidad de un sistema de agentes que apoye a los analistas de texto. Dado un objetivo del usuario y un conjunto de datos, un agente con conocimiento técnico suficiente puede descomponer automáticamente el objetivo, buscar en el gran espacio de descomposición, generar un plan de análisis de texto, implementar y ejecutar la canalización, y finalmente evaluar los resultados.
- Propuesta de Flujo de Trabajo de Colaboración Humano-Máquina de Tres Fases: Se diseñó un flujo de trabajo completo de descomposición (Decomposition), ejecución (Execution) y evaluación (Evaluation) para lograr objetivos complejos de análisis de texto.
- Desarrollo del Sistema VIDEE: Se implementó un sistema de agentes con interfaz de visualización que permite a analistas de datos ejecutar análisis de texto en un entorno sin código.
- Innovaciones Técnicas:
- Algoritmo de descomposición con humano en el bucle basado en búsqueda de árbol de Monte Carlo (MCTS)
- Marco conceptual basado en unidades de análisis para manejar cambios en estructuras de datos
- Mecanismo de evaluación que integra evaluadores LLM con visualización
- Hallazgos de Investigación Empírica: A través de evaluación sistemática e investigación con usuarios, se proporcionan nuevas perspectivas sobre sistemas de agentes y colaboración humano-máquina.
Entrada: Objetivo del usuario (descripción en lenguaje natural) y conjunto de datos de texto
Salida: Canalización completa de análisis de texto y sus resultados de ejecución
Restricciones: Apoyo a entornos sin código, adaptación a usuarios con diferentes niveles técnicos
- Objetivo: Descomponer el objetivo del usuario en una secuencia de tareas semánticas
- Algoritmo Principal: Búsqueda de árbol de Monte Carlo (MCTS) mejorada
- Colaboración Humano-Máquina: Los humanos supervisan el proceso de búsqueda, mientras que el agente explora posibles opciones de canalización
Mejoras del Algoritmo MCTS:
- Uso de evaluadores LLM como función de recompensa
- Definición de tres criterios de evaluación: complejidad, coherencia, importancia
- Apoyo a retroalimentación humana para ajustar la dirección de búsqueda
- Sustitución de la expansión aleatoria por cálculo de recompensa integral
- Proceso de Transformación: Tareas semánticas → Tareas primitivas → Canalización ejecutable
- Proceso de Compilación: Generación de patrones de entrada/salida, selección de algoritmos, hiperparámetros
- Apoyo Técnico: Construcción de gráficos de ejecución basada en LangGraph
Marco Conceptual de Unidades de Análisis:
- Definición de unidades de entrada para cada tarea primitiva
- Adopción del paradigma MapReduce para manejar cambios en estructuras de datos
- Creación automática de nuevas unidades de análisis
- Método de Evaluación: Evaluación sin etiquetas de verdad basada en evaluadores LLM
- Visualización: Gráficos de barras y gráficos radiales de temas extendidos
- Recomendación Automática: El sistema recomienda 3 criterios de evaluación para cada tarea
- Combinación de Razonamiento Generativo y MCTS: En comparación con la estrategia codiciosa de búsqueda de haz, la retropropagación de MCTS proporciona retroalimentación hacia atrás, siendo más adecuada para la planificación de canalizaciones de análisis de texto.
- Marco de Unidades de Análisis: Manejo automático de cambios en estructuras de datos mediante el paradigma MapReduce, permitiendo combinaciones diversas de tareas primitivas.
- Dinámicas de Colaboración Humano-Máquina: Los usuarios actúan como gestores, los evaluadores LLM como asesores, reduciendo la necesidad de alineación de LLM.
- Evaluación del Descompositor:
- Escenario LLooM: Conjunto de datos de resúmenes de artículos de HCI
- Escenario TnT-LLM: Conjunto de datos de conversaciones de usuarios de Microsoft Bing Copilot
- Evaluación del Ejecutor:
- Conjunto de datos de Wikipedia (n=210), que contiene etiquetas reales como temas
- Investigación con Usuarios:
- Conjunto de datos de resúmenes de artículos de HCI (100 artículos)
- Tarea de inducción conceptual
- Evaluación del Descompositor: Método Arena, utilizando el modelo o3-mini para comparar canalizaciones generadas con canalizaciones manuales
- Evaluación del Ejecutor: Cobertura conceptual (concept coverage)
- Investigación con Usuarios: Finalización de tareas, patrones de comportamiento del usuario, retroalimentación de usabilidad
- Descompositor: Canalizaciones elaboradas manualmente (LLooM y TnT-LLM)
- Ejecutor: Métodos de línea base BERTopic y GPT-4o
- Modelos: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
- Marco: AutoGen + LangGraph
- Costo: Promedio de $0.005 por expansión, árbol completo aproximadamente 7 minutos
- Desempeño: En 10 comparaciones, 6 canalizaciones generadas fueron evaluadas como mejores (2 en LLooM, 4 en TnT-LLM)
- Ventajas: Las canalizaciones generadas son más directas y concisas
- Limitaciones: No consideran limitaciones de ventana de contexto para procesamiento de datos largos
- Cobertura Conceptual: 83% vs BERTopic (52.6%) vs GPT-4o (53%)
- Mejora de Desempeño: Mejora del 30% en comparación con métodos de línea base
- Confiabilidad: Logra resultados comparables con canalizaciones manuales de LLooM
Retroalimentación Positiva:
- Flujo de Trabajo Claro e Intuitivo: Todos los participantes completaron las tareas en tiempo razonable
- Importancia de la Automatización: Incluso participantes de nivel experto consideraron el sistema más eficiente que la codificación
- Confianza en Procesos Generados Programáticamente: Los usuarios confían más en procesos explícitos en comparación con sistemas de caja negra como ChatGPT
Patrones de Comportamiento del Usuario:
- Preferencia de Estrategia de Búsqueda: "Explotar primero, luego explorar" en lugar de estrategias equilibradas
- Alineación vs Recomendación: Los usuarios ven evaluadores LLM como asesores en lugar de estándares verdaderos
- Rol Facilitador de Unidades de Análisis: Las unidades de análisis explícitas ayudan a comprender canalizaciones y depurar errores
- Errores de Ejecución: Posible selección de unidades de análisis incorrectas durante la compilación
- Curva de Aprendizaje: Se requieren 30 minutos de capacitación para usar el sistema con competencia
- Dependencia Técnica: Dependencia severa de consultas paralelas a LLM en la nube
- Análisis Individual: Los LLMs muestran excelente desempeño en tareas como clasificación de texto, extracción de información
- Canalizaciones End-to-End: TnT-LLM, LLooM, marcos de análisis de temas, etc.
- Herramientas de limpieza y transformación de datos (Data Wrangler)
- Sistemas de exploración de datos con visualización (LightVA, InterChat)
- El análisis de texto presenta desafíos únicos en comparación con análisis de datos tradicionales
- Desafíos y soluciones de ingeniería de indicaciones
- Necesidad de control del usuario y evaluación en sistemas de agentes
- Diseño de abstracción múltiple e interfaces interactivas
- Validación de Viabilidad: El flujo de trabajo de tres fases reduce efectivamente las barreras técnicas para el análisis de texto
- Aceptación del Usuario: Usuarios con diferentes niveles técnicos pueden usar el sistema con éxito
- Efectividad Técnica: La calidad de las canalizaciones generadas es comparable a las canalizaciones elaboradas por expertos
- Escala de Investigación con Usuarios: Solo 6 participantes, muestra sesgada hacia estudiantes de posgrado
- Limitaciones Técnicas: Dependencia de LLM en la nube, falta de mecanismos de autocorrección
- Limitaciones Funcionales: No admite análisis de series temporales, análisis de redes o bases de conocimiento externas
- Agentes Conversacionales: Integración de transformación de comandos en lenguaje natural
- Bucles de Retroalimentación: Retroalimentación de resultados de ejecución y evaluación a la fase de descomposición
- Extensión de Métodos de Evaluación: Apoyo a evaluación de análisis de agrupamiento y otras tareas no textuales
- Integración del Ecosistema de Código Abierto: Integración con herramientas como LangSmith
- Innovación Sistemática: Primera propuesta de un flujo de trabajo completo de análisis de texto con colaboración humano-máquina
- Profundidad Técnica: Mejoras del algoritmo MCTS, marco de unidades de análisis y otras contribuciones teóricas
- Valor Práctico: Reduce genuinamente las barreras técnicas para el análisis de texto
- Evaluación Integral: Combina experimentos cuantitativos e investigación cualitativa con usuarios
- Escalabilidad: Dependencia severa de API en la nube, problemas de costo y latencia
- Manejo de Errores: Falta de mecanismos robustos de detección y recuperación de errores
- Rango de Aplicabilidad: Principalmente aplicable a tareas estándar de análisis de texto, soporte limitado para dominios especializados
- Contribución Académica: Proporciona un nuevo paradigma para diseño de colaboración humano-máquina y sistemas de agentes
- Valor Práctico: Promete democratizar el análisis de texto
- Reproducibilidad: Basado en marcos de código abierto, facilitando reproducción y extensión
- Usuarios Objetivo: Analistas de datos de nivel inicial, investigadores en ciencias sociales, periodistas
- Campos de Aplicación: Análisis de retroalimentación de clientes, minería de literatura académica, análisis de redes sociales
- Condiciones de Uso: Requiere conocimiento básico de análisis de datos y 30 minutos de capacitación
Este artículo cita 63 referencias relacionadas, incluyendo principalmente:
- Aplicaciones de análisis de texto con LLM (TnT-LLM, LLooM, etc.)
- Diseño de interfaces de colaboración humano-máquina (AutoGen, LangGraph, etc.)
- Diseño de sistemas de visualización e interacción
- Algoritmos de búsqueda de árbol de Monte Carlo
Evaluación General: Este es un artículo de sistema de alta calidad que realiza contribuciones importantes en el campo del análisis de texto con colaboración humano-máquina. Las innovaciones técnicas son sólidas, la evaluación experimental es completa, y tiene importancia significativa para promover la popularización de herramientas de análisis de texto. Aunque existen algunas limitaciones técnicas, proporciona direcciones claras para investigación futura.