2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.

Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.

academic

VIDEE : Décomposition Visuelle et Interactive, Exécution et Évaluation de l'Analyse Textuelle avec des Agents Intelligents

Informations Fondamentales

ID de l'article : 2506.21582
Titre : VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
Auteurs : Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
Classification : cs.CL cs.AI cs.HC
Date de publication : 13 octobre 2025 (arXiv v4)
Lien de l'article : https://arxiv.org/abs/2506.21582

Résumé

L'analyse textuelle a traditionnellement nécessité une expertise en traitement du langage naturel (TAL) ou en analyse textuelle, ce qui représentait une barrière technologique pour les analystes débutants. Les avancées récentes des modèles de langage de grande taille (LLMs) ont transformé le paysage du TAL en soutenant une analyse textuelle plus accessible et automatisée (telle que la détection de sujets, la synthèse, l'extraction d'informations, etc.). Cet article présente le système VIDEE, qui permet aux analystes de données débutants de collaborer avec des agents intelligents pour effectuer une analyse textuelle avancée. VIDEE instancie un flux de travail de collaboration homme-machine en trois étapes : (1) l'étape de décomposition, combinant l'algorithme de recherche d'arbre de Monte-Carlo avec boucle humaine, soutenant le raisonnement génératif avec rétroaction humaine ; (2) l'étape d'exécution, générant des pipelines d'analyse textuelle exécutables ; (3) l'étape d'évaluation, intégrant l'évaluation basée sur LLM et la visualisation, soutenant la vérification des résultats d'exécution par l'utilisateur.

Contexte de Recherche et Motivation

Définition du Problème

L'analyse textuelle traditionnelle fait face à quatre défis majeurs :

Problème de grand espace de décomposition : La flexibilité des invites permet plusieurs façons de décomposer l'objectif par le biais de différentes combinaisons de sous-tâches, et les analystes doivent équilibrer la difficulté des sous-tâches et la robustesse globale du pipeline.
Barrière des connaissances techniques : Les analystes possèdent différents niveaux de connaissances techniques, en particulier concernant les LLMs. Le domaine des LLMs évolue rapidement, et les analystes peuvent ne pas suivre les dernières technologies.
Difficultés de mise en œuvre et d'expérimentation : La construction et la mise en œuvre de pipelines d'analyse textuelle nécessitent des efforts d'ingénierie considérables, notamment la gestion des formats d'entrée/sortie, les transformations de données intermédiaires et les paramètres d'analyse.
Défis d'évaluation : L'évaluation des pipelines d'analyse textuelle basés sur LLM nécessite des méthodes d'évaluation uniques qui ne sont pas encore largement répandues.

Motivation de la Recherche

Ces défis ont motivé le besoin d'un système d'agent pour soutenir les analystes textuels. Étant donné un objectif utilisateur et un ensemble de données, un agent possédant des connaissances techniques suffisantes peut automatiquement décomposer l'objectif, explorer le grand espace de décomposition et générer un plan d'analyse textuelle, puis implémenter et exécuter le pipeline, et enfin évaluer les résultats.

Contributions Principales

Proposition d'un flux de travail de collaboration homme-machine en trois étapes : Conception d'un processus complet de décomposition (Decomposition), exécution (Execution) et évaluation (Evaluation) pour réaliser des objectifs d'analyse textuelle complexes.
Développement du système VIDEE : Implémentation d'un système d'agent avec interface visuelle, permettant aux analystes de données d'exécuter l'analyse textuelle dans un environnement sans code.
Innovations technologiques :
- Algorithme de décomposition avec boucle humaine basé sur la recherche d'arbre de Monte-Carlo (MCTS)
- Cadre conceptuel basé sur les unités d'analyse pour gérer les variations de structures de données
- Mécanisme d'évaluation intégrant les évaluateurs LLM et la visualisation
Résultats de recherche empirique : Fourniture de nouvelles perspectives sur les systèmes d'agents et la collaboration homme-machine par le biais d'une évaluation systématique et d'études utilisateur.

Détails de la Méthode

Définition de la Tâche

Entrée : Objectif utilisateur (description en langage naturel) et ensemble de données textuelles Sortie : Pipeline d'analyse textuelle complet et ses résultats d'exécution Contraintes : Soutien d'un environnement sans code, adaptation à des utilisateurs de différents niveaux techniques

Architecture du Flux de Travail en Trois Étapes

1. Étape de Décomposition (Decomposition)

Objectif : Décomposer l'objectif utilisateur en séquence de tâches sémantiques
Algorithme principal : Recherche d'arbre de Monte-Carlo (MCTS) améliorée
Collaboration homme-machine : Les humains supervisent le processus de recherche, l'agent explore les options de pipeline possibles

Améliorations de l'algorithme MCTS :

Utilisation d'un évaluateur LLM comme fonction de récompense
Définition de trois critères d'évaluation : complexité, cohérence, importance
Soutien de la rétroaction humaine pour ajuster la direction de la recherche
Remplacement du déroulement aléatoire par un calcul complet des récompenses

2. Étape d'Exécution (Execution)

Processus de conversion : Tâche sémantique → Tâche primitive → Pipeline exécutable
Processus de compilation : Génération des modèles d'entrée/sortie, sélection d'algorithmes, hyperparamètres
Soutien technique : Construction de graphes d'exécution basée sur LangGraph

Cadre conceptuel des unités d'analyse :

Définition des unités d'entrée pour chaque tâche primitive
Adoption du paradigme MapReduce pour gérer les variations de structures de données
Création automatique de nouvelles unités d'analyse

3. Étape d'Évaluation (Evaluation)

Méthode d'évaluation : Évaluation sans étiquettes de vérité basée sur les évaluateurs LLM
Visualisation : Graphiques en barres et graphiques radiaux de sujets étendus
Recommandation automatique : Le système recommande 3 critères d'évaluation pour chaque tâche

Points d'Innovation Technologique

Combinaison du raisonnement génératif et MCTS : Comparé à la stratégie gourmande de la recherche par faisceau, la rétropropagation de MCTS fournit une rétroaction rétroactive, plus adaptée à la planification de pipelines d'analyse textuelle.
Cadre des unités d'analyse : Gestion automatique des variations de structures de données par le paradigme MapReduce, soutenant des combinaisons diversifiées de tâches primitives.
Dynamique de collaboration homme-machine : L'utilisateur agit comme gestionnaire, l'évaluateur LLM comme conseiller, réduisant la nécessité d'alignement des LLMs.

Configuration Expérimentale

Ensembles de Données

Évaluation du décomposeur :
- Scénario LLooM : Ensemble de données de résumés d'articles HCI
- Scénario TnT-LLM : Ensemble de données de conversations utilisateur Microsoft Bing Copilot
Évaluation de l'exécuteur :
- Ensemble de données Wikipedia (n=210), contenant des étiquettes réelles comme sujets
Étude utilisateur :
- Ensemble de données de résumés d'articles HCI (100 articles)
- Tâche d'induction conceptuelle

Métriques d'Évaluation

Évaluation du décomposeur : Méthode Arena, utilisant le modèle o3-mini pour comparer les pipelines générés avec les pipelines manuels
Évaluation de l'exécuteur : Couverture conceptuelle (concept coverage)
Étude utilisateur : Accomplissement des tâches, modèles de comportement utilisateur, retours d'utilisabilité

Méthodes de Comparaison

Décomposeur : Pipelines créés manuellement (LLooM et TnT-LLM)
Exécuteur : Méthodes de base BERTopic et GPT-4o

Détails de Mise en Œuvre

Modèles : GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
Cadre : AutoGen + LangGraph
Coût : Moyenne de 0,005 USD par expansion, arbre complet environ 7 minutes

Résultats Expérimentaux

Résultats Principaux

Évaluation du Décomposeur

Performance : Sur 10 comparaisons, 6 pipelines générés ont été évalués comme meilleurs (2 pour LLooM, 4 pour TnT-LLM)
Avantages : Les pipelines générés sont plus directs et concis
Insuffisances : Incapacité à considérer les limitations de fenêtre de contexte pour le traitement de données longues

Évaluation de l'Exécuteur

Couverture conceptuelle : 83 % vs BERTopic (52,6 %) vs GPT-4o (53 %)
Amélioration de performance : Amélioration de 30 % par rapport aux méthodes de base
Fiabilité : Résultats comparables aux pipelines manuels LLooM

Résultats de l'Étude Utilisateur

Retours Positifs :

Flux de travail clair et intuitif : Tous les participants ont pu accomplir la tâche en un délai raisonnable
Importance de l'automatisation : Même les participants de niveau expert ont trouvé le système plus efficace que le codage
Confiance dans la génération programmatique : Les utilisateurs font davantage confiance au processus explicite qu'aux systèmes de boîte noire comme ChatGPT

Modèles de Comportement Utilisateur :

Préférence de stratégie de recherche : « Exploiter d'abord, puis explorer » plutôt qu'une stratégie équilibrée
Alignement vs recommandation : Les utilisateurs considèrent l'évaluateur LLM comme une recommandation plutôt que comme une norme de vérité
Rôle de compréhension des unités d'analyse : Les unités d'analyse explicites aident à comprendre le pipeline et à déboguer les erreurs

Limitations du Système

Erreurs d'exécution : Sélection possible d'unités d'analyse incorrectes lors de la compilation
Courbe d'apprentissage : 30 minutes de formation nécessaires pour une utilisation compétente
Dépendance technologique : Dépendance grave des requêtes LLM parallélisées en cloud

Travaux Connexes

Analyse Textuelle Basée sur LLM

Analyse individuelle : Les LLMs excellent dans les tâches de classification textuelle, d'extraction d'informations, etc.
Pipelines de bout en bout : TnT-LLM, LLooM, cadres d'analyse de sujets, etc.

Analyse de Données Assistée par LLM

Outils de nettoyage et transformation de données (Data Wrangler)
Systèmes d'exploration de données visuelles (LightVA, InterChat)
L'analyse textuelle présente des défis uniques par rapport à l'analyse de données traditionnelle

Recherche en Conception de Collaboration Homme-Machine

Défis et solutions d'ingénierie des invites
Besoin de contrôle utilisateur et d'évaluation dans les systèmes d'agents
Conception d'abstraction multi-niveaux et de systèmes interactifs

Conclusion et Discussion

Conclusions Principales

Vérification de la faisabilité : Le flux de travail en trois étapes réduit efficacement les barrières technologiques de l'analyse textuelle
Acceptation par l'utilisateur : Les utilisateurs de différents niveaux techniques peuvent utiliser le système avec succès
Efficacité technique : La qualité des pipelines générés est comparable à celle des pipelines créés par des experts

Limitations

Taille de l'étude utilisateur : Seulement 6 participants, échantillon biaisé vers les étudiants diplômés
Limitations techniques : Dépendance des LLMs en cloud, absence de mécanisme d'auto-correction
Limitations fonctionnelles : Pas de soutien pour l'analyse de séries temporelles, l'analyse de réseaux ou les bases de connaissances externes

Directions Futures

Agent conversationnel : Intégration de la conversion de commandes en langage naturel
Boucles de rétroaction : Rétroaction des résultats d'exécution et d'évaluation à l'étape de décomposition
Extension des méthodes d'évaluation : Soutien de l'évaluation pour l'analyse de clustering et autres tâches non textuelles
Intégration d'écosystème open-source : Intégration avec des outils tels que LangSmith

Évaluation Approfondie

Points Forts

Innovation systématique : Première proposition d'un flux de travail complet de collaboration homme-machine pour l'analyse textuelle
Profondeur technique : Les améliorations de l'algorithme MCTS, le cadre des unités d'analyse, etc., apportent des contributions théoriques
Valeur pratique : Réduction réelle des barrières technologiques de l'analyse textuelle
Évaluation complète : Combinaison d'expériences quantitatives et d'études utilisateur qualitatives

Insuffisances

Scalabilité : Dépendance grave des API en cloud, problèmes de coût et de latence
Gestion des erreurs : Absence de mécanisme robuste de détection et de récupération d'erreurs
Portée d'application : Principalement adaptée aux tâches d'analyse textuelle standard, soutien limité pour les domaines spécialisés

Impact

Contribution académique : Fournit un nouveau paradigme pour la conception de collaboration homme-machine et de systèmes d'agents
Valeur pratique : Susceptible de promouvoir la démocratisation de l'analyse textuelle
Reproductibilité : Basée sur des cadres open-source, facilitant la reproduction et l'extension

Scénarios d'Application

Utilisateurs cibles : Analystes de données débutants, chercheurs en sciences sociales, journalistes
Domaines d'application : Analyse des commentaires clients, exploration de littérature académique, analyse des médias sociaux
Conditions d'utilisation : Nécessite une base d'analyse de données et 30 minutes de formation

Références

Cet article cite 63 références connexes, incluant principalement :

Applications d'analyse textuelle LLM (TnT-LLM, LLooM, etc.)
Conception d'interfaces de collaboration homme-machine (AutoGen, LangGraph, etc.)
Conception de systèmes de visualisation et d'interaction
Algorithmes de recherche d'arbre de Monte-Carlo

Évaluation Générale : Ceci est un article de système de haute qualité qui apporte des contributions importantes au domaine de l'analyse textuelle collaborative homme-machine. Les innovations technologiques sont solides, l'évaluation expérimentale est complète, et elle a une importance significative pour promouvoir la popularisation des outils d'analyse textuelle. Bien qu'il existe certaines limitations techniques, il fournit des directions claires pour les recherches futures.