Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
- ID de l'article : 2506.21582
- Titre : VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
- Auteurs : Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
- Classification : cs.CL cs.AI cs.HC
- Date de publication : 13 octobre 2025 (arXiv v4)
- Lien de l'article : https://arxiv.org/abs/2506.21582
L'analyse textuelle a traditionnellement nécessité une expertise en traitement du langage naturel (TAL) ou en analyse textuelle, ce qui représentait une barrière technologique pour les analystes débutants. Les avancées récentes des modèles de langage de grande taille (LLMs) ont transformé le paysage du TAL en soutenant une analyse textuelle plus accessible et automatisée (telle que la détection de sujets, la synthèse, l'extraction d'informations, etc.). Cet article présente le système VIDEE, qui permet aux analystes de données débutants de collaborer avec des agents intelligents pour effectuer une analyse textuelle avancée. VIDEE instancie un flux de travail de collaboration homme-machine en trois étapes : (1) l'étape de décomposition, combinant l'algorithme de recherche d'arbre de Monte-Carlo avec boucle humaine, soutenant le raisonnement génératif avec rétroaction humaine ; (2) l'étape d'exécution, générant des pipelines d'analyse textuelle exécutables ; (3) l'étape d'évaluation, intégrant l'évaluation basée sur LLM et la visualisation, soutenant la vérification des résultats d'exécution par l'utilisateur.
L'analyse textuelle traditionnelle fait face à quatre défis majeurs :
- Problème de grand espace de décomposition : La flexibilité des invites permet plusieurs façons de décomposer l'objectif par le biais de différentes combinaisons de sous-tâches, et les analystes doivent équilibrer la difficulté des sous-tâches et la robustesse globale du pipeline.
- Barrière des connaissances techniques : Les analystes possèdent différents niveaux de connaissances techniques, en particulier concernant les LLMs. Le domaine des LLMs évolue rapidement, et les analystes peuvent ne pas suivre les dernières technologies.
- Difficultés de mise en œuvre et d'expérimentation : La construction et la mise en œuvre de pipelines d'analyse textuelle nécessitent des efforts d'ingénierie considérables, notamment la gestion des formats d'entrée/sortie, les transformations de données intermédiaires et les paramètres d'analyse.
- Défis d'évaluation : L'évaluation des pipelines d'analyse textuelle basés sur LLM nécessite des méthodes d'évaluation uniques qui ne sont pas encore largement répandues.
Ces défis ont motivé le besoin d'un système d'agent pour soutenir les analystes textuels. Étant donné un objectif utilisateur et un ensemble de données, un agent possédant des connaissances techniques suffisantes peut automatiquement décomposer l'objectif, explorer le grand espace de décomposition et générer un plan d'analyse textuelle, puis implémenter et exécuter le pipeline, et enfin évaluer les résultats.
- Proposition d'un flux de travail de collaboration homme-machine en trois étapes : Conception d'un processus complet de décomposition (Decomposition), exécution (Execution) et évaluation (Evaluation) pour réaliser des objectifs d'analyse textuelle complexes.
- Développement du système VIDEE : Implémentation d'un système d'agent avec interface visuelle, permettant aux analystes de données d'exécuter l'analyse textuelle dans un environnement sans code.
- Innovations technologiques :
- Algorithme de décomposition avec boucle humaine basé sur la recherche d'arbre de Monte-Carlo (MCTS)
- Cadre conceptuel basé sur les unités d'analyse pour gérer les variations de structures de données
- Mécanisme d'évaluation intégrant les évaluateurs LLM et la visualisation
- Résultats de recherche empirique : Fourniture de nouvelles perspectives sur les systèmes d'agents et la collaboration homme-machine par le biais d'une évaluation systématique et d'études utilisateur.
Entrée : Objectif utilisateur (description en langage naturel) et ensemble de données textuelles
Sortie : Pipeline d'analyse textuelle complet et ses résultats d'exécution
Contraintes : Soutien d'un environnement sans code, adaptation à des utilisateurs de différents niveaux techniques
- Objectif : Décomposer l'objectif utilisateur en séquence de tâches sémantiques
- Algorithme principal : Recherche d'arbre de Monte-Carlo (MCTS) améliorée
- Collaboration homme-machine : Les humains supervisent le processus de recherche, l'agent explore les options de pipeline possibles
Améliorations de l'algorithme MCTS :
- Utilisation d'un évaluateur LLM comme fonction de récompense
- Définition de trois critères d'évaluation : complexité, cohérence, importance
- Soutien de la rétroaction humaine pour ajuster la direction de la recherche
- Remplacement du déroulement aléatoire par un calcul complet des récompenses
- Processus de conversion : Tâche sémantique → Tâche primitive → Pipeline exécutable
- Processus de compilation : Génération des modèles d'entrée/sortie, sélection d'algorithmes, hyperparamètres
- Soutien technique : Construction de graphes d'exécution basée sur LangGraph
Cadre conceptuel des unités d'analyse :
- Définition des unités d'entrée pour chaque tâche primitive
- Adoption du paradigme MapReduce pour gérer les variations de structures de données
- Création automatique de nouvelles unités d'analyse
- Méthode d'évaluation : Évaluation sans étiquettes de vérité basée sur les évaluateurs LLM
- Visualisation : Graphiques en barres et graphiques radiaux de sujets étendus
- Recommandation automatique : Le système recommande 3 critères d'évaluation pour chaque tâche
- Combinaison du raisonnement génératif et MCTS : Comparé à la stratégie gourmande de la recherche par faisceau, la rétropropagation de MCTS fournit une rétroaction rétroactive, plus adaptée à la planification de pipelines d'analyse textuelle.
- Cadre des unités d'analyse : Gestion automatique des variations de structures de données par le paradigme MapReduce, soutenant des combinaisons diversifiées de tâches primitives.
- Dynamique de collaboration homme-machine : L'utilisateur agit comme gestionnaire, l'évaluateur LLM comme conseiller, réduisant la nécessité d'alignement des LLMs.
- Évaluation du décomposeur :
- Scénario LLooM : Ensemble de données de résumés d'articles HCI
- Scénario TnT-LLM : Ensemble de données de conversations utilisateur Microsoft Bing Copilot
- Évaluation de l'exécuteur :
- Ensemble de données Wikipedia (n=210), contenant des étiquettes réelles comme sujets
- Étude utilisateur :
- Ensemble de données de résumés d'articles HCI (100 articles)
- Tâche d'induction conceptuelle
- Évaluation du décomposeur : Méthode Arena, utilisant le modèle o3-mini pour comparer les pipelines générés avec les pipelines manuels
- Évaluation de l'exécuteur : Couverture conceptuelle (concept coverage)
- Étude utilisateur : Accomplissement des tâches, modèles de comportement utilisateur, retours d'utilisabilité
- Décomposeur : Pipelines créés manuellement (LLooM et TnT-LLM)
- Exécuteur : Méthodes de base BERTopic et GPT-4o
- Modèles : GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
- Cadre : AutoGen + LangGraph
- Coût : Moyenne de 0,005 USD par expansion, arbre complet environ 7 minutes
- Performance : Sur 10 comparaisons, 6 pipelines générés ont été évalués comme meilleurs (2 pour LLooM, 4 pour TnT-LLM)
- Avantages : Les pipelines générés sont plus directs et concis
- Insuffisances : Incapacité à considérer les limitations de fenêtre de contexte pour le traitement de données longues
- Couverture conceptuelle : 83 % vs BERTopic (52,6 %) vs GPT-4o (53 %)
- Amélioration de performance : Amélioration de 30 % par rapport aux méthodes de base
- Fiabilité : Résultats comparables aux pipelines manuels LLooM
Retours Positifs :
- Flux de travail clair et intuitif : Tous les participants ont pu accomplir la tâche en un délai raisonnable
- Importance de l'automatisation : Même les participants de niveau expert ont trouvé le système plus efficace que le codage
- Confiance dans la génération programmatique : Les utilisateurs font davantage confiance au processus explicite qu'aux systèmes de boîte noire comme ChatGPT
Modèles de Comportement Utilisateur :
- Préférence de stratégie de recherche : « Exploiter d'abord, puis explorer » plutôt qu'une stratégie équilibrée
- Alignement vs recommandation : Les utilisateurs considèrent l'évaluateur LLM comme une recommandation plutôt que comme une norme de vérité
- Rôle de compréhension des unités d'analyse : Les unités d'analyse explicites aident à comprendre le pipeline et à déboguer les erreurs
- Erreurs d'exécution : Sélection possible d'unités d'analyse incorrectes lors de la compilation
- Courbe d'apprentissage : 30 minutes de formation nécessaires pour une utilisation compétente
- Dépendance technologique : Dépendance grave des requêtes LLM parallélisées en cloud
- Analyse individuelle : Les LLMs excellent dans les tâches de classification textuelle, d'extraction d'informations, etc.
- Pipelines de bout en bout : TnT-LLM, LLooM, cadres d'analyse de sujets, etc.
- Outils de nettoyage et transformation de données (Data Wrangler)
- Systèmes d'exploration de données visuelles (LightVA, InterChat)
- L'analyse textuelle présente des défis uniques par rapport à l'analyse de données traditionnelle
- Défis et solutions d'ingénierie des invites
- Besoin de contrôle utilisateur et d'évaluation dans les systèmes d'agents
- Conception d'abstraction multi-niveaux et de systèmes interactifs
- Vérification de la faisabilité : Le flux de travail en trois étapes réduit efficacement les barrières technologiques de l'analyse textuelle
- Acceptation par l'utilisateur : Les utilisateurs de différents niveaux techniques peuvent utiliser le système avec succès
- Efficacité technique : La qualité des pipelines générés est comparable à celle des pipelines créés par des experts
- Taille de l'étude utilisateur : Seulement 6 participants, échantillon biaisé vers les étudiants diplômés
- Limitations techniques : Dépendance des LLMs en cloud, absence de mécanisme d'auto-correction
- Limitations fonctionnelles : Pas de soutien pour l'analyse de séries temporelles, l'analyse de réseaux ou les bases de connaissances externes
- Agent conversationnel : Intégration de la conversion de commandes en langage naturel
- Boucles de rétroaction : Rétroaction des résultats d'exécution et d'évaluation à l'étape de décomposition
- Extension des méthodes d'évaluation : Soutien de l'évaluation pour l'analyse de clustering et autres tâches non textuelles
- Intégration d'écosystème open-source : Intégration avec des outils tels que LangSmith
- Innovation systématique : Première proposition d'un flux de travail complet de collaboration homme-machine pour l'analyse textuelle
- Profondeur technique : Les améliorations de l'algorithme MCTS, le cadre des unités d'analyse, etc., apportent des contributions théoriques
- Valeur pratique : Réduction réelle des barrières technologiques de l'analyse textuelle
- Évaluation complète : Combinaison d'expériences quantitatives et d'études utilisateur qualitatives
- Scalabilité : Dépendance grave des API en cloud, problèmes de coût et de latence
- Gestion des erreurs : Absence de mécanisme robuste de détection et de récupération d'erreurs
- Portée d'application : Principalement adaptée aux tâches d'analyse textuelle standard, soutien limité pour les domaines spécialisés
- Contribution académique : Fournit un nouveau paradigme pour la conception de collaboration homme-machine et de systèmes d'agents
- Valeur pratique : Susceptible de promouvoir la démocratisation de l'analyse textuelle
- Reproductibilité : Basée sur des cadres open-source, facilitant la reproduction et l'extension
- Utilisateurs cibles : Analystes de données débutants, chercheurs en sciences sociales, journalistes
- Domaines d'application : Analyse des commentaires clients, exploration de littérature académique, analyse des médias sociaux
- Conditions d'utilisation : Nécessite une base d'analyse de données et 30 minutes de formation
Cet article cite 63 références connexes, incluant principalement :
- Applications d'analyse textuelle LLM (TnT-LLM, LLooM, etc.)
- Conception d'interfaces de collaboration homme-machine (AutoGen, LangGraph, etc.)
- Conception de systèmes de visualisation et d'interaction
- Algorithmes de recherche d'arbre de Monte-Carlo
Évaluation Générale : Ceci est un article de système de haute qualité qui apporte des contributions importantes au domaine de l'analyse textuelle collaborative homme-machine. Les innovations technologiques sont solides, l'évaluation expérimentale est complète, et elle a une importance significative pour promouvoir la popularisation des outils d'analyse textuelle. Bien qu'il existe certaines limitations techniques, il fournit des directions claires pour les recherches futures.