Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
- ID Articolo: 2506.21582
- Titolo: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
- Autori: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
- Classificazione: cs.CL cs.AI cs.HC
- Data di Pubblicazione: 13 ottobre 2025 (arXiv v4)
- Link Articolo: https://arxiv.org/abs/2506.21582
L'analisi testuale tradizionalmente richiede competenze specializzate in elaborazione del linguaggio naturale (NLP) o analisi testuale, rappresentando una barriera tecnica per gli analisti di livello iniziale. I recenti progressi nei modelli di linguaggio di grandi dimensioni (LLM) hanno trasformato il panorama dell'NLP supportando un'analisi testuale più accessibile e automatizzata (come rilevamento di argomenti, sintesi, estrazione di informazioni, ecc.). Questo articolo presenta il sistema VIDEE, che supporta la collaborazione tra analisti di dati di livello iniziale e agenti intelligenti per l'analisi testuale avanzata. VIDEE istanzia un flusso di lavoro di collaborazione uomo-macchina in tre fasi: (1) fase di decomposizione, che combina l'algoritmo di ricerca dell'albero di Monte Carlo con feedback umano nel ciclo, supportando il ragionamento generativo con retroazione umana; (2) fase di esecuzione, che genera pipeline di analisi testuale eseguibili; (3) fase di valutazione, che integra la valutazione basata su LLM e la visualizzazione, supportando la verifica dei risultati di esecuzione da parte dell'utente.
L'analisi testuale tradizionale affronta quattro sfide principali:
- Problema dello Spazio di Decomposizione Ampio: La flessibilità dei prompt consente molteplici modi di decomporre l'obiettivo attraverso diverse combinazioni di sottoattività, richiedendo agli analisti di bilanciare la difficoltà dei sottocompiti con la robustezza complessiva della pipeline.
- Barriera della Conoscenza Tecnica: Gli analisti possiedono diversi livelli di conoscenza tecnica, in particolare riguardante gli LLM. Il campo relativo agli LLM si sta sviluppando rapidamente e gli analisti potrebbero non riuscire a stare al passo con le tecnologie più recenti.
- Difficoltà di Implementazione e Sperimentazione: La costruzione e l'implementazione di pipeline di analisi testuale richiedono notevoli sforzi ingegneristici, inclusa la gestione dei formati di input/output, le trasformazioni di dati intermedi e i parametri di analisi.
- Sfide di Valutazione: La valutazione delle pipeline di analisi testuale basate su LLM richiede metodologie di valutazione uniche che non sono ancora ampiamente diffuse.
Queste sfide motivano la necessità di un sistema di agenti che supporti gli analisti di testi. Dato un obiettivo dell'utente e un dataset, un agente con conoscenze tecniche adeguate potrebbe decomporre automaticamente l'obiettivo, cercare nello spazio di decomposizione ampio e generare un piano di analisi testuale, quindi implementare ed eseguire la pipeline e infine valutare i risultati.
- Proposta di Flusso di Lavoro di Collaborazione Uomo-Macchina in Tre Fasi: Progettazione di un flusso di lavoro completo di decomposizione (Decomposition), esecuzione (Execution) e valutazione (Evaluation) per realizzare obiettivi complessi di analisi testuale.
- Sviluppo del Sistema VIDEE: Implementazione di un sistema di agenti con interfaccia visiva che supporta gli analisti di dati nell'esecuzione di analisi testuale in un ambiente senza codice.
- Innovazioni Tecniche:
- Algoritmo di decomposizione con feedback umano nel ciclo basato su ricerca dell'albero di Monte Carlo (MCTS)
- Framework concettuale basato su unità di analisi per gestire le variazioni di struttura dati
- Meccanismo di valutazione che integra valutatori LLM e visualizzazione
- Risultati di Ricerca Empirica: Attraverso valutazione sistematica e ricerca con utenti, fornisce nuove intuizioni sulla collaborazione tra sistemi di agenti e uomo-macchina.
Input: Obiettivo dell'utente (descrizione in linguaggio naturale) e dataset testuale
Output: Pipeline completa di analisi testuale e risultati di esecuzione
Vincoli: Supporto per ambiente senza codice, adattamento a utenti con diversi livelli tecnici
- Obiettivo: Decomporre l'obiettivo dell'utente in una sequenza di compiti semantici
- Algoritmo Principale: Ricerca dell'albero di Monte Carlo (MCTS) migliorata
- Collaborazione Uomo-Macchina: Gli umani monitorano il processo di ricerca, l'agente esplora possibili opzioni di pipeline
Miglioramenti dell'Algoritmo MCTS:
- Utilizzo di valutatori LLM come funzione di ricompensa
- Definizione di tre criteri di valutazione: complessità, coerenza, importanza
- Supporto per feedback umano per regolare la direzione di ricerca
- Sostituzione dell'espansione casuale con calcolo completo della ricompensa
- Processo di Trasformazione: Compiti semantici → Compiti primitivi → Pipeline eseguibile
- Processo di Compilazione: Generazione di schemi di input/output, selezione di algoritmi, iperparametri
- Supporto Tecnico: Costruzione di grafici di esecuzione basati su LangGraph
Framework Concettuale di Unità di Analisi:
- Definizione di unità di input per ogni compito primitivo
- Adozione del paradigma MapReduce per gestire le variazioni di struttura dati
- Creazione automatica di nuove unità di analisi
- Metodo di Valutazione: Valutazione basata su valutatori LLM senza etichette di verità
- Visualizzazione: Grafici a barre e grafici radiali estesi per argomenti
- Raccomandazione Automatica: Il sistema raccomanda 3 criteri di valutazione per ogni compito
- Combinazione di Ragionamento Generativo e MCTS: Rispetto alla strategia golosa della ricerca beam, la retropropagazione di MCTS fornisce feedback all'indietro, più adatta alla pianificazione di pipeline di analisi testuale.
- Framework di Unità di Analisi: Gestione automatica delle variazioni di struttura dati attraverso il paradigma MapReduce, supportando diverse combinazioni di compiti primitivi.
- Dinamiche di Collaborazione Uomo-Macchina: L'utente agisce come gestore, il valutatore LLM come consulente, riducendo la necessità di allineamento LLM.
- Valutazione del Decompostore:
- Scenario LLooM: Dataset di riassunti di articoli HCI
- Scenario TnT-LLM: Dataset di conversazioni utente di Microsoft Bing Copilot
- Valutazione dell'Esecutore:
- Dataset Wikipedia (n=210), contenente etichette reali come argomenti
- Ricerca con Utenti:
- Dataset di riassunti di articoli HCI (100 articoli)
- Compito di induzione concettuale
- Valutazione del Decompostore: Metodo Arena, utilizzo del modello o3-mini per confrontare pipeline generate con pipeline umane
- Valutazione dell'Esecutore: Copertura concettuale (concept coverage)
- Ricerca con Utenti: Completamento del compito, modelli di comportamento degli utenti, feedback di usabilità
- Decompostore: Pipeline realizzate manualmente (LLooM e TnT-LLM)
- Esecutore: Metodi baseline BERTopic e GPT-4o
- Modelli: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
- Framework: AutoGen + LangGraph
- Costo: Media di 0,005 dollari per espansione, albero completo circa 7 minuti
- Performance: In 10 confronti, 6 pipeline generate sono state valutate come migliori (2 per LLooM, 4 per TnT-LLM)
- Vantaggi: Le pipeline generate sono più dirette e concise
- Limitazioni: Non considerano i vincoli della finestra di contesto per l'elaborazione di dati lunghi
- Copertura Concettuale: 83% vs BERTopic (52,6%) vs GPT-4o (53%)
- Miglioramento delle Performance: Miglioramento del 30% rispetto ai metodi baseline
- Affidabilità: Raggiungimento di risultati comparabili con la pipeline umana di LLooM
Feedback Positivi:
- Flusso di Lavoro Chiaro e Intuitivo: Tutti i partecipanti hanno completato il compito in tempo ragionevole
- Importanza dell'Automazione: Anche i partecipanti di livello esperto hanno ritenuto più efficiente rispetto alla codifica
- Fiducia nel Processo Generato Programmaticamente: Gli utenti si fidano più di un processo esplicito rispetto a sistemi black-box come ChatGPT
Modelli di Comportamento degli Utenti:
- Preferenza della Strategia di Ricerca: "Sfruttare prima, poi esplorare" piuttosto che una strategia equilibrata
- Allineamento vs Raccomandazione: Gli utenti considerano il valutatore LLM come una raccomandazione piuttosto che uno standard di verità
- Ruolo Comprensivo delle Unità di Analisi: Le unità di analisi esplicite aiutano a comprendere la pipeline e a eseguire il debug degli errori
- Errori di Esecuzione: Il processo di compilazione potrebbe selezionare unità di analisi errate
- Curva di Apprendimento: Richiede 30 minuti di formazione per un uso competente
- Dipendenza Tecnica: Dipendenza critica da query LLM parallele nel cloud
- Analisi Individuale: Gli LLM mostrano eccellenti prestazioni in classificazione testuale, estrazione di informazioni e altri compiti
- Pipeline End-to-End: TnT-LLM, LLooM, framework di analisi di argomenti, ecc.
- Strumenti di pulizia e trasformazione dati (Data Wrangler)
- Sistemi di esplorazione dati con visualizzazione (LightVA, InterChat)
- L'analisi testuale presenta sfide uniche rispetto all'analisi dati tradizionale
- Sfide e soluzioni di ingegneria dei prompt
- Necessità di controllo utente e valutazione nei sistemi di agenti
- Design di astrazione multi-livello e sistemi interattivi
- Verifica della Fattibilità: Il flusso di lavoro in tre fasi riduce efficacemente le barriere tecniche dell'analisi testuale
- Accettazione da Parte degli Utenti: Utenti con diversi livelli tecnici possono utilizzare con successo il sistema
- Efficacia Tecnica: La qualità delle pipeline generate è comparabile con le pipeline realizzate da esperti
- Scala della Ricerca con Utenti: Solo 6 partecipanti, campione orientato verso laureandi
- Limitazioni Tecniche: Dipendenza da LLM nel cloud, mancanza di meccanismi di autocorrezione
- Limitazioni Funzionali: Non supporta analisi di serie temporali, analisi di reti o basi di conoscenza esterne
- Agenti Conversazionali: Integrazione della conversione di comandi in linguaggio naturale
- Cicli di Feedback: Retroazione dei risultati di esecuzione e valutazione alla fase di decomposizione
- Estensione dei Metodi di Valutazione: Supporto per la valutazione di analisi di clustering e altri compiti non testuali
- Integrazione dell'Ecosistema Open Source: Integrazione con strumenti come LangSmith
- Innovazione Sistematica: Prima proposta di un flusso di lavoro completo di collaborazione uomo-macchina per l'analisi testuale
- Profondità Tecnica: Miglioramenti dell'algoritmo MCTS, framework di unità di analisi e altri contributi teorici
- Valore Pratico: Riduce effettivamente le barriere tecniche dell'analisi testuale
- Valutazione Completa: Combinazione di esperimenti quantitativi e ricerca qualitativa con utenti
- Scalabilità: Dipendenza critica da API nel cloud, problemi di costo e latenza
- Gestione degli Errori: Mancanza di meccanismi robusti di rilevamento e recupero degli errori
- Ambito di Applicabilità: Principalmente adatto a compiti standard di analisi testuale, supporto limitato per domini specializzati
- Contributo Accademico: Fornisce un nuovo paradigma per la collaborazione uomo-macchina e il design di sistemi di agenti
- Valore Pratico: Promette di promuovere la democratizzazione dell'analisi testuale
- Riproducibilità: Basato su framework open source, facilita la riproduzione e l'estensione
- Utenti Target: Analisti di dati di livello iniziale, ricercatori di scienze sociali, giornalisti
- Campi di Applicazione: Analisi di feedback dei clienti, estrazione di letteratura accademica, analisi di social media
- Condizioni di Utilizzo: Richiede una certa base di analisi dati e 30 minuti di formazione
L'articolo cita 63 riferimenti correlati, principalmente includenti:
- Applicazioni di analisi testuale LLM (TnT-LLM, LLooM, ecc.)
- Design di interfacce di collaborazione uomo-macchina (AutoGen, LangGraph, ecc.)
- Design di sistemi di visualizzazione e interazione
- Algoritmi di ricerca dell'albero di Monte Carlo
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della ricerca sui sistemi, che fornisce importanti contributi all'analisi testuale collaborativa uomo-macchina. L'innovazione tecnica è solida, la valutazione sperimentale è completa e ha un significato importante nel promuovere la diffusione di strumenti di analisi testuale. Sebbene esistano alcune limitazioni tecniche, fornisce direzioni chiare per la ricerca futura.