2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.

Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.

academic

VIDEE: Decomposizione Visiva e Interattiva, Esecuzione e Valutazione dell'Analisi Testuale con Agenti Intelligenti

Informazioni Fondamentali

ID Articolo: 2506.21582
Titolo: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
Autori: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
Classificazione: cs.CL cs.AI cs.HC
Data di Pubblicazione: 13 ottobre 2025 (arXiv v4)
Link Articolo: https://arxiv.org/abs/2506.21582

Riassunto

L'analisi testuale tradizionalmente richiede competenze specializzate in elaborazione del linguaggio naturale (NLP) o analisi testuale, rappresentando una barriera tecnica per gli analisti di livello iniziale. I recenti progressi nei modelli di linguaggio di grandi dimensioni (LLM) hanno trasformato il panorama dell'NLP supportando un'analisi testuale più accessibile e automatizzata (come rilevamento di argomenti, sintesi, estrazione di informazioni, ecc.). Questo articolo presenta il sistema VIDEE, che supporta la collaborazione tra analisti di dati di livello iniziale e agenti intelligenti per l'analisi testuale avanzata. VIDEE istanzia un flusso di lavoro di collaborazione uomo-macchina in tre fasi: (1) fase di decomposizione, che combina l'algoritmo di ricerca dell'albero di Monte Carlo con feedback umano nel ciclo, supportando il ragionamento generativo con retroazione umana; (2) fase di esecuzione, che genera pipeline di analisi testuale eseguibili; (3) fase di valutazione, che integra la valutazione basata su LLM e la visualizzazione, supportando la verifica dei risultati di esecuzione da parte dell'utente.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'analisi testuale tradizionale affronta quattro sfide principali:

Problema dello Spazio di Decomposizione Ampio: La flessibilità dei prompt consente molteplici modi di decomporre l'obiettivo attraverso diverse combinazioni di sottoattività, richiedendo agli analisti di bilanciare la difficoltà dei sottocompiti con la robustezza complessiva della pipeline.
Barriera della Conoscenza Tecnica: Gli analisti possiedono diversi livelli di conoscenza tecnica, in particolare riguardante gli LLM. Il campo relativo agli LLM si sta sviluppando rapidamente e gli analisti potrebbero non riuscire a stare al passo con le tecnologie più recenti.
Difficoltà di Implementazione e Sperimentazione: La costruzione e l'implementazione di pipeline di analisi testuale richiedono notevoli sforzi ingegneristici, inclusa la gestione dei formati di input/output, le trasformazioni di dati intermedi e i parametri di analisi.
Sfide di Valutazione: La valutazione delle pipeline di analisi testuale basate su LLM richiede metodologie di valutazione uniche che non sono ancora ampiamente diffuse.

Motivazione della Ricerca

Queste sfide motivano la necessità di un sistema di agenti che supporti gli analisti di testi. Dato un obiettivo dell'utente e un dataset, un agente con conoscenze tecniche adeguate potrebbe decomporre automaticamente l'obiettivo, cercare nello spazio di decomposizione ampio e generare un piano di analisi testuale, quindi implementare ed eseguire la pipeline e infine valutare i risultati.

Contributi Principali

Proposta di Flusso di Lavoro di Collaborazione Uomo-Macchina in Tre Fasi: Progettazione di un flusso di lavoro completo di decomposizione (Decomposition), esecuzione (Execution) e valutazione (Evaluation) per realizzare obiettivi complessi di analisi testuale.
Sviluppo del Sistema VIDEE: Implementazione di un sistema di agenti con interfaccia visiva che supporta gli analisti di dati nell'esecuzione di analisi testuale in un ambiente senza codice.
Innovazioni Tecniche:
- Algoritmo di decomposizione con feedback umano nel ciclo basato su ricerca dell'albero di Monte Carlo (MCTS)
- Framework concettuale basato su unità di analisi per gestire le variazioni di struttura dati
- Meccanismo di valutazione che integra valutatori LLM e visualizzazione
Risultati di Ricerca Empirica: Attraverso valutazione sistematica e ricerca con utenti, fornisce nuove intuizioni sulla collaborazione tra sistemi di agenti e uomo-macchina.

Dettagli del Metodo

Definizione del Compito

Input: Obiettivo dell'utente (descrizione in linguaggio naturale) e dataset testuale Output: Pipeline completa di analisi testuale e risultati di esecuzione Vincoli: Supporto per ambiente senza codice, adattamento a utenti con diversi livelli tecnici

Architettura del Flusso di Lavoro in Tre Fasi

1. Fase di Decomposizione (Decomposition)

Obiettivo: Decomporre l'obiettivo dell'utente in una sequenza di compiti semantici
Algoritmo Principale: Ricerca dell'albero di Monte Carlo (MCTS) migliorata
Collaborazione Uomo-Macchina: Gli umani monitorano il processo di ricerca, l'agente esplora possibili opzioni di pipeline

Miglioramenti dell'Algoritmo MCTS:

Utilizzo di valutatori LLM come funzione di ricompensa
Definizione di tre criteri di valutazione: complessità, coerenza, importanza
Supporto per feedback umano per regolare la direzione di ricerca
Sostituzione dell'espansione casuale con calcolo completo della ricompensa

2. Fase di Esecuzione (Execution)

Processo di Trasformazione: Compiti semantici → Compiti primitivi → Pipeline eseguibile
Processo di Compilazione: Generazione di schemi di input/output, selezione di algoritmi, iperparametri
Supporto Tecnico: Costruzione di grafici di esecuzione basati su LangGraph

Framework Concettuale di Unità di Analisi:

Definizione di unità di input per ogni compito primitivo
Adozione del paradigma MapReduce per gestire le variazioni di struttura dati
Creazione automatica di nuove unità di analisi

3. Fase di Valutazione (Evaluation)

Metodo di Valutazione: Valutazione basata su valutatori LLM senza etichette di verità
Visualizzazione: Grafici a barre e grafici radiali estesi per argomenti
Raccomandazione Automatica: Il sistema raccomanda 3 criteri di valutazione per ogni compito

Punti di Innovazione Tecnica

Combinazione di Ragionamento Generativo e MCTS: Rispetto alla strategia golosa della ricerca beam, la retropropagazione di MCTS fornisce feedback all'indietro, più adatta alla pianificazione di pipeline di analisi testuale.
Framework di Unità di Analisi: Gestione automatica delle variazioni di struttura dati attraverso il paradigma MapReduce, supportando diverse combinazioni di compiti primitivi.
Dinamiche di Collaborazione Uomo-Macchina: L'utente agisce come gestore, il valutatore LLM come consulente, riducendo la necessità di allineamento LLM.

Configurazione Sperimentale

Dataset

Valutazione del Decompostore:
- Scenario LLooM: Dataset di riassunti di articoli HCI
- Scenario TnT-LLM: Dataset di conversazioni utente di Microsoft Bing Copilot
Valutazione dell'Esecutore:
- Dataset Wikipedia (n=210), contenente etichette reali come argomenti
Ricerca con Utenti:
- Dataset di riassunti di articoli HCI (100 articoli)
- Compito di induzione concettuale

Metriche di Valutazione

Valutazione del Decompostore: Metodo Arena, utilizzo del modello o3-mini per confrontare pipeline generate con pipeline umane
Valutazione dell'Esecutore: Copertura concettuale (concept coverage)
Ricerca con Utenti: Completamento del compito, modelli di comportamento degli utenti, feedback di usabilità

Metodi di Confronto

Decompostore: Pipeline realizzate manualmente (LLooM e TnT-LLM)
Esecutore: Metodi baseline BERTopic e GPT-4o

Dettagli di Implementazione

Modelli: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
Framework: AutoGen + LangGraph
Costo: Media di 0,005 dollari per espansione, albero completo circa 7 minuti

Risultati Sperimentali

Risultati Principali

Valutazione del Decompostore

Performance: In 10 confronti, 6 pipeline generate sono state valutate come migliori (2 per LLooM, 4 per TnT-LLM)
Vantaggi: Le pipeline generate sono più dirette e concise
Limitazioni: Non considerano i vincoli della finestra di contesto per l'elaborazione di dati lunghi

Valutazione dell'Esecutore

Copertura Concettuale: 83% vs BERTopic (52,6%) vs GPT-4o (53%)
Miglioramento delle Performance: Miglioramento del 30% rispetto ai metodi baseline
Affidabilità: Raggiungimento di risultati comparabili con la pipeline umana di LLooM

Risultati della Ricerca con Utenti

Feedback Positivi:

Flusso di Lavoro Chiaro e Intuitivo: Tutti i partecipanti hanno completato il compito in tempo ragionevole
Importanza dell'Automazione: Anche i partecipanti di livello esperto hanno ritenuto più efficiente rispetto alla codifica
Fiducia nel Processo Generato Programmaticamente: Gli utenti si fidano più di un processo esplicito rispetto a sistemi black-box come ChatGPT

Modelli di Comportamento degli Utenti:

Preferenza della Strategia di Ricerca: "Sfruttare prima, poi esplorare" piuttosto che una strategia equilibrata
Allineamento vs Raccomandazione: Gli utenti considerano il valutatore LLM come una raccomandazione piuttosto che uno standard di verità
Ruolo Comprensivo delle Unità di Analisi: Le unità di analisi esplicite aiutano a comprendere la pipeline e a eseguire il debug degli errori

Limitazioni del Sistema

Errori di Esecuzione: Il processo di compilazione potrebbe selezionare unità di analisi errate
Curva di Apprendimento: Richiede 30 minuti di formazione per un uso competente
Dipendenza Tecnica: Dipendenza critica da query LLM parallele nel cloud

Lavori Correlati

Analisi Testuale Basata su LLM

Analisi Individuale: Gli LLM mostrano eccellenti prestazioni in classificazione testuale, estrazione di informazioni e altri compiti
Pipeline End-to-End: TnT-LLM, LLooM, framework di analisi di argomenti, ecc.

Analisi Dati Assistita da LLM

Strumenti di pulizia e trasformazione dati (Data Wrangler)
Sistemi di esplorazione dati con visualizzazione (LightVA, InterChat)
L'analisi testuale presenta sfide uniche rispetto all'analisi dati tradizionale

Ricerca di Design sulla Collaborazione Uomo-Macchina

Sfide e soluzioni di ingegneria dei prompt
Necessità di controllo utente e valutazione nei sistemi di agenti
Design di astrazione multi-livello e sistemi interattivi

Conclusioni e Discussione

Conclusioni Principali

Verifica della Fattibilità: Il flusso di lavoro in tre fasi riduce efficacemente le barriere tecniche dell'analisi testuale
Accettazione da Parte degli Utenti: Utenti con diversi livelli tecnici possono utilizzare con successo il sistema
Efficacia Tecnica: La qualità delle pipeline generate è comparabile con le pipeline realizzate da esperti

Limitazioni

Scala della Ricerca con Utenti: Solo 6 partecipanti, campione orientato verso laureandi
Limitazioni Tecniche: Dipendenza da LLM nel cloud, mancanza di meccanismi di autocorrezione
Limitazioni Funzionali: Non supporta analisi di serie temporali, analisi di reti o basi di conoscenza esterne

Direzioni Future

Agenti Conversazionali: Integrazione della conversione di comandi in linguaggio naturale
Cicli di Feedback: Retroazione dei risultati di esecuzione e valutazione alla fase di decomposizione
Estensione dei Metodi di Valutazione: Supporto per la valutazione di analisi di clustering e altri compiti non testuali
Integrazione dell'Ecosistema Open Source: Integrazione con strumenti come LangSmith

Valutazione Approfondita

Punti di Forza

Innovazione Sistematica: Prima proposta di un flusso di lavoro completo di collaborazione uomo-macchina per l'analisi testuale
Profondità Tecnica: Miglioramenti dell'algoritmo MCTS, framework di unità di analisi e altri contributi teorici
Valore Pratico: Riduce effettivamente le barriere tecniche dell'analisi testuale
Valutazione Completa: Combinazione di esperimenti quantitativi e ricerca qualitativa con utenti

Punti Deboli

Scalabilità: Dipendenza critica da API nel cloud, problemi di costo e latenza
Gestione degli Errori: Mancanza di meccanismi robusti di rilevamento e recupero degli errori
Ambito di Applicabilità: Principalmente adatto a compiti standard di analisi testuale, supporto limitato per domini specializzati

Impatto

Contributo Accademico: Fornisce un nuovo paradigma per la collaborazione uomo-macchina e il design di sistemi di agenti
Valore Pratico: Promette di promuovere la democratizzazione dell'analisi testuale
Riproducibilità: Basato su framework open source, facilita la riproduzione e l'estensione

Scenari di Applicazione

Utenti Target: Analisti di dati di livello iniziale, ricercatori di scienze sociali, giornalisti
Campi di Applicazione: Analisi di feedback dei clienti, estrazione di letteratura accademica, analisi di social media
Condizioni di Utilizzo: Richiede una certa base di analisi dati e 30 minuti di formazione

Riferimenti Bibliografici

L'articolo cita 63 riferimenti correlati, principalmente includenti:

Applicazioni di analisi testuale LLM (TnT-LLM, LLooM, ecc.)
Design di interfacce di collaborazione uomo-macchina (AutoGen, LangGraph, ecc.)
Design di sistemi di visualizzazione e interazione
Algoritmi di ricerca dell'albero di Monte Carlo

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della ricerca sui sistemi, che fornisce importanti contributi all'analisi testuale collaborativa uomo-macchina. L'innovazione tecnica è solida, la valutazione sperimentale è completa e ha un significato importante nel promuovere la diffusione di strumenti di analisi testuale. Sebbene esistano alcune limitazioni tecniche, fornisce direzioni chiare per la ricerca futura.