2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.

Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.

academic

VIDEE: Visuelle und interaktive Dekomposition, Ausführung und Bewertung von Textanalytik mit intelligenten Agenten

Grundinformationen

Paper-ID: 2506.21582
Titel: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
Autoren: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
Klassifizierung: cs.CL cs.AI cs.HC
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v4)
Paper-Link: https://arxiv.org/abs/2506.21582

Zusammenfassung

Die Textanalyse erfordert traditionell Fachkenntnisse in Verarbeitung natürlicher Sprache (NLP) oder Textanalytik, was für anfängliche Analysten eine technische Hürde darstellt. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die NLP-Landschaft durch die Unterstützung von zugänglicherer und automatisierter Textanalyse (wie Themenerkennung, Zusammenfassung, Informationsextraktion usw.) verändert. Dieser Artikel stellt das VIDEE-System vor, das anfängliche Datenanalysten bei der Zusammenarbeit mit intelligenten Agenten für fortgeschrittene Textanalysen unterstützt. VIDEE realisiert einen dreistufigen Mensch-Maschine-Kollaborationsworkflow: (1) Dekompositionsphase, die Monte-Carlo-Baumsuche mit Mensch-in-der-Schleife-Algorithmen kombiniert und generatives Schlussfolgern mit menschlichem Feedback unterstützt; (2) Ausführungsphase, die ausführbare Textanalytik-Pipelines generiert; (3) Bewertungsphase, die LLM-basierte Bewertung und Visualisierung integriert, um Benutzer bei der Validierung von Ausführungsergebnissen zu unterstützen.

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle Textanalyse steht vor vier Hauptherausforderungen:

Problem des großen Dekompositionsraums: Die Flexibilität von Prompts ermöglicht mehrere Dekompositionsweisen zur Erreichung von Zielen durch unterschiedliche Subtask-Kombinationen. Analysten müssen zwischen Subtask-Schwierigkeit und Gesamtrobustheit der Pipeline abwägen.
Technische Wissenslücke: Analysten verfügen über unterschiedliche Niveaus technischen Wissens, besonders bezüglich LLMs. Das LLM-Forschungsfeld entwickelt sich schnell, und Analysten können möglicherweise nicht mit den neuesten Technologien Schritt halten.
Implementierungs- und Experimentierungsschwierigkeiten: Der Aufbau und die Implementierung von Textanalytik-Pipelines erfordern erhebliche technische Anstrengungen, einschließlich der Handhabung von Ein-/Ausgabeformaten, Zwischendatentransformationen und Analyseparametern.
Bewertungsherausforderungen: Die Bewertung von LLM-basierten Textanalytik-Pipelines erfordert einzigartige Bewertungsmethoden, die noch nicht weit verbreitet sind.

Forschungsmotivation

Diese Herausforderungen motivieren die Notwendigkeit eines Agentensystems zur Unterstützung von Textanalysten. Angesichts eines Benutzerziels und eines Datensatzes kann ein Agent mit ausreichendem technischem Wissen das Ziel automatisch dekomponieren, den großen Dekompositionsraum durchsuchen und einen Textanalytik-Plan generieren, dann die Pipeline implementieren und ausführen sowie schließlich die Ergebnisse bewerten.

Kernbeiträge

Vorschlag eines dreistufigen Mensch-Maschine-Kollaborationsworkflows: Entwurf eines vollständigen Workflows aus Dekomposition, Ausführung und Bewertung zur Realisierung komplexer Textanalytik-Ziele.
Entwicklung des VIDEE-Systems: Implementierung eines Agentensystems mit visueller Benutzeroberfläche, das Datenanalysten die Durchführung von Textanalysen in einer codefreien Umgebung ermöglicht.
Technische Innovationen:
- Mensch-in-der-Schleife-Dekompositionsalgorithmus basierend auf Monte-Carlo-Baumsuche (MCTS)
- Konzeptionelles Framework basierend auf Analyseeinheiten zur Handhabung von Datenstrukturänderungen
- Bewertungsmechanismus mit Integration von LLM-Bewertern und Visualisierung
Empirische Forschungsergebnisse: Durch systematische Evaluierung und Benutzerstudien werden neue Erkenntnisse über Agentensysteme und Mensch-Maschine-Kollaboration bereitgestellt.

Methodische Details

Aufgabendefinition

Eingabe: Benutzerziel (natürlichsprachige Beschreibung) und Textdatensatz Ausgabe: Vollständige Textanalytik-Pipeline und ihre Ausführungsergebnisse Einschränkungen: Unterstützung codefreier Umgebungen, Anpassung an Benutzer unterschiedlicher technischer Niveaus

Dreistufige Workflow-Architektur

1. Dekompositionsphase

Ziel: Dekomposition des Benutzerziels in eine Sequenz semantischer Aufgaben
Kernalgorithmus: Verbesserte Monte-Carlo-Baumsuche (MCTS)
Mensch-Maschine-Kollaboration: Menschen überwachen den Suchprozess, Agenten erkunden mögliche Pipeline-Optionen

MCTS-Algorithmusverbesserungen:

Verwendung von LLM-Bewertern als Belohnungsfunktion
Definition von drei Bewertungskriterien: Komplexität, Kohärenz, Bedeutsamkeit
Unterstützung menschlichen Feedbacks zur Anpassung der Suchrichtung
Ersatz zufälliger Expansion durch umfassende Belohnungsberechnung

2. Ausführungsphase

Transformationsprozess: Semantische Aufgabe → Primitive Aufgabe → Ausführbare Pipeline
Kompilierungsprozess: Generierung von Ein-/Ausgabemustern, Algorithmusauswahl, Hyperparameter
Technische Unterstützung: Aufbau von Ausführungsgraphen basierend auf LangGraph

Analyseeinheiten-Konzeptframework:

Definition von Eingabeeinheiten für jede primitive Aufgabe
Anwendung des MapReduce-Paradigmas zur Handhabung von Datenstrukturänderungen
Automatische Erstellung neuer Analyseeinheiten

3. Bewertungsphase

Bewertungsmethode: LLM-Bewerter-basierte Bewertung ohne echte Labels
Visualisierung: Balkendiagramme und erweiterte Themenradialdiagramme
Automatische Empfehlungen: System empfiehlt 3 Bewertungskriterien für jede Aufgabe

Technische Innovationspunkte

Kombination generativen Schlussfolgerns mit MCTS: Im Vergleich zur gierigen Strategie der Beam-Suche bietet die Rückwärtsausbreitung von MCTS Rückkopplungen, die besser für die Planung von Textanalytik-Pipelines geeignet sind.
Analyseeinheiten-Framework: Automatische Handhabung von Datenstrukturänderungen durch das MapReduce-Paradigma, Unterstützung vielfältiger Kombinationen primitiver Aufgaben.
Mensch-Maschine-Kollaborationsdynamik: Benutzer als Manager, LLM-Bewerter als Berater, reduzierte Notwendigkeit der LLM-Ausrichtung.

Experimentelle Einrichtung

Datensätze

Dekomposer-Evaluierung:
- LLooM-Szenario: HCI-Paper-Zusammenfassungsdatensatz
- TnT-LLM-Szenario: Microsoft Bing Copilot-Benutzerdialogs-Datensatz
Ausführungs-Evaluierung:
- Wikipedia-Datensatz (n=210) mit echten Labels als Themen
Benutzerstudie:
- HCI-Paper-Zusammenfassungsdatensatz (100 Arbeiten)
- Konzeptinduktionsaufgabe

Bewertungsmetriken

Dekomposer-Evaluierung: Arena-Methode mit o3-mini-Modell zum Vergleich generierter Pipelines mit manuellen Pipelines
Ausführungs-Evaluierung: Konzeptabdeckungsrate (concept coverage)
Benutzerstudie: Aufgabenvollendung, Benutzerverhaltensmuster, Usability-Feedback

Vergleichsmethoden

Dekomposer: Manuell erstellte Pipelines (LLooM und TnT-LLM)
Ausführer: BERTopic und GPT-4o Baseline-Methoden

Implementierungsdetails

Modelle: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
Framework: AutoGen + LangGraph
Kosten: Durchschnittlich 0,005 USD pro Expansion, vollständiger Baum etwa 7 Minuten

Experimentelle Ergebnisse

Hauptergebnisse

Dekomposer-Evaluierung

Leistung: In 10 Vergleichen wurden 6 generierte Pipelines als besser bewertet (LLooM 2 Mal, TnT-LLM 4 Mal)
Vorteile: Generierte Pipelines sind direkter und prägnanter
Mängel: Berücksichtigung von Kontextfenster-Einschränkungen bei langen Datenverarbeitungen nicht ausreichend

Ausführungs-Evaluierung

Konzeptabdeckungsrate: 83% vs. BERTopic (52,6%) vs. GPT-4o (53%)
Leistungsverbesserung: 30% Verbesserung gegenüber Baseline-Methoden
Zuverlässigkeit: Vergleichbare Ergebnisse mit manuellen LLooM-Pipelines

Benutzerstudie-Ergebnisse

Positives Feedback:

Klarer und intuitiver Workflow: Alle Teilnehmer konnten Aufgaben in angemessener Zeit abschließen
Bedeutung der Automatisierung: Auch Experten-Teilnehmer hielten das System effizienter als Programmierung
Vertrauen in programmgesteuerte Generierung: Benutzer vertrauten expliziten Prozessen mehr als Black-Box-Systemen wie ChatGPT

Benutzerverhaltensmuster:

Suchstrategievorlieben: "Erst ausnutzen, dann erkunden" statt ausgewogener Strategie
Ausrichtung vs. Empfehlungen: Benutzer betrachteten LLM-Bewerter als Empfehlungen, nicht als echte Standards
Verständnisrolle von Analyseeinheiten: Explizite Analyseeinheiten halfen beim Verständnis von Pipelines und Fehlersuche

Systemlimitierungen

Ausführungsfehler: Mögliche Auswahl falscher Analyseeinheiten während der Kompilierung
Lernkurve: 30 Minuten Training erforderlich für sichere Verwendung
Technische Abhängigkeit: Starke Abhängigkeit von parallelen Cloud-LLM-Abfragen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Machbarkeitsprüfung: Der dreistufige Workflow reduziert effektiv technische Hürden bei der Textanalyse
Benutzerakzeptanz: Benutzer unterschiedlicher technischer Niveaus können das System erfolgreich nutzen
Technische Effektivität: Qualität generierter Pipelines vergleichbar mit von Experten erstellten Pipelines

Limitierungen

Umfang der Benutzerstudie: Nur 6 Teilnehmer, Stichprobe neigt zu Doktoranden
Technische Einschränkungen: Abhängigkeit von Cloud-LLMs, fehlende Selbstkorrekturmechanismen
Funktionale Einschränkungen: Keine Unterstützung für Zeitreihenanalyse, Netzwerkanalyse oder externe Wissensdatenbanken

Zukünftige Richtungen

Konversationelle Agenten: Integration natürlichsprachlicher Befehlskonvertierung
Rückkopplungsschleifen: Rückkopplung von Ausführungs- und Bewertungsergebnissen zur Dekompositionsphase
Erweiterung der Bewertungsmethoden: Unterstützung der Bewertung für Nicht-Text-Aufgaben wie Clusteranalyse
Integration von Open-Source-Ökosystemen: Integration mit Tools wie LangSmith

Tiefgreifende Bewertung

Stärken

Systemische Innovation: Erstmals vollständiger Mensch-Maschine-Kollaborations-Textanalytik-Workflow
Technische Tiefe: MCTS-Algorithmusverbesserungen, Analyseeinheiten-Framework und andere theoretische Beiträge
Praktischer Wert: Echte Reduzierung technischer Hürden bei der Textanalyse
Umfassende Evaluierung: Kombination quantitativer Experimente und qualitativer Benutzerstudien

Mängel

Skalierbarkeit: Starke Abhängigkeit von Cloud-APIs, Kosten- und Latenzprobleme
Fehlerbehandlung: Fehlende robuste Fehlererkennung und Wiederherstellungsmechanismen
Anwendungsbereich: Hauptsächlich für standardisierte Textanalytik-Aufgaben geeignet, begrenzte Unterstützung für spezialisierte Domänen

Auswirkungen

Akademischer Beitrag: Neues Paradigma für Mensch-Maschine-Kollaboration und Agentensystemgestaltung
Praktischer Wert: Wahrscheinlich zur Demokratisierung der Textanalyse beitragend
Reproduzierbarkeit: Basierend auf Open-Source-Frameworks, leicht zu reproduzieren und zu erweitern

Anwendungsszenarien

Zielbenutzer: Anfängliche Datenanalysten, Sozialwissenschaftler, Journalisten
Anwendungsfelder: Kundenfeedback-Analyse, akademische Literaturmining, Social-Media-Analyse
Nutzungsbedingungen: Grundlegende Datenanalysekenntnisse erforderlich, 30 Minuten Trainingszeit

Literaturverzeichnis

Dieses Papier zitiert 63 relevante Arbeiten, hauptsächlich:

LLM-Textanalytik-Anwendungen (TnT-LLM, LLooM usw.)
Mensch-Maschine-Kollaborations-Schnittstellengestaltung (AutoGen, LangGraph usw.)
Visualisierungs- und interaktive Systemgestaltung
Monte-Carlo-Baumsuche-Algorithmen

Gesamtbewertung: Dies ist ein hochqualitatives Systempapier mit wichtigen Beiträgen im Bereich der Mensch-Maschine-Kollaborations-Textanalyse. Die technischen Innovationen sind solide, die experimentelle Evaluierung umfassend, und es hat wichtige Bedeutung für die Popularisierung von Textanalytik-Werkzeugen. Trotz einiger technischer Limitierungen bietet es klare Richtungen für zukünftige Forschung.