2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.
Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
academic

VIDEE: Visuelle und interaktive Dekomposition, Ausführung und Bewertung von Textanalytik mit intelligenten Agenten

Grundinformationen

  • Paper-ID: 2506.21582
  • Titel: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
  • Autoren: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
  • Klassifizierung: cs.CL cs.AI cs.HC
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v4)
  • Paper-Link: https://arxiv.org/abs/2506.21582

Zusammenfassung

Die Textanalyse erfordert traditionell Fachkenntnisse in Verarbeitung natürlicher Sprache (NLP) oder Textanalytik, was für anfängliche Analysten eine technische Hürde darstellt. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die NLP-Landschaft durch die Unterstützung von zugänglicherer und automatisierter Textanalyse (wie Themenerkennung, Zusammenfassung, Informationsextraktion usw.) verändert. Dieser Artikel stellt das VIDEE-System vor, das anfängliche Datenanalysten bei der Zusammenarbeit mit intelligenten Agenten für fortgeschrittene Textanalysen unterstützt. VIDEE realisiert einen dreistufigen Mensch-Maschine-Kollaborationsworkflow: (1) Dekompositionsphase, die Monte-Carlo-Baumsuche mit Mensch-in-der-Schleife-Algorithmen kombiniert und generatives Schlussfolgern mit menschlichem Feedback unterstützt; (2) Ausführungsphase, die ausführbare Textanalytik-Pipelines generiert; (3) Bewertungsphase, die LLM-basierte Bewertung und Visualisierung integriert, um Benutzer bei der Validierung von Ausführungsergebnissen zu unterstützen.

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle Textanalyse steht vor vier Hauptherausforderungen:

  1. Problem des großen Dekompositionsraums: Die Flexibilität von Prompts ermöglicht mehrere Dekompositionsweisen zur Erreichung von Zielen durch unterschiedliche Subtask-Kombinationen. Analysten müssen zwischen Subtask-Schwierigkeit und Gesamtrobustheit der Pipeline abwägen.
  2. Technische Wissenslücke: Analysten verfügen über unterschiedliche Niveaus technischen Wissens, besonders bezüglich LLMs. Das LLM-Forschungsfeld entwickelt sich schnell, und Analysten können möglicherweise nicht mit den neuesten Technologien Schritt halten.
  3. Implementierungs- und Experimentierungsschwierigkeiten: Der Aufbau und die Implementierung von Textanalytik-Pipelines erfordern erhebliche technische Anstrengungen, einschließlich der Handhabung von Ein-/Ausgabeformaten, Zwischendatentransformationen und Analyseparametern.
  4. Bewertungsherausforderungen: Die Bewertung von LLM-basierten Textanalytik-Pipelines erfordert einzigartige Bewertungsmethoden, die noch nicht weit verbreitet sind.

Forschungsmotivation

Diese Herausforderungen motivieren die Notwendigkeit eines Agentensystems zur Unterstützung von Textanalysten. Angesichts eines Benutzerziels und eines Datensatzes kann ein Agent mit ausreichendem technischem Wissen das Ziel automatisch dekomponieren, den großen Dekompositionsraum durchsuchen und einen Textanalytik-Plan generieren, dann die Pipeline implementieren und ausführen sowie schließlich die Ergebnisse bewerten.

Kernbeiträge

  1. Vorschlag eines dreistufigen Mensch-Maschine-Kollaborationsworkflows: Entwurf eines vollständigen Workflows aus Dekomposition, Ausführung und Bewertung zur Realisierung komplexer Textanalytik-Ziele.
  2. Entwicklung des VIDEE-Systems: Implementierung eines Agentensystems mit visueller Benutzeroberfläche, das Datenanalysten die Durchführung von Textanalysen in einer codefreien Umgebung ermöglicht.
  3. Technische Innovationen:
    • Mensch-in-der-Schleife-Dekompositionsalgorithmus basierend auf Monte-Carlo-Baumsuche (MCTS)
    • Konzeptionelles Framework basierend auf Analyseeinheiten zur Handhabung von Datenstrukturänderungen
    • Bewertungsmechanismus mit Integration von LLM-Bewertern und Visualisierung
  4. Empirische Forschungsergebnisse: Durch systematische Evaluierung und Benutzerstudien werden neue Erkenntnisse über Agentensysteme und Mensch-Maschine-Kollaboration bereitgestellt.

Methodische Details

Aufgabendefinition

Eingabe: Benutzerziel (natürlichsprachige Beschreibung) und Textdatensatz Ausgabe: Vollständige Textanalytik-Pipeline und ihre Ausführungsergebnisse Einschränkungen: Unterstützung codefreier Umgebungen, Anpassung an Benutzer unterschiedlicher technischer Niveaus

Dreistufige Workflow-Architektur

1. Dekompositionsphase

  • Ziel: Dekomposition des Benutzerziels in eine Sequenz semantischer Aufgaben
  • Kernalgorithmus: Verbesserte Monte-Carlo-Baumsuche (MCTS)
  • Mensch-Maschine-Kollaboration: Menschen überwachen den Suchprozess, Agenten erkunden mögliche Pipeline-Optionen

MCTS-Algorithmusverbesserungen:

  • Verwendung von LLM-Bewertern als Belohnungsfunktion
  • Definition von drei Bewertungskriterien: Komplexität, Kohärenz, Bedeutsamkeit
  • Unterstützung menschlichen Feedbacks zur Anpassung der Suchrichtung
  • Ersatz zufälliger Expansion durch umfassende Belohnungsberechnung

2. Ausführungsphase

  • Transformationsprozess: Semantische Aufgabe → Primitive Aufgabe → Ausführbare Pipeline
  • Kompilierungsprozess: Generierung von Ein-/Ausgabemustern, Algorithmusauswahl, Hyperparameter
  • Technische Unterstützung: Aufbau von Ausführungsgraphen basierend auf LangGraph

Analyseeinheiten-Konzeptframework:

  • Definition von Eingabeeinheiten für jede primitive Aufgabe
  • Anwendung des MapReduce-Paradigmas zur Handhabung von Datenstrukturänderungen
  • Automatische Erstellung neuer Analyseeinheiten

3. Bewertungsphase

  • Bewertungsmethode: LLM-Bewerter-basierte Bewertung ohne echte Labels
  • Visualisierung: Balkendiagramme und erweiterte Themenradialdiagramme
  • Automatische Empfehlungen: System empfiehlt 3 Bewertungskriterien für jede Aufgabe

Technische Innovationspunkte

  1. Kombination generativen Schlussfolgerns mit MCTS: Im Vergleich zur gierigen Strategie der Beam-Suche bietet die Rückwärtsausbreitung von MCTS Rückkopplungen, die besser für die Planung von Textanalytik-Pipelines geeignet sind.
  2. Analyseeinheiten-Framework: Automatische Handhabung von Datenstrukturänderungen durch das MapReduce-Paradigma, Unterstützung vielfältiger Kombinationen primitiver Aufgaben.
  3. Mensch-Maschine-Kollaborationsdynamik: Benutzer als Manager, LLM-Bewerter als Berater, reduzierte Notwendigkeit der LLM-Ausrichtung.

Experimentelle Einrichtung

Datensätze

  1. Dekomposer-Evaluierung:
    • LLooM-Szenario: HCI-Paper-Zusammenfassungsdatensatz
    • TnT-LLM-Szenario: Microsoft Bing Copilot-Benutzerdialogs-Datensatz
  2. Ausführungs-Evaluierung:
    • Wikipedia-Datensatz (n=210) mit echten Labels als Themen
  3. Benutzerstudie:
    • HCI-Paper-Zusammenfassungsdatensatz (100 Arbeiten)
    • Konzeptinduktionsaufgabe

Bewertungsmetriken

  1. Dekomposer-Evaluierung: Arena-Methode mit o3-mini-Modell zum Vergleich generierter Pipelines mit manuellen Pipelines
  2. Ausführungs-Evaluierung: Konzeptabdeckungsrate (concept coverage)
  3. Benutzerstudie: Aufgabenvollendung, Benutzerverhaltensmuster, Usability-Feedback

Vergleichsmethoden

  1. Dekomposer: Manuell erstellte Pipelines (LLooM und TnT-LLM)
  2. Ausführer: BERTopic und GPT-4o Baseline-Methoden

Implementierungsdetails

  • Modelle: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
  • Framework: AutoGen + LangGraph
  • Kosten: Durchschnittlich 0,005 USD pro Expansion, vollständiger Baum etwa 7 Minuten

Experimentelle Ergebnisse

Hauptergebnisse

Dekomposer-Evaluierung

  • Leistung: In 10 Vergleichen wurden 6 generierte Pipelines als besser bewertet (LLooM 2 Mal, TnT-LLM 4 Mal)
  • Vorteile: Generierte Pipelines sind direkter und prägnanter
  • Mängel: Berücksichtigung von Kontextfenster-Einschränkungen bei langen Datenverarbeitungen nicht ausreichend

Ausführungs-Evaluierung

  • Konzeptabdeckungsrate: 83% vs. BERTopic (52,6%) vs. GPT-4o (53%)
  • Leistungsverbesserung: 30% Verbesserung gegenüber Baseline-Methoden
  • Zuverlässigkeit: Vergleichbare Ergebnisse mit manuellen LLooM-Pipelines

Benutzerstudie-Ergebnisse

Positives Feedback:

  1. Klarer und intuitiver Workflow: Alle Teilnehmer konnten Aufgaben in angemessener Zeit abschließen
  2. Bedeutung der Automatisierung: Auch Experten-Teilnehmer hielten das System effizienter als Programmierung
  3. Vertrauen in programmgesteuerte Generierung: Benutzer vertrauten expliziten Prozessen mehr als Black-Box-Systemen wie ChatGPT

Benutzerverhaltensmuster:

  1. Suchstrategievorlieben: "Erst ausnutzen, dann erkunden" statt ausgewogener Strategie
  2. Ausrichtung vs. Empfehlungen: Benutzer betrachteten LLM-Bewerter als Empfehlungen, nicht als echte Standards
  3. Verständnisrolle von Analyseeinheiten: Explizite Analyseeinheiten halfen beim Verständnis von Pipelines und Fehlersuche

Systemlimitierungen

  1. Ausführungsfehler: Mögliche Auswahl falscher Analyseeinheiten während der Kompilierung
  2. Lernkurve: 30 Minuten Training erforderlich für sichere Verwendung
  3. Technische Abhängigkeit: Starke Abhängigkeit von parallelen Cloud-LLM-Abfragen

Verwandte Arbeiten

LLM-basierte Textanalyse

  • Einzelaufgaben-Analyse: LLMs zeigen Exzellenz bei Textklassifizierung, Informationsextraktion und anderen Aufgaben
  • End-to-End-Pipelines: TnT-LLM, LLooM, Themenanalytik-Frameworks usw.

LLM-gestützte Datenanalyse

  • Datenbereinigung und Transformationswerkzeuge (Data Wrangler)
  • Visualisierungs-Datenerkennungssysteme (LightVA, InterChat)
  • Textanalyse hat im Vergleich zur traditionellen Datenanalyse einzigartige Herausforderungen

Designforschung zur Mensch-Maschine-Kollaboration

  • Prompt-Engineering-Herausforderungen und Lösungen
  • Benutzersteuerung und Bewertungsanforderungen in Agentensystemen
  • Multi-Level-Abstraktion und interaktive Systemgestaltung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Machbarkeitsprüfung: Der dreistufige Workflow reduziert effektiv technische Hürden bei der Textanalyse
  2. Benutzerakzeptanz: Benutzer unterschiedlicher technischer Niveaus können das System erfolgreich nutzen
  3. Technische Effektivität: Qualität generierter Pipelines vergleichbar mit von Experten erstellten Pipelines

Limitierungen

  1. Umfang der Benutzerstudie: Nur 6 Teilnehmer, Stichprobe neigt zu Doktoranden
  2. Technische Einschränkungen: Abhängigkeit von Cloud-LLMs, fehlende Selbstkorrekturmechanismen
  3. Funktionale Einschränkungen: Keine Unterstützung für Zeitreihenanalyse, Netzwerkanalyse oder externe Wissensdatenbanken

Zukünftige Richtungen

  1. Konversationelle Agenten: Integration natürlichsprachlicher Befehlskonvertierung
  2. Rückkopplungsschleifen: Rückkopplung von Ausführungs- und Bewertungsergebnissen zur Dekompositionsphase
  3. Erweiterung der Bewertungsmethoden: Unterstützung der Bewertung für Nicht-Text-Aufgaben wie Clusteranalyse
  4. Integration von Open-Source-Ökosystemen: Integration mit Tools wie LangSmith

Tiefgreifende Bewertung

Stärken

  1. Systemische Innovation: Erstmals vollständiger Mensch-Maschine-Kollaborations-Textanalytik-Workflow
  2. Technische Tiefe: MCTS-Algorithmusverbesserungen, Analyseeinheiten-Framework und andere theoretische Beiträge
  3. Praktischer Wert: Echte Reduzierung technischer Hürden bei der Textanalyse
  4. Umfassende Evaluierung: Kombination quantitativer Experimente und qualitativer Benutzerstudien

Mängel

  1. Skalierbarkeit: Starke Abhängigkeit von Cloud-APIs, Kosten- und Latenzprobleme
  2. Fehlerbehandlung: Fehlende robuste Fehlererkennung und Wiederherstellungsmechanismen
  3. Anwendungsbereich: Hauptsächlich für standardisierte Textanalytik-Aufgaben geeignet, begrenzte Unterstützung für spezialisierte Domänen

Auswirkungen

  1. Akademischer Beitrag: Neues Paradigma für Mensch-Maschine-Kollaboration und Agentensystemgestaltung
  2. Praktischer Wert: Wahrscheinlich zur Demokratisierung der Textanalyse beitragend
  3. Reproduzierbarkeit: Basierend auf Open-Source-Frameworks, leicht zu reproduzieren und zu erweitern

Anwendungsszenarien

  1. Zielbenutzer: Anfängliche Datenanalysten, Sozialwissenschaftler, Journalisten
  2. Anwendungsfelder: Kundenfeedback-Analyse, akademische Literaturmining, Social-Media-Analyse
  3. Nutzungsbedingungen: Grundlegende Datenanalysekenntnisse erforderlich, 30 Minuten Trainingszeit

Literaturverzeichnis

Dieses Papier zitiert 63 relevante Arbeiten, hauptsächlich:

  • LLM-Textanalytik-Anwendungen (TnT-LLM, LLooM usw.)
  • Mensch-Maschine-Kollaborations-Schnittstellengestaltung (AutoGen, LangGraph usw.)
  • Visualisierungs- und interaktive Systemgestaltung
  • Monte-Carlo-Baumsuche-Algorithmen

Gesamtbewertung: Dies ist ein hochqualitatives Systempapier mit wichtigen Beiträgen im Bereich der Mensch-Maschine-Kollaborations-Textanalyse. Die technischen Innovationen sind solide, die experimentelle Evaluierung umfassend, und es hat wichtige Bedeutung für die Popularisierung von Textanalytik-Werkzeugen. Trotz einiger technischer Limitierungen bietet es klare Richtungen für zukünftige Forschung.