Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
- Paper-ID: 2506.21582
- Titel: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
- Autoren: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
- Klassifizierung: cs.CL cs.AI cs.HC
- Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v4)
- Paper-Link: https://arxiv.org/abs/2506.21582
Die Textanalyse erfordert traditionell Fachkenntnisse in Verarbeitung natürlicher Sprache (NLP) oder Textanalytik, was für anfängliche Analysten eine technische Hürde darstellt. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die NLP-Landschaft durch die Unterstützung von zugänglicherer und automatisierter Textanalyse (wie Themenerkennung, Zusammenfassung, Informationsextraktion usw.) verändert. Dieser Artikel stellt das VIDEE-System vor, das anfängliche Datenanalysten bei der Zusammenarbeit mit intelligenten Agenten für fortgeschrittene Textanalysen unterstützt. VIDEE realisiert einen dreistufigen Mensch-Maschine-Kollaborationsworkflow: (1) Dekompositionsphase, die Monte-Carlo-Baumsuche mit Mensch-in-der-Schleife-Algorithmen kombiniert und generatives Schlussfolgern mit menschlichem Feedback unterstützt; (2) Ausführungsphase, die ausführbare Textanalytik-Pipelines generiert; (3) Bewertungsphase, die LLM-basierte Bewertung und Visualisierung integriert, um Benutzer bei der Validierung von Ausführungsergebnissen zu unterstützen.
Die traditionelle Textanalyse steht vor vier Hauptherausforderungen:
- Problem des großen Dekompositionsraums: Die Flexibilität von Prompts ermöglicht mehrere Dekompositionsweisen zur Erreichung von Zielen durch unterschiedliche Subtask-Kombinationen. Analysten müssen zwischen Subtask-Schwierigkeit und Gesamtrobustheit der Pipeline abwägen.
- Technische Wissenslücke: Analysten verfügen über unterschiedliche Niveaus technischen Wissens, besonders bezüglich LLMs. Das LLM-Forschungsfeld entwickelt sich schnell, und Analysten können möglicherweise nicht mit den neuesten Technologien Schritt halten.
- Implementierungs- und Experimentierungsschwierigkeiten: Der Aufbau und die Implementierung von Textanalytik-Pipelines erfordern erhebliche technische Anstrengungen, einschließlich der Handhabung von Ein-/Ausgabeformaten, Zwischendatentransformationen und Analyseparametern.
- Bewertungsherausforderungen: Die Bewertung von LLM-basierten Textanalytik-Pipelines erfordert einzigartige Bewertungsmethoden, die noch nicht weit verbreitet sind.
Diese Herausforderungen motivieren die Notwendigkeit eines Agentensystems zur Unterstützung von Textanalysten. Angesichts eines Benutzerziels und eines Datensatzes kann ein Agent mit ausreichendem technischem Wissen das Ziel automatisch dekomponieren, den großen Dekompositionsraum durchsuchen und einen Textanalytik-Plan generieren, dann die Pipeline implementieren und ausführen sowie schließlich die Ergebnisse bewerten.
- Vorschlag eines dreistufigen Mensch-Maschine-Kollaborationsworkflows: Entwurf eines vollständigen Workflows aus Dekomposition, Ausführung und Bewertung zur Realisierung komplexer Textanalytik-Ziele.
- Entwicklung des VIDEE-Systems: Implementierung eines Agentensystems mit visueller Benutzeroberfläche, das Datenanalysten die Durchführung von Textanalysen in einer codefreien Umgebung ermöglicht.
- Technische Innovationen:
- Mensch-in-der-Schleife-Dekompositionsalgorithmus basierend auf Monte-Carlo-Baumsuche (MCTS)
- Konzeptionelles Framework basierend auf Analyseeinheiten zur Handhabung von Datenstrukturänderungen
- Bewertungsmechanismus mit Integration von LLM-Bewertern und Visualisierung
- Empirische Forschungsergebnisse: Durch systematische Evaluierung und Benutzerstudien werden neue Erkenntnisse über Agentensysteme und Mensch-Maschine-Kollaboration bereitgestellt.
Eingabe: Benutzerziel (natürlichsprachige Beschreibung) und Textdatensatz
Ausgabe: Vollständige Textanalytik-Pipeline und ihre Ausführungsergebnisse
Einschränkungen: Unterstützung codefreier Umgebungen, Anpassung an Benutzer unterschiedlicher technischer Niveaus
- Ziel: Dekomposition des Benutzerziels in eine Sequenz semantischer Aufgaben
- Kernalgorithmus: Verbesserte Monte-Carlo-Baumsuche (MCTS)
- Mensch-Maschine-Kollaboration: Menschen überwachen den Suchprozess, Agenten erkunden mögliche Pipeline-Optionen
MCTS-Algorithmusverbesserungen:
- Verwendung von LLM-Bewertern als Belohnungsfunktion
- Definition von drei Bewertungskriterien: Komplexität, Kohärenz, Bedeutsamkeit
- Unterstützung menschlichen Feedbacks zur Anpassung der Suchrichtung
- Ersatz zufälliger Expansion durch umfassende Belohnungsberechnung
- Transformationsprozess: Semantische Aufgabe → Primitive Aufgabe → Ausführbare Pipeline
- Kompilierungsprozess: Generierung von Ein-/Ausgabemustern, Algorithmusauswahl, Hyperparameter
- Technische Unterstützung: Aufbau von Ausführungsgraphen basierend auf LangGraph
Analyseeinheiten-Konzeptframework:
- Definition von Eingabeeinheiten für jede primitive Aufgabe
- Anwendung des MapReduce-Paradigmas zur Handhabung von Datenstrukturänderungen
- Automatische Erstellung neuer Analyseeinheiten
- Bewertungsmethode: LLM-Bewerter-basierte Bewertung ohne echte Labels
- Visualisierung: Balkendiagramme und erweiterte Themenradialdiagramme
- Automatische Empfehlungen: System empfiehlt 3 Bewertungskriterien für jede Aufgabe
- Kombination generativen Schlussfolgerns mit MCTS: Im Vergleich zur gierigen Strategie der Beam-Suche bietet die Rückwärtsausbreitung von MCTS Rückkopplungen, die besser für die Planung von Textanalytik-Pipelines geeignet sind.
- Analyseeinheiten-Framework: Automatische Handhabung von Datenstrukturänderungen durch das MapReduce-Paradigma, Unterstützung vielfältiger Kombinationen primitiver Aufgaben.
- Mensch-Maschine-Kollaborationsdynamik: Benutzer als Manager, LLM-Bewerter als Berater, reduzierte Notwendigkeit der LLM-Ausrichtung.
- Dekomposer-Evaluierung:
- LLooM-Szenario: HCI-Paper-Zusammenfassungsdatensatz
- TnT-LLM-Szenario: Microsoft Bing Copilot-Benutzerdialogs-Datensatz
- Ausführungs-Evaluierung:
- Wikipedia-Datensatz (n=210) mit echten Labels als Themen
- Benutzerstudie:
- HCI-Paper-Zusammenfassungsdatensatz (100 Arbeiten)
- Konzeptinduktionsaufgabe
- Dekomposer-Evaluierung: Arena-Methode mit o3-mini-Modell zum Vergleich generierter Pipelines mit manuellen Pipelines
- Ausführungs-Evaluierung: Konzeptabdeckungsrate (concept coverage)
- Benutzerstudie: Aufgabenvollendung, Benutzerverhaltensmuster, Usability-Feedback
- Dekomposer: Manuell erstellte Pipelines (LLooM und TnT-LLM)
- Ausführer: BERTopic und GPT-4o Baseline-Methoden
- Modelle: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
- Framework: AutoGen + LangGraph
- Kosten: Durchschnittlich 0,005 USD pro Expansion, vollständiger Baum etwa 7 Minuten
- Leistung: In 10 Vergleichen wurden 6 generierte Pipelines als besser bewertet (LLooM 2 Mal, TnT-LLM 4 Mal)
- Vorteile: Generierte Pipelines sind direkter und prägnanter
- Mängel: Berücksichtigung von Kontextfenster-Einschränkungen bei langen Datenverarbeitungen nicht ausreichend
- Konzeptabdeckungsrate: 83% vs. BERTopic (52,6%) vs. GPT-4o (53%)
- Leistungsverbesserung: 30% Verbesserung gegenüber Baseline-Methoden
- Zuverlässigkeit: Vergleichbare Ergebnisse mit manuellen LLooM-Pipelines
Positives Feedback:
- Klarer und intuitiver Workflow: Alle Teilnehmer konnten Aufgaben in angemessener Zeit abschließen
- Bedeutung der Automatisierung: Auch Experten-Teilnehmer hielten das System effizienter als Programmierung
- Vertrauen in programmgesteuerte Generierung: Benutzer vertrauten expliziten Prozessen mehr als Black-Box-Systemen wie ChatGPT
Benutzerverhaltensmuster:
- Suchstrategievorlieben: "Erst ausnutzen, dann erkunden" statt ausgewogener Strategie
- Ausrichtung vs. Empfehlungen: Benutzer betrachteten LLM-Bewerter als Empfehlungen, nicht als echte Standards
- Verständnisrolle von Analyseeinheiten: Explizite Analyseeinheiten halfen beim Verständnis von Pipelines und Fehlersuche
- Ausführungsfehler: Mögliche Auswahl falscher Analyseeinheiten während der Kompilierung
- Lernkurve: 30 Minuten Training erforderlich für sichere Verwendung
- Technische Abhängigkeit: Starke Abhängigkeit von parallelen Cloud-LLM-Abfragen
- Einzelaufgaben-Analyse: LLMs zeigen Exzellenz bei Textklassifizierung, Informationsextraktion und anderen Aufgaben
- End-to-End-Pipelines: TnT-LLM, LLooM, Themenanalytik-Frameworks usw.
- Datenbereinigung und Transformationswerkzeuge (Data Wrangler)
- Visualisierungs-Datenerkennungssysteme (LightVA, InterChat)
- Textanalyse hat im Vergleich zur traditionellen Datenanalyse einzigartige Herausforderungen
- Prompt-Engineering-Herausforderungen und Lösungen
- Benutzersteuerung und Bewertungsanforderungen in Agentensystemen
- Multi-Level-Abstraktion und interaktive Systemgestaltung
- Machbarkeitsprüfung: Der dreistufige Workflow reduziert effektiv technische Hürden bei der Textanalyse
- Benutzerakzeptanz: Benutzer unterschiedlicher technischer Niveaus können das System erfolgreich nutzen
- Technische Effektivität: Qualität generierter Pipelines vergleichbar mit von Experten erstellten Pipelines
- Umfang der Benutzerstudie: Nur 6 Teilnehmer, Stichprobe neigt zu Doktoranden
- Technische Einschränkungen: Abhängigkeit von Cloud-LLMs, fehlende Selbstkorrekturmechanismen
- Funktionale Einschränkungen: Keine Unterstützung für Zeitreihenanalyse, Netzwerkanalyse oder externe Wissensdatenbanken
- Konversationelle Agenten: Integration natürlichsprachlicher Befehlskonvertierung
- Rückkopplungsschleifen: Rückkopplung von Ausführungs- und Bewertungsergebnissen zur Dekompositionsphase
- Erweiterung der Bewertungsmethoden: Unterstützung der Bewertung für Nicht-Text-Aufgaben wie Clusteranalyse
- Integration von Open-Source-Ökosystemen: Integration mit Tools wie LangSmith
- Systemische Innovation: Erstmals vollständiger Mensch-Maschine-Kollaborations-Textanalytik-Workflow
- Technische Tiefe: MCTS-Algorithmusverbesserungen, Analyseeinheiten-Framework und andere theoretische Beiträge
- Praktischer Wert: Echte Reduzierung technischer Hürden bei der Textanalyse
- Umfassende Evaluierung: Kombination quantitativer Experimente und qualitativer Benutzerstudien
- Skalierbarkeit: Starke Abhängigkeit von Cloud-APIs, Kosten- und Latenzprobleme
- Fehlerbehandlung: Fehlende robuste Fehlererkennung und Wiederherstellungsmechanismen
- Anwendungsbereich: Hauptsächlich für standardisierte Textanalytik-Aufgaben geeignet, begrenzte Unterstützung für spezialisierte Domänen
- Akademischer Beitrag: Neues Paradigma für Mensch-Maschine-Kollaboration und Agentensystemgestaltung
- Praktischer Wert: Wahrscheinlich zur Demokratisierung der Textanalyse beitragend
- Reproduzierbarkeit: Basierend auf Open-Source-Frameworks, leicht zu reproduzieren und zu erweitern
- Zielbenutzer: Anfängliche Datenanalysten, Sozialwissenschaftler, Journalisten
- Anwendungsfelder: Kundenfeedback-Analyse, akademische Literaturmining, Social-Media-Analyse
- Nutzungsbedingungen: Grundlegende Datenanalysekenntnisse erforderlich, 30 Minuten Trainingszeit
Dieses Papier zitiert 63 relevante Arbeiten, hauptsächlich:
- LLM-Textanalytik-Anwendungen (TnT-LLM, LLooM usw.)
- Mensch-Maschine-Kollaborations-Schnittstellengestaltung (AutoGen, LangGraph usw.)
- Visualisierungs- und interaktive Systemgestaltung
- Monte-Carlo-Baumsuche-Algorithmen
Gesamtbewertung: Dies ist ein hochqualitatives Systempapier mit wichtigen Beiträgen im Bereich der Mensch-Maschine-Kollaborations-Textanalyse. Die technischen Innovationen sind solide, die experimentelle Evaluierung umfassend, und es hat wichtige Bedeutung für die Popularisierung von Textanalytik-Werkzeugen. Trotz einiger technischer Limitierungen bietet es klare Richtungen für zukünftige Forschung.