2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.
Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
academic

VIDEE: التحليل البصري والتفاعلي للتحليل النصي مع الوكلاء الذكيين

المعلومات الأساسية

  • معرّف الورقة: 2506.21582
  • العنوان: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
  • المؤلفون: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
  • التصنيف: cs.CL cs.AI cs.HC
  • تاريخ النشر: 13 أكتوبر 2025 (arXiv v4)
  • رابط الورقة: https://arxiv.org/abs/2506.21582

الملخص

يتطلب التحليل النصي تقليديًا معرفة متخصصة في معالجة اللغات الطبيعية (NLP) أو تحليل النصوص، مما يشكل حاجزًا تقنيًا أمام محللي البيانات المبتدئين. غيّرت التطورات الحديثة في نماذج اللغة الكبيرة (LLMs) مشهد معالجة اللغات الطبيعية من خلال دعم تحليل نصي أكثر سهولة في الوصول وأتمتة (مثل الكشف عن المواضيع والتلخيص واستخراج المعلومات وغيرها). تقدم هذه الورقة نظام VIDEE، الذي يدعم تعاون محللي البيانات المبتدئين مع الوكلاء الذكيين لإجراء تحليل نصي متقدم. يجسد VIDEE سير عمل تعاوني بين الإنسان والآلة ثلاثي المراحل: (1) مرحلة التحليل، التي تجمع بين خوارزمية بحث مونت كارلو مع التغذية الراجعة البشرية لدعم الاستدلال التوليدي؛ (2) مرحلة التنفيذ، التي تولد خطوط أنابيب تحليل نصي قابلة للتنفيذ؛ (3) مرحلة التقييم، التي تدمج التقييم القائم على LLM والتصور لدعم تحقق المستخدم من نتائج التنفيذ.

الخلفية البحثية والدافع

تعريف المشكلة

يواجه التحليل النصي التقليدي أربعة تحديات رئيسية:

  1. مشكلة فضاء التحليل الكبير: تسمح مرونة الأوامر بطرق تحليل متعددة لتحقيق الهدف من خلال مجموعات فرعية مختلفة، ويجب على المحلل الموازنة بين صعوبة المهام الفرعية والقوة الكلية لخط الأنابيب.
  2. حاجز المعرفة التقنية: يمتلك المحللون مستويات مختلفة من المعرفة التقنية، خاصة فيما يتعلق بـ LLMs. يتطور مجال LLM بسرعة، وقد لا يتمكن المحللون من مواكبة أحدث التقنيات.
  3. صعوبات التنفيذ والتجريب: يتطلب بناء وتنفيذ خطوط أنابيب تحليل نصي جهودًا هندسية كبيرة، بما في ذلك التعامل مع تنسيقات الإدخال والإخراج وتحويلات البيانات الوسيطة ومعاملات التحليل.
  4. تحديات التقييم: يتطلب تقييم خطوط أنابيب تحليل نصي قائمة على LLM طرقًا تقييمية فريدة لم تنتشر على نطاق واسع بعد.

الدافع البحثي

تحفز هذه التحديات الحاجة إلى نظام وكيل يدعم محللي النصوص. بالنظر إلى هدف المستخدم ومجموعة البيانات، يمكن لوكيل يتمتع بمعرفة تقنية كافية أن يحلل الهدف تلقائيًا، ويبحث في فضاء التحليل الكبير، وينتج خطة تحليل نصي، ثم ينفذ ويقيّم النتائج.

المساهمات الأساسية

  1. اقتراح سير عمل تعاوني بين الإنسان والآلة ثلاثي المراحل: تصميم سير عمل كامل يتضمن التحليل والتنفيذ والتقييم لتحقيق أهداف تحليل نصي معقدة.
  2. تطوير نظام VIDEE: تنفيذ نظام وكيل مع واجهة بصرية يدعم محللي البيانات في تنفيذ تحليل نصي في بيئة بدون أكواد.
  3. الابتكارات التقنية:
    • خوارزمية تحليل مع التغذية الراجعة البشرية قائمة على بحث مونت كارلو (MCTS)
    • إطار عمل مفاهيمي قائم على الوحدات التحليلية للتعامل مع تغييرات هياكل البيانات
    • آلية تقييم تدمج حكام LLM والتصور
  4. النتائج البحثية التجريبية: توفير رؤى جديدة حول أنظمة الوكلاء والتعاون بين الإنسان والآلة من خلال التقييم المنهجي والدراسات مع المستخدمين.

شرح الطريقة

تعريف المهمة

الإدخال: هدف المستخدم (وصف باللغة الطبيعية) ومجموعة بيانات نصية الإخراج: خط أنابيب تحليل نصي كامل ونتائج تنفيذه القيود: دعم البيئات بدون أكواد، التكيف مع مستويات تقنية مختلفة للمستخدمين

معمارية سير العمل ثلاثي المراحل

1. مرحلة التحليل (Decomposition)

  • الهدف: تحليل هدف المستخدم إلى سلسلة من المهام الدلالية
  • الخوارزمية الأساسية: بحث مونت كارلو المحسّن (MCTS)
  • التعاون بين الإنسان والآلة: يراقب الإنسان عملية البحث، والوكيل يستكشف خيارات خطوط الأنابيب الممكنة

تحسينات خوارزمية MCTS:

  • استخدام حكم LLM كدالة مكافأة
  • تحديد ثلاثة معايير تقييم: التعقيد والتماسك والأهمية
  • دعم التغذية الراجعة البشرية لتعديل اتجاه البحث
  • استبدال التوسع العشوائي بحساب المكافآت الشامل

2. مرحلة التنفيذ (Execution)

  • عملية التحويل: مهام دلالية → مهام أولية → خط أنابيب قابل للتنفيذ
  • عملية الترجمة: توليد أنماط الإدخال/الإخراج واختيار الخوارزمية والمعاملات الفائقة
  • الدعم التقني: بناء رسم بياني للتنفيذ قائم على LangGraph

إطار عمل الوحدات التحليلية:

  • تحديد وحدات الإدخال لكل مهمة أولية
  • اعتماد نموذج MapReduce للتعامل مع تغييرات هياكل البيانات
  • إنشاء وحدات تحليلية جديدة تلقائيًا

3. مرحلة التقييم (Evaluation)

  • طريقة التقييم: تقييم بدون تسميات حقيقية قائم على حكم LLM
  • التصور: رسوم بيانية عمودية ورسوم بيانية شعاعية موسعة للمواضيع
  • التوصيات التلقائية: يوصي النظام بـ 3 معايير تقييم لكل مهمة

نقاط الابتكار التقني

  1. دمج الاستدلال التوليدي مع MCTS: بالمقارنة مع استراتيجية البحث الجشعة في بحث الشعاع، يوفر الانتشار العكسي في MCTS تغذية راجعة خلفية أكثر ملاءمة لتخطيط خطوط أنابيب تحليل النصوص.
  2. إطار عمل الوحدات التحليلية: يتعامل تلقائيًا مع تغييرات هياكل البيانات من خلال نموذج MapReduce، مما يدعم مجموعات متنوعة من المهام الأولية.
  3. ديناميكيات التعاون بين الإنسان والآلة: يعمل المستخدم كمدير، وحكم LLM كمستشار، مما يقلل من الحاجة إلى محاذاة LLM.

إعداد التجارب

مجموعات البيانات

  1. تقييم المحلل:
    • سيناريو LLooM: مجموعة بيانات ملخصات أوراق HCI
    • سيناريو TnT-LLM: مجموعة بيانات محادثات مستخدمي Microsoft Bing Copilot
  2. تقييم المنفذ:
    • مجموعة بيانات Wikipedia (n=210)، تتضمن تسميات حقيقية كمواضيع
  3. دراسة المستخدم:
    • مجموعة بيانات ملخصات أوراق HCI (100 ورقة)
    • مهمة الاستقراء المفاهيمي

مؤشرات التقييم

  1. تقييم المحلل: طريقة Arena، باستخدام نموذج o3-mini لمقارنة خطوط الأنابيب المولدة مع خطوط الأنابيب اليدوية
  2. تقييم المنفذ: معدل تغطية المفاهيم (concept coverage)
  3. دراسة المستخدم: إكمال المهام وأنماط سلوك المستخدم والتعليقات على سهولة الاستخدام

الطرق المقارنة

  1. المحلل: خطوط أنابيب يدوية الصنع (LLooM و TnT-LLM)
  2. المنفذ: طرق BERTopic و GPT-4o الأساسية

تفاصيل التنفيذ

  • النماذج: GPT-4o و Claude-3.5-Sonnet و Gemini-2.0
  • الإطار: AutoGen + LangGraph
  • التكلفة: متوسط 0.005 دولار أمريكي لكل توسع، الشجرة الكاملة حوالي 7 دقائق

نتائج التجارب

النتائج الرئيسية

تقييم المحلل

  • الأداء: في 10 مقارنات، تم تقييم 6 خطوط أنابيب مولدة على أنها أفضل (LLooM مرتين، TnT-LLM 4 مرات)
  • المزايا: خطوط الأنابيب المولدة أكثر مباشرة وإيجازًا
  • أوجه القصور: فشل في الأخذ في الاعتبار قيود نافذة السياق لمعالجة البيانات الطويلة

تقييم المنفذ

  • معدل تغطية المفاهيم: 83% مقابل BERTopic (52.6%) مقابل GPT-4o (53%)
  • تحسن الأداء: تحسن بنسبة 30% مقارنة بطرق الأساس
  • الموثوقية: تحقيق نتائج قابلة للمقارنة مع خط أنابيب LLooM اليدوي

نتائج دراسة المستخدم

التعليقات الإيجابية:

  1. سير عمل واضح وبديهي: تمكن جميع المشاركين من إكمال المهام في وقت معقول
  2. أهمية الأتمتة: حتى المشاركون من ذوي الخبرة اعتبروا ذلك أكثر كفاءة من البرمجة
  3. الثقة في الإنشاء البرمجي: يثق المستخدمون أكثر في العمليات الصريحة مقارنة بأنظمة الصندوق الأسود مثل ChatGPT

أنماط سلوك المستخدم:

  1. تفضيل استراتيجية البحث: "الاستغلال أولاً ثم الاستكشاف" بدلاً من الاستراتيجية المتوازنة
  2. المحاذاة مقابل التوصيات: يعتبر المستخدمون حكم LLM بمثابة توصيات وليس معايير حقيقية
  3. دور فهم الوحدات التحليلية: تساعد الوحدات التحليلية الواضحة على فهم خط الأنابيب وتصحيح الأخطاء

قيود النظام

  1. أخطاء التنفيذ: قد تختار عملية الترجمة وحدات تحليلية خاطئة
  2. منحنى التعلم: يتطلب 30 دقيقة تدريب لإتقان الاستخدام
  3. الاعتماد التقني: يعتمد بشدة على استعلامات LLM المتوازية في السحابة

الأعمال ذات الصلة

تحليل النصوص القائم على LLM

  • التحليل الفردي: تظهر LLMs أداءً ممتازًا في تصنيف النصوص واستخراج المعلومات وغيرها من المهام
  • خطوط الأنابيب من النهاية إلى النهاية: TnT-LLM و LLooM وأطر عمل تحليل المواضيع وغيرها

تحليل البيانات بمساعدة LLM

  • أدوات تنظيف وتحويل البيانات (Data Wrangler)
  • أنظمة استكشاف البيانات البصرية (LightVA و InterChat)
  • يواجه تحليل النصوص تحديات فريدة مقارنة بتحليل البيانات التقليدي

دراسات تصميم التعاون بين الإنسان والآلة

  • تحديات وحلول هندسة الأوامر
  • احتياجات التحكم بالمستخدم والتقييم في أنظمة الوكلاء
  • التجريدات متعددة المستويات وتصميم الأنظمة التفاعلية

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. التحقق من الجدوى: سير العمل ثلاثي المراحل يقلل بفعالية من الحواجز التقنية لتحليل النصوص
  2. قبول المستخدم: يمكن للمستخدمين ذوي مستويات تقنية مختلفة استخدام النظام بنجاح
  3. الفعالية التقنية: جودة خطوط الأنابيب المولدة مماثلة لخطوط الأنابيب التي أنشأها الخبراء

القيود

  1. حجم دراسة المستخدم: 6 مشاركين فقط، العينة منحازة نحو طلاب الدراسات العليا
  2. القيود التقنية: الاعتماد على LLM السحابية، نقص آليات التصحيح الذاتي
  3. القيود الوظيفية: لا تدعم تحليل السلاسل الزمنية أو تحليل الشبكات أو قواعد المعرفة الخارجية

الاتجاهات المستقبلية

  1. الوكلاء الحوارية: دمج تحويل الأوامر باللغة الطبيعية
  2. حلقات التغذية الراجعة: نتائج التنفيذ والتقييم ترجع إلى مرحلة التحليل
  3. توسيع طرق التقييم: دعم تقييم المهام غير النصية مثل تحليل التجميع
  4. تكامل النظام البيئي مفتوح المصدر: التكامل مع أدوات مثل LangSmith

التقييم المتعمق

المزايا

  1. الابتكار المنهجي: أول اقتراح لسير عمل تعاوني كامل بين الإنسان والآلة لتحليل النصوص
  2. العمق التقني: تحسينات خوارزمية MCTS وإطار عمل الوحدات التحليلية وغيرها لها مساهمات نظرية
  3. القيمة العملية: تقليل حقيقي للحواجز التقنية لتحليل النصوص
  4. التقييم الشامل: يجمع بين التجارب الكمية والدراسات النوعية مع المستخدمين

أوجه القصور

  1. قابلية التوسع: اعتماد كبير على واجهات برمجية سحابية، مشاكل التكلفة والكمون
  2. معالجة الأخطاء: نقص آليات قوية للكشف عن الأخطاء والتعافي منها
  3. نطاق التطبيق: مناسب بشكل أساسي لمهام تحليل النصوص القياسية، دعم محدود للمجالات الخاصة

التأثير

  1. المساهمة الأكاديمية: توفير نموذج جديد لتصميم التعاون بين الإنسان والآلة وأنظمة الوكلاء
  2. القيمة العملية: من المتوقع أن تدفع نحو ديمقراطية تحليل النصوص
  3. قابلية التكرار: بناءً على أطر عمل مفتوحة المصدر، سهل التكرار والتوسيع

السيناريوهات المناسبة

  1. المستخدمون المستهدفون: محللو البيانات المبتدئون والباحثون في العلوم الاجتماعية والصحفيون
  2. مجالات التطبيق: تحليل ملاحظات العملاء واستخراج الأدب الأكاديمي وتحليل وسائل التواصل الاجتماعي
  3. شروط الاستخدام: يتطلب أساسًا معينًا في تحليل البيانات ووقت تدريب 30 دقيقة

المراجع

تستشهد هذه الورقة بـ 63 مرجعًا ذا صلة، تتضمن بشكل أساسي:

  • تطبيقات تحليل النصوص بـ LLM (TnT-LLM و LLooM وغيرها)
  • تصميم واجهات التعاون بين الإنسان والآلة (AutoGen و LangGraph وغيرها)
  • تصميم الأنظمة البصرية والتفاعلية
  • خوارزميات بحث مونت كارلو

التقييم الإجمالي: هذه ورقة عالية الجودة في مجال الأنظمة، وقدمت مساهمات مهمة في مجال التعاون بين الإنسان والآلة لتحليل النصوص. الابتكارات التقنية سليمة، والتقييم التجريبي شامل، وله أهمية كبيرة في تعزيز نشر أدوات تحليل النصوص. على الرغم من وجود بعض القيود التقنية، إلا أنها توفر اتجاهات واضحة للبحث المستقبلي.