Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.
academic- معرّف الورقة: 2506.21582
- العنوان: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
- المؤلفون: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
- التصنيف: cs.CL cs.AI cs.HC
- تاريخ النشر: 13 أكتوبر 2025 (arXiv v4)
- رابط الورقة: https://arxiv.org/abs/2506.21582
يتطلب التحليل النصي تقليديًا معرفة متخصصة في معالجة اللغات الطبيعية (NLP) أو تحليل النصوص، مما يشكل حاجزًا تقنيًا أمام محللي البيانات المبتدئين. غيّرت التطورات الحديثة في نماذج اللغة الكبيرة (LLMs) مشهد معالجة اللغات الطبيعية من خلال دعم تحليل نصي أكثر سهولة في الوصول وأتمتة (مثل الكشف عن المواضيع والتلخيص واستخراج المعلومات وغيرها). تقدم هذه الورقة نظام VIDEE، الذي يدعم تعاون محللي البيانات المبتدئين مع الوكلاء الذكيين لإجراء تحليل نصي متقدم. يجسد VIDEE سير عمل تعاوني بين الإنسان والآلة ثلاثي المراحل: (1) مرحلة التحليل، التي تجمع بين خوارزمية بحث مونت كارلو مع التغذية الراجعة البشرية لدعم الاستدلال التوليدي؛ (2) مرحلة التنفيذ، التي تولد خطوط أنابيب تحليل نصي قابلة للتنفيذ؛ (3) مرحلة التقييم، التي تدمج التقييم القائم على LLM والتصور لدعم تحقق المستخدم من نتائج التنفيذ.
يواجه التحليل النصي التقليدي أربعة تحديات رئيسية:
- مشكلة فضاء التحليل الكبير: تسمح مرونة الأوامر بطرق تحليل متعددة لتحقيق الهدف من خلال مجموعات فرعية مختلفة، ويجب على المحلل الموازنة بين صعوبة المهام الفرعية والقوة الكلية لخط الأنابيب.
- حاجز المعرفة التقنية: يمتلك المحللون مستويات مختلفة من المعرفة التقنية، خاصة فيما يتعلق بـ LLMs. يتطور مجال LLM بسرعة، وقد لا يتمكن المحللون من مواكبة أحدث التقنيات.
- صعوبات التنفيذ والتجريب: يتطلب بناء وتنفيذ خطوط أنابيب تحليل نصي جهودًا هندسية كبيرة، بما في ذلك التعامل مع تنسيقات الإدخال والإخراج وتحويلات البيانات الوسيطة ومعاملات التحليل.
- تحديات التقييم: يتطلب تقييم خطوط أنابيب تحليل نصي قائمة على LLM طرقًا تقييمية فريدة لم تنتشر على نطاق واسع بعد.
تحفز هذه التحديات الحاجة إلى نظام وكيل يدعم محللي النصوص. بالنظر إلى هدف المستخدم ومجموعة البيانات، يمكن لوكيل يتمتع بمعرفة تقنية كافية أن يحلل الهدف تلقائيًا، ويبحث في فضاء التحليل الكبير، وينتج خطة تحليل نصي، ثم ينفذ ويقيّم النتائج.
- اقتراح سير عمل تعاوني بين الإنسان والآلة ثلاثي المراحل: تصميم سير عمل كامل يتضمن التحليل والتنفيذ والتقييم لتحقيق أهداف تحليل نصي معقدة.
- تطوير نظام VIDEE: تنفيذ نظام وكيل مع واجهة بصرية يدعم محللي البيانات في تنفيذ تحليل نصي في بيئة بدون أكواد.
- الابتكارات التقنية:
- خوارزمية تحليل مع التغذية الراجعة البشرية قائمة على بحث مونت كارلو (MCTS)
- إطار عمل مفاهيمي قائم على الوحدات التحليلية للتعامل مع تغييرات هياكل البيانات
- آلية تقييم تدمج حكام LLM والتصور
- النتائج البحثية التجريبية: توفير رؤى جديدة حول أنظمة الوكلاء والتعاون بين الإنسان والآلة من خلال التقييم المنهجي والدراسات مع المستخدمين.
الإدخال: هدف المستخدم (وصف باللغة الطبيعية) ومجموعة بيانات نصية
الإخراج: خط أنابيب تحليل نصي كامل ونتائج تنفيذه
القيود: دعم البيئات بدون أكواد، التكيف مع مستويات تقنية مختلفة للمستخدمين
- الهدف: تحليل هدف المستخدم إلى سلسلة من المهام الدلالية
- الخوارزمية الأساسية: بحث مونت كارلو المحسّن (MCTS)
- التعاون بين الإنسان والآلة: يراقب الإنسان عملية البحث، والوكيل يستكشف خيارات خطوط الأنابيب الممكنة
تحسينات خوارزمية MCTS:
- استخدام حكم LLM كدالة مكافأة
- تحديد ثلاثة معايير تقييم: التعقيد والتماسك والأهمية
- دعم التغذية الراجعة البشرية لتعديل اتجاه البحث
- استبدال التوسع العشوائي بحساب المكافآت الشامل
- عملية التحويل: مهام دلالية → مهام أولية → خط أنابيب قابل للتنفيذ
- عملية الترجمة: توليد أنماط الإدخال/الإخراج واختيار الخوارزمية والمعاملات الفائقة
- الدعم التقني: بناء رسم بياني للتنفيذ قائم على LangGraph
إطار عمل الوحدات التحليلية:
- تحديد وحدات الإدخال لكل مهمة أولية
- اعتماد نموذج MapReduce للتعامل مع تغييرات هياكل البيانات
- إنشاء وحدات تحليلية جديدة تلقائيًا
- طريقة التقييم: تقييم بدون تسميات حقيقية قائم على حكم LLM
- التصور: رسوم بيانية عمودية ورسوم بيانية شعاعية موسعة للمواضيع
- التوصيات التلقائية: يوصي النظام بـ 3 معايير تقييم لكل مهمة
- دمج الاستدلال التوليدي مع MCTS: بالمقارنة مع استراتيجية البحث الجشعة في بحث الشعاع، يوفر الانتشار العكسي في MCTS تغذية راجعة خلفية أكثر ملاءمة لتخطيط خطوط أنابيب تحليل النصوص.
- إطار عمل الوحدات التحليلية: يتعامل تلقائيًا مع تغييرات هياكل البيانات من خلال نموذج MapReduce، مما يدعم مجموعات متنوعة من المهام الأولية.
- ديناميكيات التعاون بين الإنسان والآلة: يعمل المستخدم كمدير، وحكم LLM كمستشار، مما يقلل من الحاجة إلى محاذاة LLM.
- تقييم المحلل:
- سيناريو LLooM: مجموعة بيانات ملخصات أوراق HCI
- سيناريو TnT-LLM: مجموعة بيانات محادثات مستخدمي Microsoft Bing Copilot
- تقييم المنفذ:
- مجموعة بيانات Wikipedia (n=210)، تتضمن تسميات حقيقية كمواضيع
- دراسة المستخدم:
- مجموعة بيانات ملخصات أوراق HCI (100 ورقة)
- مهمة الاستقراء المفاهيمي
- تقييم المحلل: طريقة Arena، باستخدام نموذج o3-mini لمقارنة خطوط الأنابيب المولدة مع خطوط الأنابيب اليدوية
- تقييم المنفذ: معدل تغطية المفاهيم (concept coverage)
- دراسة المستخدم: إكمال المهام وأنماط سلوك المستخدم والتعليقات على سهولة الاستخدام
- المحلل: خطوط أنابيب يدوية الصنع (LLooM و TnT-LLM)
- المنفذ: طرق BERTopic و GPT-4o الأساسية
- النماذج: GPT-4o و Claude-3.5-Sonnet و Gemini-2.0
- الإطار: AutoGen + LangGraph
- التكلفة: متوسط 0.005 دولار أمريكي لكل توسع، الشجرة الكاملة حوالي 7 دقائق
- الأداء: في 10 مقارنات، تم تقييم 6 خطوط أنابيب مولدة على أنها أفضل (LLooM مرتين، TnT-LLM 4 مرات)
- المزايا: خطوط الأنابيب المولدة أكثر مباشرة وإيجازًا
- أوجه القصور: فشل في الأخذ في الاعتبار قيود نافذة السياق لمعالجة البيانات الطويلة
- معدل تغطية المفاهيم: 83% مقابل BERTopic (52.6%) مقابل GPT-4o (53%)
- تحسن الأداء: تحسن بنسبة 30% مقارنة بطرق الأساس
- الموثوقية: تحقيق نتائج قابلة للمقارنة مع خط أنابيب LLooM اليدوي
التعليقات الإيجابية:
- سير عمل واضح وبديهي: تمكن جميع المشاركين من إكمال المهام في وقت معقول
- أهمية الأتمتة: حتى المشاركون من ذوي الخبرة اعتبروا ذلك أكثر كفاءة من البرمجة
- الثقة في الإنشاء البرمجي: يثق المستخدمون أكثر في العمليات الصريحة مقارنة بأنظمة الصندوق الأسود مثل ChatGPT
أنماط سلوك المستخدم:
- تفضيل استراتيجية البحث: "الاستغلال أولاً ثم الاستكشاف" بدلاً من الاستراتيجية المتوازنة
- المحاذاة مقابل التوصيات: يعتبر المستخدمون حكم LLM بمثابة توصيات وليس معايير حقيقية
- دور فهم الوحدات التحليلية: تساعد الوحدات التحليلية الواضحة على فهم خط الأنابيب وتصحيح الأخطاء
- أخطاء التنفيذ: قد تختار عملية الترجمة وحدات تحليلية خاطئة
- منحنى التعلم: يتطلب 30 دقيقة تدريب لإتقان الاستخدام
- الاعتماد التقني: يعتمد بشدة على استعلامات LLM المتوازية في السحابة
- التحليل الفردي: تظهر LLMs أداءً ممتازًا في تصنيف النصوص واستخراج المعلومات وغيرها من المهام
- خطوط الأنابيب من النهاية إلى النهاية: TnT-LLM و LLooM وأطر عمل تحليل المواضيع وغيرها
- أدوات تنظيف وتحويل البيانات (Data Wrangler)
- أنظمة استكشاف البيانات البصرية (LightVA و InterChat)
- يواجه تحليل النصوص تحديات فريدة مقارنة بتحليل البيانات التقليدي
- تحديات وحلول هندسة الأوامر
- احتياجات التحكم بالمستخدم والتقييم في أنظمة الوكلاء
- التجريدات متعددة المستويات وتصميم الأنظمة التفاعلية
- التحقق من الجدوى: سير العمل ثلاثي المراحل يقلل بفعالية من الحواجز التقنية لتحليل النصوص
- قبول المستخدم: يمكن للمستخدمين ذوي مستويات تقنية مختلفة استخدام النظام بنجاح
- الفعالية التقنية: جودة خطوط الأنابيب المولدة مماثلة لخطوط الأنابيب التي أنشأها الخبراء
- حجم دراسة المستخدم: 6 مشاركين فقط، العينة منحازة نحو طلاب الدراسات العليا
- القيود التقنية: الاعتماد على LLM السحابية، نقص آليات التصحيح الذاتي
- القيود الوظيفية: لا تدعم تحليل السلاسل الزمنية أو تحليل الشبكات أو قواعد المعرفة الخارجية
- الوكلاء الحوارية: دمج تحويل الأوامر باللغة الطبيعية
- حلقات التغذية الراجعة: نتائج التنفيذ والتقييم ترجع إلى مرحلة التحليل
- توسيع طرق التقييم: دعم تقييم المهام غير النصية مثل تحليل التجميع
- تكامل النظام البيئي مفتوح المصدر: التكامل مع أدوات مثل LangSmith
- الابتكار المنهجي: أول اقتراح لسير عمل تعاوني كامل بين الإنسان والآلة لتحليل النصوص
- العمق التقني: تحسينات خوارزمية MCTS وإطار عمل الوحدات التحليلية وغيرها لها مساهمات نظرية
- القيمة العملية: تقليل حقيقي للحواجز التقنية لتحليل النصوص
- التقييم الشامل: يجمع بين التجارب الكمية والدراسات النوعية مع المستخدمين
- قابلية التوسع: اعتماد كبير على واجهات برمجية سحابية، مشاكل التكلفة والكمون
- معالجة الأخطاء: نقص آليات قوية للكشف عن الأخطاء والتعافي منها
- نطاق التطبيق: مناسب بشكل أساسي لمهام تحليل النصوص القياسية، دعم محدود للمجالات الخاصة
- المساهمة الأكاديمية: توفير نموذج جديد لتصميم التعاون بين الإنسان والآلة وأنظمة الوكلاء
- القيمة العملية: من المتوقع أن تدفع نحو ديمقراطية تحليل النصوص
- قابلية التكرار: بناءً على أطر عمل مفتوحة المصدر، سهل التكرار والتوسيع
- المستخدمون المستهدفون: محللو البيانات المبتدئون والباحثون في العلوم الاجتماعية والصحفيون
- مجالات التطبيق: تحليل ملاحظات العملاء واستخراج الأدب الأكاديمي وتحليل وسائل التواصل الاجتماعي
- شروط الاستخدام: يتطلب أساسًا معينًا في تحليل البيانات ووقت تدريب 30 دقيقة
تستشهد هذه الورقة بـ 63 مرجعًا ذا صلة، تتضمن بشكل أساسي:
- تطبيقات تحليل النصوص بـ LLM (TnT-LLM و LLooM وغيرها)
- تصميم واجهات التعاون بين الإنسان والآلة (AutoGen و LangGraph وغيرها)
- تصميم الأنظمة البصرية والتفاعلية
- خوارزميات بحث مونت كارلو
التقييم الإجمالي: هذه ورقة عالية الجودة في مجال الأنظمة، وقدمت مساهمات مهمة في مجال التعاون بين الإنسان والآلة لتحليل النصوص. الابتكارات التقنية سليمة، والتقييم التجريبي شامل، وله أهمية كبيرة في تعزيز نشر أدوات تحليل النصوص. على الرغم من وجود بعض القيود التقنية، إلا أنها توفر اتجاهات واضحة للبحث المستقبلي.