2025-11-22T08:49:16.236324

VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents

Lee, Ji, Wen et al.

Text analytics has traditionally required specialized knowledge in Natural Language Processing (NLP) or text analysis, which presents a barrier for entry-level analysts. Recent advances in large language models (LLMs) have changed the landscape of NLP by enabling more accessible and automated text analysis (e.g., topic detection, summarization, information extraction, etc.). We introduce VIDEE, a system that supports entry-level data analysts to conduct advanced text analytics with intelligent agents. VIDEE instantiates a human-agent collaroration workflow consisting of three stages: (1) Decomposition, which incorporates a human-in-the-loop Monte-Carlo Tree Search algorithm to support generative reasoning with human feedback, (2) Execution, which generates an executable text analytics pipeline, and (3) Evaluation, which integrates LLM-based evaluation and visualizations to support user validation of execution results. We conduct two quantitative experiments to evaluate VIDEE's effectiveness and analyze common agent errors. A user study involving participants with varying levels of NLP and text analytics experience -- from none to expert -- demonstrates the system's usability and reveals distinct user behavior patterns. The findings identify design implications for human-agent collaboration, validate the practical utility of VIDEE for non-expert users, and inform future improvements to intelligent text analytics systems.

academic

VIDEE: টেক্সট অ্যানালিটিক্সের ভিজ্যুয়াল এবং ইন্টারঅ্যাক্টিভ বিয়োজন, সম্পাদন এবং মূল্যায়ন বুদ্ধিমান এজেন্টদের সাথে

মৌলিক তথ্য

পেপার আইডি: 2506.21582
শিরোনাম: VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents
লেখক: Sam Yu-Te Lee, Chenyang Ji, Shicheng Wen, Lifu Huang, Dongyu Liu, Kwan-Liu Ma
শ্রেণীবিভাগ: cs.CL cs.AI cs.HC
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv v4)
পেপার লিঙ্ক: https://arxiv.org/abs/2506.21582

সারসংক্ষেপ

টেক্সট বিশ্লেষণ ঐতিহ্যগতভাবে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) বা টেক্সট বিশ্লেষণের বিশেষজ্ঞ জ্ঞানের প্রয়োজন, যা প্রবেশ-স্তরের বিশ্লেষকদের জন্য প্রযুক্তিগত বাধা সৃষ্টি করে। বড় ভাষা মডেল (LLM) এর সাম্প্রতিক অগ্রগতি আরও সহজলভ্য এবং স্বয়ংক্রিয় টেক্সট বিশ্লেষণ (যেমন বিষয় সনাক্তকরণ, সারসংক্ষেপ, তথ্য নিষ্কাশন ইত্যাদি) সমর্থন করে NLP এর ল্যান্ডস্কেপ পরিবর্তন করেছে। এই পেপারটি VIDEE সিস্টেম উপস্থাপন করে, যা প্রবেশ-স্তরের ডেটা বিশ্লেষকদের উন্নত টেক্সট বিশ্লেষণের জন্য বুদ্ধিমান এজেন্টদের সাথে সহযোগিতা করতে সমর্থন করে। VIDEE একটি তিন-পর্যায়ের মানব-মেশিন সহযোগিতা কর্মপ্রবাহ বাস্তবায়ন করে: (1) বিয়োজন পর্যায়, মানব-ইন-দ্য-লুপ মন্টে কার্লো ট্রি সার্চ অ্যালগরিদম একত্রিত করে, মানব প্রতিক্রিয়া সহ উৎপাদনশীল যুক্তি সমর্থন করে; (2) সম্পাদন পর্যায়, সম্পাদনযোগ্য টেক্সট বিশ্লেষণ পাইপলাইন উৎপন্ন করে; (3) মূল্যায়ন পর্যায়, LLM-ভিত্তিক মূল্যায়ন এবং ভিজ্যুয়ালাইজেশন একীভূত করে, সম্পাদন ফলাফলের ব্যবহারকারী যাচাইকরণ সমর্থন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

ঐতিহ্যবাহী টেক্সট বিশ্লেষণ চারটি প্রধান চ্যালেঞ্জের সম্মুখীন:

বৃহৎ বিয়োজন স্থান সমস্যা: প্রম্পটের নমনীয়তা বিভিন্ন উপ-কাজ সমন্বয়ের মাধ্যমে লক্ষ্য অর্জনের একাধিক উপায় অনুমতি দেয়, বিশ্লেষকদের অবশ্যই উপ-কাজ কঠিনতা এবং পাইপলাইন সামগ্রিক শক্তিশালীতার মধ্যে ভারসাম্য রাখতে হবে।
প্রযুক্তিগত জ্ঞানের বাধা: বিশ্লেষকদের বিভিন্ন স্তরের প্রযুক্তিগত জ্ঞান রয়েছে, বিশেষত LLM সম্পর্কে। LLM সম্পর্কিত ক্ষেত্র দ্রুত বিকশিত হচ্ছে, বিশ্লেষকরা সর্বশেষ প্রযুক্তির সাথে তাল মিলাতে পারে না।
বাস্তবায়ন এবং পরীক্ষার অসুবিধা: টেক্সট বিশ্লেষণ পাইপলাইন নির্মাণ এবং বাস্তবায়ন উল্লেখযোগ্য প্রকৌশল প্রচেষ্টা প্রয়োজন, যার মধ্যে ইনপুট/আউটপুট ফর্ম্যাট পরিচালনা, মধ্যবর্তী ডেটা রূপান্তর এবং বিশ্লেষণ পরামিতি অন্তর্ভুক্ত।
মূল্যায়ন চ্যালেঞ্জ: LLM-ভিত্তিক টেক্সট বিশ্লেষণ পাইপলাইনের মূল্যায়ন অনন্য মূল্যায়ন পদ্ধতির প্রয়োজন, যা এখনও ব্যাপকভাবে প্রতিষ্ঠিত নয়।

গবেষণা প্রেরণা

এই চ্যালেঞ্জগুলি টেক্সট বিশ্লেষণকারীদের সমর্থন করার জন্য একটি এজেন্ট সিস্টেমের প্রয়োজনীয়তা তৈরি করে। ব্যবহারকারীর লক্ষ্য এবং ডেটাসেট দেওয়া, পর্যাপ্ত প্রযুক্তিগত জ্ঞান সহ একটি এজেন্ট স্বয়ংক্রিয়ভাবে লক্ষ্য বিয়োজন করতে পারে, বৃহৎ বিয়োজন স্থান অনুসন্ধান করতে পারে এবং টেক্সট বিশ্লেষণ পরিকল্পনা উৎপন্ন করতে পারে, তারপর পাইপলাইন বাস্তবায়ন এবং সম্পাদন করতে পারে এবং অবশেষে ফলাফল মূল্যায়ন করতে পারে।

মূল অবদান

তিন-পর্যায়ের মানব-মেশিন সহযোগিতা কর্মপ্রবাহ প্রস্তাব: বিয়োজন (Decomposition), সম্পাদন (Execution) এবং মূল্যায়ন (Evaluation) এর সম্পূর্ণ কর্মপ্রবাহ ডিজাইন করা হয়েছে জটিল টেক্সট বিশ্লেষণ লক্ষ্য অর্জনের জন্য।
VIDEE সিস্টেম উন্নয়ন: ভিজ্যুয়ালাইজেশন ইন্টারফেস সহ একটি এজেন্ট সিস্টেম বাস্তবায়ন করা হয়েছে, যা ডেটা বিশ্লেষকদের কোড-মুক্ত পরিবেশে টেক্সট বিশ্লেষণ সম্পাদন করতে সমর্থন করে।
প্রযুক্তিগত উদ্ভাবন:
- মন্টে কার্লো ট্রি সার্চ (MCTS) ভিত্তিক মানব-ইন-দ্য-লুপ বিয়োজন অ্যালগরিদম
- বিশ্লেষণ ইউনিট ধারণা কাঠামো ডেটা কাঠামো পরিবর্তন পরিচালনা করতে
- LLM মূল্যায়নকারী এবং ভিজ্যুয়ালাইজেশন একীকরণ মূল্যায়ন প্রক্রিয়া
অভিজ্ঞতামূলক গবেষণা অনুসন্ধান: সিস্টেম মূল্যায়ন এবং ব্যবহারকারী গবেষণার মাধ্যমে, এজেন্ট সিস্টেম এবং মানব-মেশিন সহযোগিতা সম্পর্কে নতুন অন্তর্দৃষ্টি প্রদান করা হয়েছে।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: ব্যবহারকারীর লক্ষ্য (প্রাকৃতিক ভাষা বর্ণনা) এবং টেক্সট ডেটাসেট আউটপুট: সম্পূর্ণ টেক্সট বিশ্লেষণ পাইপলাইন এবং এর সম্পাদন ফলাফল সীমাবদ্ধতা: কোড-মুক্ত পরিবেশ সমর্থন করে, বিভিন্ন প্রযুক্তিগত স্তরের ব্যবহারকারীদের সাথে খাপ খায়

তিন-পর্যায়ের কর্মপ্রবাহ স্থাপত্য

১. বিয়োজন পর্যায় (Decomposition)

লক্ষ্য: ব্যবহারকারীর লক্ষ্যকে শব্দার্থিক কাজের ক্রম বিভক্ত করা
মূল অ্যালগরিদম: উন্নত মন্টে কার্লো ট্রি সার্চ (MCTS)
মানব-মেশিন সহযোগিতা: মানুষ অনুসন্ধান প্রক্রিয়া পর্যবেক্ষণ করে, এজেন্ট সম্ভাব্য পাইপলাইন বিকল্প অন্বেষণ করে

MCTS অ্যালগরিদম উন্নতি:

পুরস্কার ফাংশন হিসাবে LLM মূল্যায়নকারী ব্যবহার করা
তিনটি মূল্যায়ন মানদণ্ড সংজ্ঞায়িত করা: জটিলতা, সংযোগ, গুরুত্ব
মানব প্রতিক্রিয়া অনুসন্ধান দিক সামঞ্জস্য সমর্থন করা
র্যান্ডম সম্প্রসারণ ব্যাপক পুরস্কার গণনা দ্বারা প্রতিস্থাপন করা

২. সম্পাদন পর্যায় (Execution)

রূপান্তর প্রক্রিয়া: শব্দার্থিক কাজ → কাঁচা কাজ → সম্পাদনযোগ্য পাইপলাইন
সংকলন প্রক্রিয়া: ইনপুট/আউটপুট প্যাটার্ন, অ্যালগরিদম নির্বাচন, হাইপারপ্যারামিটার উৎপন্ন করা
প্রযুক্তিগত সমর্থন: LangGraph ভিত্তিক সম্পাদন গ্রাফ নির্মাণ

বিশ্লেষণ ইউনিট ধারণা কাঠামো:

প্রতিটি কাঁচা কাজের ইনপুট ইউনিট সংজ্ঞায়িত করা
MapReduce প্যারাডাইম ডেটা কাঠামো পরিবর্তন পরিচালনা করতে গ্রহণ করা
স্বয়ংক্রিয়ভাবে নতুন বিশ্লেষণ ইউনিট তৈরি করা

৩. মূল্যায়ন পর্যায় (Evaluation)

মূল্যায়ন পদ্ধতি: LLM মূল্যায়নকারী ভিত্তিক লেবেল-মুক্ত মূল্যায়ন
ভিজ্যুয়ালাইজেশন: বার চার্ট এবং সম্প্রসারিত বিষয় রেডিয়াল গ্রাফ
স্বয়ংক্রিয় সুপারিশ: সিস্টেম প্রতিটি কাজের জন্য ৩টি মূল্যায়ন মানদণ্ড সুপারিশ করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

উৎপাদনশীল যুক্তি এবং MCTS সমন্বয়: বিম সার্চের লোভী কৌশলের তুলনায়, MCTS এর ব্যাকপ্রপাগেশন পিছনের প্রতিক্রিয়া প্রদান করে, যা টেক্সট বিশ্লেষণ পাইপলাইন পরিকল্পনার জন্য আরও উপযুক্ত।
বিশ্লেষণ ইউনিট কাঠামো: MapReduce প্যারাডাইমের মাধ্যমে স্বয়ংক্রিয়ভাবে ডেটা কাঠামো পরিবর্তন পরিচালনা করা, বৈচিত্র্যময় কাঁচা কাজ সমন্বয় সমর্থন করা।
মানব-মেশিন সহযোগিতা গতিশীলতা: ব্যবহারকারী ব্যবস্থাপক হিসাবে কাজ করে, LLM মূল্যায়নকারী উপদেষ্টা হিসাবে কাজ করে, LLM সারিবদ্ধতার প্রয়োজনীয়তা হ্রাস করে।

পরীক্ষা সেটআপ

ডেটাসেট

বিয়োজনকারী মূল্যায়ন:
- LLooM পরিস্থিতি: HCI পেপার সারসংক্ষেপ ডেটাসেট
- TnT-LLM পরিস্থিতি: মাইক্রোসফট Bing Copilot ব্যবহারকারী কথোপকথন ডেটাসেট
সম্পাদনকারী মূল্যায়ন:
- Wikipedia ডেটাসেট (n=210), প্রকৃত লেবেল বিষয় হিসাবে অন্তর্ভুক্ত
ব্যবহারকারী গবেষণা:
- HCI পেপার সারসংক্ষেপ ডেটাসেট (100টি)
- ধারণা আবেগন কাজ

মূল্যায়ন মেট্রিক্স

বিয়োজনকারী মূল্যায়ন: Arena পদ্ধতি, o3-mini মডেল ব্যবহার করে উৎপাদিত পাইপলাইন এবং মানব পাইপলাইন তুলনা করা
সম্পাদনকারী মূল্যায়ন: ধারণা কভারেজ (concept coverage)
ব্যবহারকারী গবেষণা: কাজ সমাপ্তি, ব্যবহারকারী আচরণ প্যাটার্ন, ব্যবহারযোগ্যতা প্রতিক্রিয়া

তুলনা পদ্ধতি

বিয়োজনকারী: হাতে তৈরি পাইপলাইন (LLooM এবং TnT-LLM)
সম্পাদনকারী: BERTopic এবং GPT-4o ভিত্তি পদ্ধতি

বাস্তবায়ন বিস্তারিত

মডেল: GPT-4o, Claude-3.5-Sonnet, Gemini-2.0
ফ্রেমওয়ার্ক: AutoGen + LangGraph
খরচ: প্রতি সম্প্রসারণ গড়ে $0.005, সম্পূর্ণ গাছ প্রায় 7 মিনিট

পরীক্ষা ফলাফল

প্রধান ফলাফল

বিয়োজনকারী মূল্যায়ন

কর্মক্ষমতা: 10টি তুলনায়, 6টি উৎপাদিত পাইপলাইন আরও ভাল হিসাবে মূল্যায়ন করা হয় (LLooM 2টি, TnT-LLM 4টি)
সুবিধা: উৎপাদিত পাইপলাইন আরও সরাসরি এবং সংক্ষিপ্ত
অপূর্ণতা: দীর্ঘ ডেটা প্রক্রিয়াকরণের প্রসঙ্গ উইন্ডো সীমাবদ্ধতা বিবেচনা করতে ব্যর্থ

সম্পাদনকারী মূল্যায়ন

ধারণা কভারেজ: 83% বনাম BERTopic (52.6%) বনাম GPT-4o (53%)
কর্মক্ষমতা উন্নতি: ভিত্তি পদ্ধতির তুলনায় 30% উন্নতি
নির্ভরযোগ্যতা: LLooM মানব পাইপলাইনের সাথে তুলনীয় ফলাফল অর্জন করা

ব্যবহারকারী গবেষণা অনুসন্ধান

ইতিবাচক প্রতিক্রিয়া:

স্পষ্ট এবং স্বজ্ঞাত কর্মপ্রবাহ: সমস্ত অংশগ্রহণকারী যুক্তিসঙ্গত সময়ে কাজ সম্পূর্ণ করতে পারে
স্বয়ংক্রিয়তার গুরুত্ব: এমনকি বিশেষজ্ঞ-স্তরের অংশগ্রহণকারীরাও কোডিংয়ের চেয়ে আরও দক্ষ বলে মনে করে
প্রোগ্রামেটিক উৎপাদনের বিশ্বাস: ChatGPT এর মতো ব্ল্যাক-বক্স সিস্টেমের তুলনায়, ব্যবহারকারীরা স্পষ্ট প্রক্রিয়া আরও বিশ্বাস করে

ব্যবহারকারী আচরণ প্যাটার্ন:

অনুসন্ধান কৌশল পছন্দ: ভারসাম্যপূর্ণ কৌশলের পরিবর্তে "প্রথমে শোষণ তারপর অন্বেষণ"
সারিবদ্ধতা বনাম সুপারিশ: ব্যবহারকারীরা LLM মূল্যায়নকারীকে প্রকৃত মানদণ্ডের পরিবর্তে সুপারিশ হিসাবে দেখে
বিশ্লেষণ ইউনিটের বোঝার ভূমিকা: স্পষ্ট বিশ্লেষণ ইউনিট পাইপলাইন বোঝা এবং ত্রুটি ডিবাগিং সহায়তা করে

সিস্টেম সীমাবদ্ধতা

সম্পাদন ত্রুটি: সংকলন প্রক্রিয়ায় ভুল বিশ্লেষণ ইউনিট নির্বাচন করা সম্ভব
শেখার বক্ররেখা: দক্ষতার সাথে ব্যবহার করার জন্য 30 মিনিটের প্রশিক্ষণ প্রয়োজন
প্রযুক্তিগত নির্ভরতা: সমান্তরাল ক্লাউড LLM প্রশ্নের উপর গুরুতর নির্ভরতা

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

সম্ভাব্যতা যাচাইকরণ: তিন-পর্যায়ের কর্মপ্রবাহ কার্যকরভাবে টেক্সট বিশ্লেষণের প্রযুক্তিগত বাধা হ্রাস করে
ব্যবহারকারী গ্রহণযোগ্যতা: বিভিন্ন প্রযুক্তিগত স্তরের ব্যবহারকারীরা সফলভাবে সিস্টেম ব্যবহার করতে পারে
প্রযুক্তিগত কার্যকারিতা: উৎপাদিত পাইপলাইনের গুণমান বিশেষজ্ঞ-তৈরি পাইপলাইনের সমতুল্য

সীমাবদ্ধতা

ব্যবহারকারী গবেষণা স্কেল: মাত্র 6 জন অংশগ্রহণকারী, নমুনা স্নাতক দিকে পক্ষপাতী
প্রযুক্তিগত সীমাবদ্ধতা: ক্লাউড LLM এর উপর নির্ভর, স্ব-সংশোধন প্রক্রিয়া অভাব
কার্যকারিতা সীমাবদ্ধতা: সময় সিরিজ বিশ্লেষণ, নেটওয়ার্ক বিশ্লেষণ বা বাহ্যিক জ্ঞান ভিত্তি সমর্থন করে না

ভবিষ্যত দিকনির্দেশনা

কথোপকথন এজেন্ট: প্রাকৃতিক ভাষা কমান্ড রূপান্তর একীভূত করা
প্রতিক্রিয়া লুপ: সম্পাদন এবং মূল্যায়ন ফলাফল বিয়োজন পর্যায়ে প্রতিক্রিয়া
মূল্যায়ন পদ্ধতি সম্প্রসারণ: ক্লাস্টারিং বিশ্লেষণ ইত্যাদি অ-টেক্সট কাজের মূল্যায়ন সমর্থন করা
ওপেন সোর্স ইকোসিস্টেম একীকরণ: LangSmith ইত্যাদি সরঞ্জামের সাথে একীকরণ

গভীর মূল্যায়ন

শক্তি

সিস্টেমেটিক উদ্ভাবন: প্রথমবারের মতো সম্পূর্ণ মানব-মেশিন সহযোগিতা টেক্সট বিশ্লেষণ কর্মপ্রবাহ প্রস্তাব করা
প্রযুক্তিগত গভীরতা: MCTS অ্যালগরিদম উন্নতি, বিশ্লেষণ ইউনিট কাঠামো ইত্যাদি তাত্ত্বিক অবদান রয়েছে
ব্যবহারিক মূল্য: সত্যিকারের টেক্সট বিশ্লেষণের প্রযুক্তিগত প্রবেশদ্বার হ্রাস করে
মূল্যায়ন ব্যাপক: পরিমাণগত পরীক্ষা এবং গুণগত ব্যবহারকারী গবেষণা একত্রিত করে

অপূর্ণতা

স্কেলেবিলিটি: ক্লাউড API এর উপর গুরুতর নির্ভরতা, খরচ এবং বিলম্ব সমস্যা
ত্রুটি পরিচালনা: শক্তিশালী ত্রুটি সনাক্তকরণ এবং পুনরুদ্ধার প্রক্রিয়া অভাব
প্রযোজ্য পরিসীমা: প্রধানত মান টেক্সট বিশ্লেষণ কাজের জন্য উপযুক্ত, বিশেষ ডোমেন সমর্থন সীমিত

প্রভাব

একাডেমিক অবদান: মানব-মেশিন সহযোগিতা এবং এজেন্ট সিস্টেম ডিজাইনের জন্য নতুন প্যারাডাইম প্রদান করে
ব্যবহারিক মূল্য: টেক্সট বিশ্লেষণের গণতন্ত্রীকরণ চালিত করার সম্ভাবনা রয়েছে
পুনরুৎপাদনযোগ্যতা: ওপেন সোর্স ফ্রেমওয়ার্কের উপর ভিত্তি করে, পুনরুৎপাদন এবং সম্প্রসারণ সহজ

প্রযোজ্য পরিস্থিতি

লক্ষ্য ব্যবহারকারী: প্রবেশ-স্তরের ডেটা বিশ্লেষক, সামাজিক বিজ্ঞান গবেষক, সাংবাদিক
প্রয়োগ ক্ষেত্র: গ্রাহক প্রতিক্রিয়া বিশ্লেষণ, একাডেমিক সাহিত্য খনন, সোশ্যাল মিডিয়া বিশ্লেষণ
ব্যবহার শর্ত: নির্দিষ্ট ডেটা বিশ্লেষণ ভিত্তি এবং 30 মিনিটের প্রশিক্ষণ সময় প্রয়োজন

সংদর্ভ

এই পেপারটি 63টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:

LLM টেক্সট বিশ্লেষণ প্রয়োগ (TnT-LLM, LLooM ইত্যাদি)
মানব-মেশিন সহযোগিতা ইন্টারফেস ডিজাইন (AutoGen, LangGraph ইত্যাদি)
ভিজ্যুয়ালাইজেশন এবং ইন্টারঅ্যাক্টিভ সিস্টেম ডিজাইন
মন্টে কার্লো ট্রি সার্চ অ্যালগরিদম

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের সিস্টেম পেপার, যা মানব-মেশিন সহযোগিতা টেক্সট বিশ্লেষণ ক্ষেত্রে গুরুত্বপূর্ণ অবদান রেখেছে। প্রযুক্তিগত উদ্ভাবন দৃঢ়, পরীক্ষা মূল্যায়ন ব্যাপক, টেক্সট বিশ্লেষণ সরঞ্জামের জনপ্রিয়করণ চালিত করার জন্য গুরুত্বপূর্ণ অর্থ রয়েছে। যদিও কিছু প্রযুক্তিগত সীমাবদ্ধতা রয়েছে, তবে এটি ভবিষ্যত গবেষণার জন্য স্পষ্ট দিকনির্দেশনা প্রদান করে।