2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao

Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.

academic

ব্যবহারকারীর অভিপ্রায় সমাধানের জন্য বৃহৎ ভাষা মডেলগুলির তুলনামূলক বিশ্লেষণ

মৌলিক তথ্য

পেপার আইডি: 2510.08576
শিরোনাম: ব্যবহারকারীর অভিপ্রায় সমাধানের জন্য বৃহৎ ভাষা মডেলগুলির তুলনামূলক বিশ্লেষণ
লেখক: জাস্টাস ফ্লারলেজ (টেকনিশে ইউনিভার্সিটেট বার্লিন), আলেক্সান্ডার অ্যাকার (logsight.ai GmbH), ওডেজ কাও (টেকনিশে ইউনিভার্সিটেট বার্লিন)
শ্রেণীবিভাগ: cs.SE cs.AI cs.CL cs.HC
প্রকাশিত সম্মেলন: HAIC 2025: প্রথম আন্তর্জাতিক মানব-কৃত্রিম বুদ্ধিমত্তা সহযোগী সিস্টেম কর্মশালা
পেপার লিঙ্ক: https://arxiv.org/abs/2510.08576

সারসংক্ষেপ

এই গবেষণা প্রাকৃতিক ভাষা বোঝা এবং ব্যবহারকারীর অভিপ্রায় বিশ্লেষণে বৃহৎ ভাষা মডেলগুলির (LLMs) রূপান্তরকারী ভূমিকা অন্বেষণ করে, বিশেষত জটিল কর্মপ্রবাহ সংগঠিত করার ক্ষমতার দিক থেকে। গবেষণা ঐতিহ্যবাহী GUI-চালিত ইন্টারফেস থেকে স্বজ্ঞাত ভাষা-প্রথম মিথস্ক্রিয়া প্যারাডাইমের দিকে রূপান্তরের উপর দৃষ্টি নিবদ্ধ করে। তবে, বিদ্যমান বাস্তবায়নগুলি প্রায়শই ক্লাউড-ভিত্তিক মালিকানাধীন মডেলের উপর নির্ভর করে, যা গোপনীয়তা, স্বায়ত্তশাসন এবং স্কেলেবিলিটির ক্ষেত্রে সীমাবদ্ধতা রয়েছে। এই পত্রটি OpenAI মালিকানাধীন GPT-4 সিস্টেমের সাথে ওপেন-সোর্স এবং উন্মুক্ত অ্যাক্সেস মডেলগুলির কর্মক্ষমতা তুলনা করে, স্থানীয় স্থাপনা ওপেন-সোর্স LLMs এর ভবিষ্যত অভিপ্রায়-ভিত্তিক অপারেটিং সিস্টেমের ভিত্তি উপাদান হিসাবে সম্ভাব্যতা মূল্যায়ন করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

মিথস্ক্রিয়া প্যারাডাইম পরিবর্তনের প্রয়োজনীয়তা: ঐতিহ্যবাহী অপারেটিং সিস্টেমগুলি GUI, স্তরযুক্ত ফাইল ব্যবস্থাপনা এবং শেলের মিথস্ক্রিয়া প্রক্রিয়ার উপর ভিত্তি করে যা ব্যবহারকারীদের একাধিক অ্যাপ্লিকেশন ম্যানুয়ালি সমন্বয় করতে প্রয়োজন, যা জটিল এবং সময়সাপেক্ষ
গোপনীয়তা এবং স্বায়ত্তশাসন চ্যালেঞ্জ: বিদ্যমান ক্লাউড-ভিত্তিক মালিকানাধীন মডেলগুলি গোপনীয়তা, স্বায়ত্তশাসন এবং স্কেলেবিলিটির ক্ষেত্রে সীমাবদ্ধতা রয়েছে
স্থানীয় স্থাপনার প্রয়োজনীয়তা: সত্যিকারের শক্তিশালী এবং বিশ্বাসযোগ্য ভাষা-প্রথম মিথস্ক্রিয়া প্যারাডাইম বাস্তবায়নের জন্য, স্থানীয় স্থাপনা শুধুমাত্র সুবিধা নয়, বরং প্রয়োজনীয়

গবেষণার তাৎপর্য

GUI-চালিত থেকে ভাষা-প্রথম মিথস্ক্রিয়া প্যারাডাইমে রূপান্তর প্রচার করা
ভবিষ্যত অভিপ্রায়-চালিত অপারেটিং সিস্টেমে ওপেন-সোর্স LLMs এর সম্ভাব্যতা মূল্যায়ন করা
কৃত্রিম বুদ্ধিমত্তা অবকাঠামোর বিকেন্দ্রীকরণ এবং গণতন্ত্রীকরণ প্রচার করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বাহ্যিক ক্লাউড অবকাঠামোর উপর নির্ভরশীলতা, স্বায়ত্তশাসনের অভাব
গোপনীয়তা এবং ডেটা নিরাপত্তা সমস্যা
নেটওয়ার্ক নির্ভরশীলতা প্রয়োগের ক্ষেত্রগুলি সীমাবদ্ধ করে

মূল অবদান

প্রথম সিস্টেমেটিক তুলনা: ব্যবহারকারীর অভিপ্রায় বিশ্লেষণ কাজে ওপেন-সোর্স/উন্মুক্ত অ্যাক্সেস LLMs এবং মালিকানাধীন GPT-4 মডেলগুলির কর্মক্ষমতার ব্যাপক তুলনামূলক বিশ্লেষণ
ব্যবহারিক সিস্টেম আর্কিটেকচার: Controller-ভিত্তিক সিস্টেম আর্কিটেকচার ডিজাইন এবং বাস্তবায়ন যা LLM-উৎপাদিত কর্মপ্রবাহের গতিশীল সম্পাদন সমর্থন করে
বহু-মাত্রিক মূল্যায়ন কাঠামো: প্রতিক্রিয়া সময়, প্রথম টোকেন সময়, কোড গুণমান সহ একাধিক মাত্রা সমন্বিত মূল্যায়ন ব্যবস্থা প্রতিষ্ঠা করা
ওপেন-সোর্স LLMs সম্ভাব্যতা যাচাইকরণ: প্রমাণ করা যে ওপেন-সোর্স মডেলগুলি ব্যবহারকারীর অভিপ্রায় বিশ্লেষণ কাজে মালিকানাধীন মডেলের কাছাকাছি কর্মক্ষমতা অর্জন করে

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

ব্যবহারকারীর প্রাকৃতিক ভাষা অভিপ্রায়কে সম্পাদনযোগ্য কর্মপ্রবাহে রূপান্তর করা, বিশেষভাবে প্রকাশিত হয়:

ইনপুট: ব্যবহারকারীর প্রাকৃতিক ভাষা অভিপ্রায় বর্ণনা
আউটপুট: Python কোড আকারে সম্পাদনযোগ্য কর্মপ্রবাহ
সীমাবদ্ধতা: কোডটি অবশ্যই পূর্বনির্ধারিত API ফাংশন সেটকে আহ্বান করবে

সিস্টেম আর্কিটেকচার

মূল উপাদান

Controller: কেন্দ্রীয় সমন্বয় ইউনিট, LLM এর সাথে যোগাযোগ এবং কর্মপ্রবাহ সম্পাদন পরিচালনা করে
Function Table: উপলব্ধ ফাংশন এবং তাদের বিশেষ বর্ণনা সমন্বিত ডিরেক্টরি, ফাংশন স্বাক্ষর এবং বাস্তবায়ন কলব্যাক প্রদান করে
Prompt Formatter: ব্যবহারকারীর অভিপ্রায় এবং Function Table অনুযায়ী LLM প্রম্পট তৈরি করে
Executor: নিয়ন্ত্রিত পরিবেশে LLM-উৎপাদিত কোড সম্পাদন করে
LLM Service: বাহ্যিক হোস্টেড LLM ইন্টারফেস

কর্মপ্রবাহ মডেলিং

কর্মপ্রবাহ ধারণাকে নির্ধারণীয় অবস্থা মেশিন হিসাবে ধারণা করা
আবশ্যক প্রোগ্রামিং ভাষা (Python) ব্যবহার করে মডেলিং
ক্রমিক পদক্ষেপ এবং জটিল নিয়ন্ত্রণ প্রবাহ কাঠামো (লুপ, শাখা) সমর্থন করা
পদক্ষেপ বাধা, প্রাধান্য এবং অ্যাসিঙ্ক্রোনাস কাজ ব্যবস্থাপনা অনুমতি দেওয়া

প্রযুক্তিগত উদ্ভাবনী পয়েন্ট

অবস্থা মেশিন এবং কোড সমতা: উদ্ভাবনীভাবে কর্মপ্রবাহকে অবস্থা মেশিন হিসাবে মডেল করা, Python কোড সম্পাদনের মাধ্যমে অবস্থা রূপান্তর বাস্তবায়ন করা
নিয়ন্ত্রিত সম্পাদন পরিবেশ: Function Table এর মাধ্যমে সম্পাদনযোগ্য ফাংশন সীমাবদ্ধ করে নিরাপত্তা নিশ্চিত করা
বহু-মডেল একীভূত ইন্টারফেস: একাধিক LLM সমর্থন করে এমন একীভূত মূল্যায়ন কাঠামো ডিজাইন করা

পরীক্ষামূলক সেটআপ

পরীক্ষা মডেল

ওপেন-সোর্স/উন্মুক্ত অ্যাক্সেস মডেল:

falcon-3-10b-instruct
qwen-2.5-14b-instruct
phi-4

মালিকানাধীন মডেল:

gpt-4o
gpt-4o-mini
gpt-4-turbo
gpt-4.5-preview-2025-02-27

পরীক্ষা অভিপ্রায় সেট

বিভিন্ন জটিলতার 9টি ব্যবহারকারী অভিপ্রায় ডিজাইন করা হয়েছে:

সাধারণ বেসলাইন কার্যকারিতা (যেমন "অনুগ্রহ করে 5 সেকেন্ডের জন্য ঘুমান")
বাহ্যিক তথ্য অনুরোধ (যেমন তাপমাত্রা অনুসন্ধান, Wikipedia সারাংশ)
সিস্টেম-ভিত্তিক কাজ (যেমন ফাইল তালিকা, দূরবর্তী ইনস্টলেশন)
মিডিয়া মিথস্ক্রিয়া (যেমন র্যান্ডম গান চালানো)
যৌগিক কাজ (যেমন বীমা কোম্পানিকে ফাইল পাঠানো)

মূল্যায়ন মেট্রিক্স

কার্যকরী সঠিকতা: অভিপ্রায় বিশ্লেষণ সাফল্যের হার
প্রতিক্রিয়া সময়: সম্পূর্ণ আউটপুট গ্রহণের মোট সময়
প্রথম টোকেন সময়: প্রাথমিক আউটপুট গ্রহণের সময়
কোড গুণমান: প্রস্তাবনা, উপসংহার এবং কোড মন্তব্য অন্তর্ভুক্ত여ুক্ত কিনা

বাস্তবায়ন বিবরণ

Python 3 এর উপর ভিত্তি করে Controller বাস্তবায়ন
Android ডিভাইসে চলমান, Termux পরিবেশ ব্যবহার করে
মডেল তাপমাত্রা 0.0 এ সেট করা নির্ধারণীয় ফলাফল নিশ্চিত করতে
প্রতিটি অভিপ্রায় প্রতিটি LLM এর জন্য একবার পরীক্ষা করা হয়েছে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

অভিপ্রায় বিশ্লেষণ সাফল্যের হার

মডেল বিভাগ	সফল বিশ্লেষণ সংখ্যা	সামগ্রিক কর্মক্ষমতা
ওপেন-সোর্স মডেল	7/9	gpt-4-turbo এর সাথে তুলনীয়
মালিকানাধীন মডেল (শীর্ষ স্তর)	8/9	ওপেন-সোর্স মডেলের চেয়ে সামান্য উন্নত

নির্দিষ্ট কর্মক্ষমতা:

falcon-3-10b-instruct: 7/9 সাফল্য
phi-4: 7/9 সাফল্য
qwen-2.5-14b-instruct: 7/9 সাফল্য
gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 সাফল্য
gpt-4-turbo: 7/9 সাফল্য

কর্মক্ষমতা মেট্রিক্স তুলনা

গড় প্রতিক্রিয়া সময়:

দ্রুততম: gpt-4o (1.75s)
ওপেন-সোর্স দ্রুততম: qwen-2.5-14b-instruct (3.42s)
সবচেয়ে ধীর: gpt-4.5-preview-2025-02-27 (7.24s)

গড় প্রথম টোকেন সময়:

দ্রুততম: falcon-3-10b-instruct (353.4ms)
সবচেয়ে ধীর: gpt-4.5-preview-2025-02-27 (900.1ms)

বিস্তারিত বিশ্লেষণ

ব্যর্থতার কেস বিশ্লেষণ

অভিপ্রায় 8 (Wikipedia সারাংশ): প্রায় সমস্ত মডেল ব্যর্থ হয়েছে কারণ বিষয়বস্তু প্রসঙ্গ উইন্ডো অতিক্রম করেছে
ফরম্যাট সমস্যা: falcon-3-10b-instruct অভিপ্রায় 7 এ ভুল কোড ব্লক মার্কার ব্যবহার করেছে
ফাংশন নির্বাচন ত্রুটি: কিছু মডেল জটিল অভিপ্রায়ে অনুপযুক্ত API ফাংশন নির্বাচন করেছে

কোড গুণমান বৈশিষ্ট্য

প্রস্তাবনা/উপসংহার: ওপেন-সোর্স মডেলগুলি সাধারণত অন্তর্ভুক্ত করে না, মালিকানাধীন মডেলগুলি অসামঞ্জস্যপূর্ণ কর্মক্ষমতা দেখায়
কোড মন্তব্য: phi-4 এবং বেশিরভাগ মালিকানাধীন মডেল মন্তব্য অন্তর্ভুক্ত করার প্রবণতা দেখায়
কোড সঠিকতা: বেশিরভাগ উৎপাদিত কোড বাক্যতাত্ত্বিক এবং যুক্তিগতভাবে সঠিক

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

কর্মক্ষমতা সান্নিধ্য: ওপেন-সোর্স LLMs ব্যবহারকারী অভিপ্রায় বিশ্লেষণ কাজে মালিকানাধীন মডেলের কাছাকাছি কর্মক্ষমতা প্রদর্শন করে, 77.8% (7/9) সাফল্যের হার সহ
গ্রহণযোগ্য প্রতিক্রিয়া সময়: যদিও মালিকানাধীন মডেলগুলি প্রতিক্রিয়া সময়ে সুবিধা রাখে, ওপেন-সোর্স মডেলগুলির কর্মক্ষমতা এখনও গ্রহণযোগ্য পরিসরে রয়েছে
স্থানীয় স্থাপনা সম্ভাব্যতা: স্ব-হোস্টেড ওপেন-সোর্স মডেল ব্যবহার করে অভিপ্রায়-চালিত সিস্টেম নির্মাণের সম্ভাব্যতা যাচাই করা

সীমাবদ্ধতা

একক পরীক্ষা সীমাবদ্ধতা: প্রতিটি অভিপ্রায় শুধুমাত্র একবার পরীক্ষা করা হয়েছে, পরিসংখ্যানগত তাৎপর্য যাচাইকরণের অভাব
গণনা সম্পদের প্রয়োজনীয়তা: বর্তমান মডেলগুলি এখনও বিশাল গণনা সম্পদ প্রয়োজন, সত্যিকারের স্থানীয় স্থাপনা সীমাবদ্ধ করে
নিরাপত্তা ঝুঁকি: উৎপাদিত কোড সরাসরি সম্পাদন নিরাপত্তা দুর্বলতা রয়েছে, আরও সম্পূর্ণ স্যান্ডবক্স প্রক্রিয়া প্রয়োজন
API কভারেজ পরিসীমা: বর্তমান API সেট তুলনামূলকভাবে সীমিত, আরও জটিল ব্যবহারকারী অভিপ্রায় পরিচালনা করা কঠিন

ভবিষ্যত দিকনির্দেশনা

মডেল অপ্টিমাইজেশন: প্রুনিং, ডিস্টিলেশন এবং কোয়ান্টাইজেশন কৌশলের মাধ্যমে মডেল আকার এবং গণনা প্রয়োজনীয়তা হ্রাস করা
নিরাপত্তা প্রক্রিয়া: আরও সম্পূর্ণ বিচ্ছিন্নতা এবং স্যান্ডবক্স প্রক্রিয়া বিকাশ করা
API সম্প্রসারণ: বৈচিত্র্যময় ব্যবহারকারী অভিপ্রায় পরিচালনা করতে আরও ব্যাপক API নির্মাণ করা
সারিবদ্ধতা সমস্যা: কৃত্রিম বুদ্ধিমত্তা সিস্টেমের বন্ধ সমস্যা এবং সারিবদ্ধতা ছদ্ম সমস্যা সমাধান করা

গভীর মূল্যায়ন

শক্তি

গবেষণার তাৎপর্য উল্লেখযোগ্য: অভিপ্রায়-চালিত অপারেটিং সিস্টেমে ওপেন-সোর্স LLMs প্রয়োগের সম্ভাব্যতার প্রথম সিস্টেমেটিক মূল্যায়ন
পরীক্ষামূলক ডিজাইন যুক্তিসঙ্গত: বিভিন্ন জটিলতার পরীক্ষার কেস অন্তর্ভুক্ত, ব্যাপক মূল্যায়ন মাত্রা
প্রযুক্তিগত সমাধান উদ্ভাবনী: অবস্থা মেশিন এবং কোড সম্পাদনের সমতা মডেলিং উদ্ভাবনী
ব্যবহারিক মূল্য উচ্চ: ভবিষ্যত অপারেটিং সিস্টেম ডিজাইনের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করে

অপূর্ণতা

পরীক্ষার স্কেল সীমিত: শুধুমাত্র 9টি পরীক্ষার কেস, নমুনা আকার তুলনামূলকভাবে ছোট
পরিসংখ্যানগত বিশ্লেষণ অনুপস্থিত: আত্মবিশ্বাস ব্যবধান এবং তাৎপর্য পরীক্ষার অভাব
নিরাপত্তা বিবেচনা অপর্যাপ্ত: কোড সম্পাদনের নিরাপত্তা ঝুঁকির আলোচনা পৃষ্ঠীয়
দীর্ঘমেয়াদী নির্ভরযোগ্যতা অপরীক্ষিত: দীর্ঘমেয়াদী ব্যবহারে মডেলের স্থিতিশীলতা বিবেচনা করা হয়নি

প্রভাব

একাডেমিক অবদান: অপারেটিং সিস্টেম একীকরণ ক্ষেত্রে LLM এর জন্য গুরুত্বপূর্ণ বেঞ্চমার্ক প্রদান করে
ব্যবহারিক মূল্য: ওপেন-সোর্স সমাধানের সম্ভাব্যতা প্রমাণ করে, প্রযুক্তি গণতন্ত্রীকরণ প্রচার করে
ভবিষ্যত-ভিত্তিক: পরবর্তী প্রজন্মের মানব-কম্পিউটার মিথস্ক্রিয়া ইন্টারফেস ডিজাইনের জন্য দিকনির্দেশনা প্রদান করে

প্রযোজ্য পরিস্থিতি

গোপনীয়তা-সংবেদনশীল পরিবেশ: স্থানীয় প্রক্রিয়াকরণ প্রয়োজন এমন এন্টারপ্রাইজ এবং ব্যক্তিগত প্রয়োগ
সম্পদ-সীমিত ডিভাইস: মোবাইল ডিভাইস এবং এজ কম্পিউটিং পরিস্থিতি
কাস্টমাইজেশন প্রয়োজনীয়তা: নির্দিষ্ট কার্যকারিতা অপ্টিমাইজেশন প্রয়োজন এমন পেশাদার ক্ষেত্র
গবেষণা প্রোটোটাইপ: একাডেমিক গবেষণা এবং ধারণা যাচাইকরণ সিস্টেম

তথ্যসূত্র

এই পত্রটি 38টি গুরুত্বপূর্ণ সাহিত্য উদ্ধৃত করে, যা Transformer আর্কিটেকচার, LLM প্রয়োগ, কোড প্রজন্ন, মানব-কম্পিউটার মিথস্ক্রিয়া, কৃত্রিম বুদ্ধিমত্তা নিরাপত্তা সহ একাধিক সম্পর্কিত ক্ষেত্রের মূল গবেষণা ফলাফল অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি দূরদর্শী এবং ব্যবহারিক মূল্যের গবেষণা পত্র, যা ভবিষ্যত অপারেটিং সিস্টেমে ওপেন-সোর্স LLMs প্রয়োগের সম্ভাব্যতার প্রথম সিস্টেমেটিক মূল্যায়ন। যদিও পরীক্ষামূলক স্কেল এবং নিরাপত্তা বিশ্লেষণের ক্ষেত্রে নির্দিষ্ট সীমাবদ্ধতা রয়েছে, তবে এর গবেষণা সিদ্ধান্তগুলি কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি গণতন্ত্রীকরণ এবং পরবর্তী প্রজন্মের মানব-কম্পিউটার মিথস্ক্রিয়া ইন্টারফেস উন্নয়নে গুরুত্বপূর্ণ অর্থ রাখে।