2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao

Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.

academic

बड़े भाषा मॉडल का तुलनात्मक विश्लेषण: मशीन-सहायता प्राप्त उपयोगकर्ता इरादों के समाधान के लिए

मूल जानकारी

पेपर ID: 2510.08576
शीर्षक: बड़े भाषा मॉडल का तुलनात्मक विश्लेषण: मशीन-सहायता प्राप्त उपयोगकर्ता इरादों के समाधान के लिए
लेखक: जस्टस फ्लरलेज (टेक्निशे यूनिवर्सिटेट बर्लिन), अलेक्जेंडर एकर (logsight.ai GmbH), ओडेज काओ (टेक्निशे यूनिवर्सिटेट बर्लिन)
वर्गीकरण: cs.SE cs.AI cs.CL cs.HC
प्रकाशन सम्मेलन: HAIC 2025: मानव-कृत्रिम बुद्धिमत्ता सहयोगी प्रणालियों पर प्रथम अंतर्राष्ट्रीय कार्यशाला
पेपर लिंक: https://arxiv.org/abs/2510.08576

सारांश

यह अनुसंधान बड़े भाषा मॉडल (LLMs) की प्राकृतिक भाषा समझ और उपयोगकर्ता इरादों के विश्लेषण में परिवर्तनकारी भूमिका का अन्वेषण करता है, विशेषकर जटिल कार्यप्रवाह के समन्वय की क्षमता के संदर्भ में। यह अनुसंधान पारंपरिक GUI-संचालित इंटरफेस से सहज भाषा-प्रथम अंतःक्रिया प्रतिमान की ओर परिवर्तन पर केंद्रित है। हालांकि, मौजूदा कार्यान्वयन अक्सर क्लाउड-आधारित मालिकाना मॉडल पर निर्भर करते हैं, जिनमें गोपनीयता, स्वायत्तता और मापनीयता के संदर्भ में सीमाएं हैं। यह पेपर खुले स्रोत और खुली पहुंच वाले मॉडल की तुलना OpenAI के मालिकाना GPT-4 प्रणाली के साथ करके, स्थानीय तैनाती वाले खुले स्रोत LLMs की भविष्य के इरादा-आधारित ऑपरेटिंग सिस्टम के मूल घटक के रूप में व्यवहार्यता का मूल्यांकन करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्याएं

अंतःक्रिया प्रतिमान परिवर्तन की आवश्यकता: पारंपरिक ऑपरेटिंग सिस्टम GUI, स्तरीय फाइल प्रबंधन और शेल पर आधारित हैं, जिनके लिए उपयोगकर्ताओं को कई अनुप्रयोगों को मैन्युअल रूप से समन्वित करना पड़ता है, जो कठिन और समय-सापेक्ष है
गोपनीयता और स्वायत्तता चुनौतियां: मौजूदा क्लाउड-आधारित मालिकाना मॉडल गोपनीयता, स्वायत्तता और मापनीयता के मामले में सीमित हैं
स्थानीय तैनाती की आवश्यकता: वास्तविक मजबूत और विश्वसनीय भाषा-प्रथम अंतःक्रिया प्रतिमान को प्राप्त करने के लिए, स्थानीय तैनाती केवल सुविधाजनक नहीं बल्कि आवश्यक है

अनुसंधान का महत्व

GUI-संचालित से भाषा-प्रथम अंतःक्रिया प्रतिमान की ओर परिवर्तन को आगे बढ़ाना
भविष्य के इरादा-संचालित ऑपरेटिंग सिस्टम में खुले स्रोत LLMs की व्यवहार्यता का मूल्यांकन करना
AI अवसंरचना का विकेंद्रीकरण और लोकतांत्रिकरण को बढ़ावा देना

मौजूदा पद्धति की सीमाएं

बाहरी क्लाउड अवसंरचना पर निर्भरता, स्वायत्तता की कमी
गोपनीयता और डेटा सुरक्षा समस्याएं
नेटवर्क निर्भरता आवेदन परिदृश्यों को सीमित करती है

मूल योगदान

प्रथम व्यवस्थित तुलना: खुले स्रोत/खुली पहुंच वाले LLMs और मालिकाना GPT-4 मॉडल के उपयोगकर्ता इरादों के विश्लेषण कार्यों पर प्रदर्शन का व्यापक तुलनात्मक विश्लेषण
व्यावहारिक प्रणाली आर्किटेक्चर: Controller-आधारित प्रणाली आर्किटेक्चर का डिजाइन और कार्यान्वयन जो LLM द्वारा उत्पन्न कार्यप्रवाह के गतिशील निष्पादन का समर्थन करता है
बहु-आयामी मूल्यांकन ढांचा: प्रतिक्रिया समय, प्रथम टोकन समय, कोड गुणवत्ता आदि कई आयामों को शामिल करने वाली मूल्यांकन प्रणाली की स्थापना
खुले स्रोत LLMs की व्यवहार्यता सत्यापन: यह प्रमाणित करना कि खुले स्रोत मॉडल उपयोगकर्ता इरादों के विश्लेषण कार्यों पर मालिकाना मॉडल के समीप प्रदर्शन प्रदान करते हैं

विधि विवरण

कार्य परिभाषा

उपयोगकर्ता के प्राकृतिक भाषा इरादे को निष्पादन योग्य कार्यप्रवाह में परिवर्तित करना, विशेषकर:

इनपुट: उपयोगकर्ता के प्राकृतिक भाषा इरादे का विवरण
आउटपुट: Python कोड के रूप में निष्पादन योग्य कार्यप्रवाह
बाधाएं: कोड को पूर्वनिर्धारित API फ़ंक्शन सेट को कॉल करना चाहिए

प्रणाली आर्किटेक्चर

मूल घटक

Controller: केंद्रीय समन्वय इकाई, LLM के साथ संचार और कार्यप्रवाह निष्पादन का प्रबंधन
Function Table: उपलब्ध फ़ंक्शन और उनके विनिर्देशों की निर्देशिका, फ़ंक्शन हस्ताक्षर और कार्यान्वयन कॉलबैक प्रदान करता है
Prompt Formatter: उपयोगकर्ता इरादे और Function Table के आधार पर LLM प्रॉम्प्ट उत्पन्न करता है
Executor: नियंत्रित वातावरण में LLM द्वारा उत्पन्न कोड को निष्पादित करता है
LLM Service: बाहरी रूप से होस्ट किया गया LLM इंटरफेस

कार्यप्रवाह मॉडलिंग

कार्यप्रवाह को नियतात्मक स्थिति मशीन के रूप में अवधारणा
अनिवार्य प्रोग्रामिंग भाषा (Python) का उपयोग करके मॉडलिंग
अनुक्रमिक चरणों और जटिल नियंत्रण प्रवाह संरचनाओं (लूप, शाखाएं) का समर्थन
चरणों में व्यवधान, अधिग्रहण और अतुल्यकालिक कार्य प्रबंधन की अनुमति

तकनीकी नवाचार

स्थिति मशीन और कोड समतुल्यता: कार्यप्रवाह को स्थिति मशीन के रूप में मॉडल करने का नवाचारी तरीका, Python कोड निष्पादन के माध्यम से स्थिति संक्रमण को लागू करना
नियंत्रित निष्पादन वातावरण: Function Table के माध्यम से निष्पादन योग्य फ़ंक्शन को प्रतिबंधित करके सुरक्षा सुनिश्चित करना
बहु-मॉडल एकीकृत इंटरफेस: कई LLMs का समर्थन करने वाली एकीकृत मूल्यांकन ढांचा डिजाइन करना

प्रायोगिक सेटअप

परीक्षण मॉडल

खुले स्रोत/खुली पहुंच वाले मॉडल:

falcon-3-10b-instruct
qwen-2.5-14b-instruct
phi-4

मालिकाना मॉडल:

gpt-4o
gpt-4o-mini
gpt-4-turbo
gpt-4.5-preview-2025-02-27

परीक्षण इरादा सेट

विभिन्न जटिलता स्तरों के 9 उपयोगकर्ता इरादे डिजाइन किए गए:

सरल आधारभूत कार्यक्षमता (जैसे "कृपया 5 सेकंड के लिए सो जाएं")
बाहरी जानकारी अनुरोध (जैसे तापमान क्वेरी, विकिपीडिया सारांश)
प्रणाली-निर्देशित कार्य (जैसे फाइल सूची, दूरस्थ स्थापना)
मीडिया इंटरैक्शन (जैसे यादृच्छिक गीत चलाना)
समग्र कार्य (जैसे बीमा कंपनी को फाइल भेजना)

मूल्यांकन मेट्रिक्स

कार्यात्मक सही: इरादा विश्लेषण सफलता दर
प्रतिक्रिया समय: पूर्ण आउटपुट प्राप्त करने का कुल समय
प्रथम Token समय: प्रारंभिक आउटपुट प्राप्त करने का समय
कोड गुणवत्ता: क्या इसमें प्रस्तावना, समापन और कोड टिप्पणियां हैं

कार्यान्वयन विवरण

Python 3 पर आधारित Controller कार्यान्वयन
Android डिवाइस पर चलाया गया, Termux वातावरण का उपयोग करके
मॉडल तापमान 0.0 पर सेट किया गया निर्धारणीय परिणामों के लिए
प्रत्येक इरादे को प्रत्येक LLM के साथ एक बार परीक्षण किया गया

प्रायोगिक परिणाम

मुख्य परिणाम

इरादा विश्लेषण सफलता दर

मॉडल श्रेणी	सफल विश्लेषण संख्या	समग्र प्रदर्शन
खुले स्रोत मॉडल	7/9	gpt-4-turbo के समान
मालिकाना मॉडल (शीर्ष)	8/9	खुले स्रोत मॉडल से थोड़ा बेहतर

विशिष्ट प्रदर्शन:

falcon-3-10b-instruct: 7/9 सफल
phi-4: 7/9 सफल
qwen-2.5-14b-instruct: 7/9 सफल
gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 सफल
gpt-4-turbo: 7/9 सफल

प्रदर्शन मेट्रिक्स तुलना

औसत प्रतिक्रिया समय:

सबसे तेज: gpt-4o (1.75s)
खुले स्रोत सबसे तेज: qwen-2.5-14b-instruct (3.42s)
सबसे धीमा: gpt-4.5-preview-2025-02-27 (7.24s)

औसत प्रथम Token समय:

सबसे तेज: falcon-3-10b-instruct (353.4ms)
सबसे धीमा: gpt-4.5-preview-2025-02-27 (900.1ms)

विस्तृत विश्लेषण

विफलता के मामलों का विश्लेषण

इरादा 8 (विकिपीडिया सारांश): लगभग सभी मॉडल विफल रहे, क्योंकि सामग्री संदर्भ विंडो से अधिक थी
प्रारूप समस्याएं: falcon-3-10b-instruct ने इरादा 7 में गलत कोड ब्लॉक मार्कर का उपयोग किया
फ़ंक्शन चयन त्रुटि: कुछ मॉडल जटिल इरादों में अनुचित API फ़ंक्शन चुनते हैं

कोड गुणवत्ता विशेषताएं

प्रस्तावना/समापन: खुले स्रोत मॉडल आमतौर पर शामिल नहीं करते, मालिकाना मॉडल असंगत प्रदर्शन करते हैं
कोड टिप्पणियां: phi-4 और अधिकांश मालिकाना मॉडल टिप्पणियां शामिल करने की प्रवृत्ति रखते हैं
कोड सही: अधिकांश उत्पन्न कोड वाक्य विन्यास और तर्क में सही हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रदर्शन निकटता: खुले स्रोत LLMs उपयोगकर्ता इरादों के विश्लेषण कार्यों पर मालिकाना मॉडल के समीप प्रदर्शन करते हैं, 77.8% (7/9) की सफलता दर के साथ
स्वीकार्य प्रतिक्रिया समय: हालांकि मालिकाना मॉडल प्रतिक्रिया समय में लाभ रखते हैं, खुले स्रोत मॉडल का प्रदर्शन अभी भी स्वीकार्य सीमा में है
स्थानीय तैनाती व्यवहार्यता: स्व-होस्ट किए गए खुले स्रोत मॉडल का उपयोग करके इरादा-संचालित प्रणाली बनाने की व्यवहार्यता को सत्यापित किया गया

सीमाएं

एकल परीक्षण सीमा: प्रत्येक इरादे को केवल एक बार परीक्षण किया गया, सांख्यिकीय महत्व सत्यापन की कमी
कम्प्यूटेशनल संसाधन आवश्यकताएं: वर्तमान मॉडल को अभी भी बड़ी कम्प्यूटेशनल संसाधनों की आवश्यकता है, जो वास्तविक स्थानीय तैनाती को सीमित करता है
सुरक्षा जोखिम: उत्पन्न कोड को सीधे निष्पादित करने में सुरक्षा खामियां हैं, अधिक परिपूर्ण सैंडबॉक्स तंत्र की आवश्यकता है
API कवरेज सीमा: वर्तमान API सेट अपेक्षाकृत सीमित है, अधिक जटिल उपयोगकर्ता इरादों को संभालना मुश्किल है

भविष्य की दिशाएं

मॉडल अनुकूलन: प्रूनिंग, आसवन और परिमाणीकरण तकनीकों के माध्यम से मॉडल आकार और कम्प्यूटेशनल आवश्यकताओं को कम करना
सुरक्षा तंत्र: अधिक परिपूर्ण अलगाव और सैंडबॉक्स तंत्र विकसित करना
API विस्तार: विविध उपयोगकर्ता इरादों को संभालने के लिए अधिक व्यापक API बनाना
संरेखण समस्याएं: AI प्रणाली की बंद करने की समस्या और संरेखण छद्मवेश समस्या को हल करना

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण अनुसंधान महत्व: इरादा-संचालित ऑपरेटिंग सिस्टम में खुले स्रोत LLMs के अनुप्रयोग की संभावना का प्रथम व्यवस्थित मूल्यांकन
उचित प्रायोगिक डिजाइन: विभिन्न जटिलता स्तरों के परीक्षण मामलों को शामिल करते हुए, व्यापक मूल्यांकन आयाम
तकनीकी समाधान नवाचार: स्थिति मशीन और कोड निष्पादन की समतुल्य मॉडलिंग में नवाचार
उच्च व्यावहारिक मूल्य: भविष्य के ऑपरेटिंग सिस्टम डिजाइन के लिए महत्वपूर्ण संदर्भ प्रदान करता है

कमियां

सीमित परीक्षण पैमाना: केवल 9 परीक्षण मामले, नमूना आकार अपेक्षाकृत छोटा है
सांख्यिकीय विश्लेषण की कमी: विश्वास अंतराल और महत्व परीक्षण की कमी
अपर्याप्त सुरक्षा विचार: कोड निष्पादन के सुरक्षा जोखिमों पर चर्चा सतही है
दीर्घकालीन विश्वसनीयता अपरीक्षित: दीर्घकालीन उपयोग में मॉडल की स्थिरता पर विचार नहीं किया गया

प्रभाव

शैक्षणिक योगदान: ऑपरेटिंग सिस्टम एकीकरण क्षेत्र में LLM के लिए महत्वपूर्ण बेंचमार्क प्रदान करता है
व्यावहारिक मूल्य: खुले स्रोत समाधान की व्यवहार्यता को प्रमाणित करता है, तकनीकी लोकतांत्रिकरण को बढ़ावा देता है
भविष्य-निर्देशित: अगली पीढ़ी के मानव-कंप्यूटर इंटरैक्शन इंटरफेस डिजाइन के लिए दिशा निर्धारित करता है

लागू परिदृश्य

गोपनीयता-संवेदनशील वातावरण: स्थानीय प्रसंस्करण की आवश्यकता वाले उद्यम और व्यक्तिगत अनुप्रयोग
संसाधन-सीमित डिवाइस: मोबाइल डिवाइस और एज कंप्यूटिंग परिदृश्य
अनुकूलन आवश्यकताएं: विशेष क्षेत्रों में विशिष्ट कार्यक्षमता अनुकूलन की आवश्यकता
अनुसंधान प्रोटोटाइप: शैक्षणिक अनुसंधान और अवधारणा सत्यापन प्रणाली

संदर्भ

यह पेपर 38 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें Transformer आर्किटेक्चर, LLM अनुप्रयोग, कोड जनरेशन, मानव-कंप्यूटर इंटरैक्शन, AI सुरक्षा आदि कई संबंधित क्षेत्रों के मूल अनुसंधान परिणाम शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह एक दूरदर्शी और व्यावहारिक मूल्य वाला अनुसंधान पेपर है, जो पहली बार भविष्य के ऑपरेटिंग सिस्टम में खुले स्रोत LLMs के अनुप्रयोग की संभावना का व्यवस्थित रूप से मूल्यांकन करता है। हालांकि प्रायोगिक पैमाने और सुरक्षा विश्लेषण के संदर्भ में कुछ सीमाएं हैं, लेकिन इसके अनुसंधान निष्कर्ष AI तकनीक के लोकतांत्रिकरण और अगली पीढ़ी के मानव-कंप्यूटर इंटरैक्शन इंटरफेस विकास को बढ़ावा देने में महत्वपूर्ण हैं।