Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academic- معرّف الورقة: 2510.08576
- العنوان: تحليل مقارن لنماذج اللغة الكبيرة لحل نوايا المستخدمين بمساعدة الآلة
- المؤلفون: Justus Flerlage (جامعة برلين التقنية)، Alexander Acker (logsight.ai GmbH)، Odej Kao (جامعة برلين التقنية)
- التصنيف: cs.SE cs.AI cs.CL cs.HC
- المؤتمر: HAIC 2025: ورشة العمل الدولية الأولى حول الأنظمة التعاونية بين الإنسان والذكاء الاصطناعي
- رابط الورقة: https://arxiv.org/abs/2510.08576
تستكشف هذه الدراسة الدور التحويلي لنماذج اللغة الكبيرة (LLMs) في فهم اللغة الطبيعية وتحليل نوايا المستخدمين، خاصة في تنسيق سير العمل المعقد. تركز الدراسة على الانتقال من واجهات المستخدم الرسومية التقليدية إلى نماذج تفاعل حدسية موجهة باللغة. ومع ذلك، غالباً ما تعتمد التطبيقات الحالية على نماذج ملكية قائمة على السحابة، مما يحد من الخصوصية والاستقلالية وقابلية التوسع. تقيّم هذه الورقة جدوى نماذج اللغة الكبيرة مفتوحة المصدر المنشورة محلياً كمكونات أساسية لأنظمة تشغيل مستقبلية موجهة بالنية، من خلال مقارنة الأداء بين النماذج مفتوحة المصدر والنماذج المفتوحة الوصول مع نظام GPT-4 الملكي من OpenAI.
- الحاجة إلى تحويل نموذج التفاعل: تتطلب أنظمة التشغيل التقليدية القائمة على الواجهات الرسومية وإدارة الملفات الهرمية وأصداف الأوامر من المستخدمين تنسيق عدة تطبيقات يدوياً، وهي عملية مرهقة وتستغرق وقتاً طويلاً
- تحديات الخصوصية والاستقلالية: تواجه النماذج الملكية القائمة على السحابة الحالية قيوداً في الخصوصية والاستقلالية وقابلية التوسع
- ضرورة النشر المحلي: لتحقيق نموذج تفاعل موجه باللغة حقيقي وموثوق، فإن النشر المحلي ليس مجرد راحة بل ضرورة حتمية
- دفع الانتقال من التفاعل الموجه بالواجهات الرسومية إلى نماذج التفاعل الموجهة باللغة
- تقييم جدوى نماذج اللغة الكبيرة مفتوحة المصدر في أنظمة التشغيل المستقبلية الموجهة بالنية
- تعزيز اللامركزية والديمقراطية في البنية التحتية للذكاء الاصطناعي
- الاعتماد على البنية التحتية السحابية الخارجية، مما يفتقد الاستقلالية
- مشاكل الخصوصية وأمان البيانات
- الاعتماد على الشبكة يحد من حالات الاستخدام
- أول مقارنة منهجية: إجراء تحليل مقارن شامل لأداء نماذج اللغة الكبيرة مفتوحة المصدر والمفتوحة الوصول مقابل نموذج GPT-4 الملكي في مهام تحليل نوايا المستخدمين
- معمارية نظام عملية: تصميم وتطبيق معمارية نظام قائمة على المتحكم تدعم التنفيذ الديناميكي لسير العمل الذي تولده نماذج اللغة الكبيرة
- إطار تقييم متعدد الأبعاد: إنشاء نظام تقييم يشمل وقت الاستجابة ووقت الرمز الأول وجودة الكود وأبعاد أخرى
- التحقق من جدوى نماذج اللغة الكبيرة مفتوحة المصدر: إثبات أن النماذج مفتوحة المصدر تحقق أداءً قريباً من النماذج الملكية في مهام تحليل نوايا المستخدمين
تحويل نية المستخدم باللغة الطبيعية إلى سير عمل قابل للتنفيذ، يتجلى بشكل محدد في:
- الإدخال: وصف نية المستخدم باللغة الطبيعية
- الإخراج: سير عمل قابل للتنفيذ في شكل كود Python
- القيود: يجب أن يستدعي الكود مجموعة محددة مسبقاً من وظائف API
- المتحكم (Controller): وحدة التنسيق المركزية التي تدير الاتصال مع نموذج اللغة الكبيرة وتنفيذ سير العمل
- جدول الوظائف (Function Table): فهرس يحتوي على الوظائف المتاحة ومواصفاتها، يوفر توقيعات الوظائف واستدعاءات التطبيق
- منسق المطالبة (Prompt Formatter): يولد مطالبات نموذج اللغة الكبيرة بناءً على نية المستخدم وجدول الوظائف
- المنفذ (Executor): ينفذ الكود الذي يولده نموذج اللغة الكبيرة في بيئة محكومة
- خدمة نموذج اللغة الكبيرة (LLM Service): واجهة نموذج اللغة الكبيرة المستضافة خارجياً
- تصور سير العمل كآلة حالة حتمية
- استخدام لغة البرمجة الأمرية (Python) للنمذجة
- دعم الخطوات المتسلسلة وهياكل التحكم المعقدة (الحلقات والفروع)
- السماح بمقاطعة الخطوات والاستيلاء عليها وإدارة المهام غير المتزامنة
- تكافؤ آلة الحالة والكود: نمذجة مبتكرة لسير العمل كآلة حالة، مع تحقيق انتقالات الحالة من خلال تنفيذ كود Python
- بيئة التنفيذ المحكومة: تقييد الوظائف القابلة للتنفيذ من خلال جدول الوظائف لضمان الأمان
- واجهة موحدة متعددة النماذج: تصميم إطار تقييم موحد يدعم نماذج لغة متعددة
النماذج مفتوحة المصدر/المفتوحة الوصول:
- falcon-3-10b-instruct
- qwen-2.5-14b-instruct
- phi-4
النماذج الملكية:
- gpt-4o
- gpt-4o-mini
- gpt-4-turbo
- gpt-4.5-preview-2025-02-27
تم تصميم 9 نوايا مستخدم بدرجات تعقيد مختلفة:
- وظائف خط الأساس البسيطة (مثل "يرجى السكون لمدة 5 ثوان")
- طلبات المعلومات الخارجية (مثل الاستعلام عن درجة الحرارة وملخصات Wikipedia)
- المهام الموجهة للنظام (مثل قائمة الملفات والتثبيت عن بعد)
- التفاعل مع الوسائط (مثل تشغيل أغنية عشوائية)
- المهام المركبة (مثل إرسال ملف إلى شركة التأمين)
- الصحة الوظيفية: معدل نجاح تحليل النية
- وقت الاستجابة: الوقت الإجمالي لاستقبال الإخراج الكامل
- وقت الرمز الأول: الوقت المستغرق لاستقبال الإخراج الأولي
- جودة الكود: ما إذا كان يتضمن مقدمة وخاتمة وتعليقات الكود
- تطبيق المتحكم بناءً على Python 3
- التشغيل على جهاز Android باستخدام بيئة Termux
- ضبط درجة حرارة النموذج على 0.0 لضمان النتائج الحتمية
- اختبار كل نية مع كل نموذج لغة كبيرة مرة واحدة
| فئة النموذج | عدد التحليلات الناجحة | الأداء الإجمالي |
|---|
| النماذج مفتوحة المصدر | 7/9 | مماثل لـ gpt-4-turbo |
| النماذج الملكية (الأعلى) | 8/9 | أفضل قليلاً من النماذج مفتوحة المصدر |
الأداء المحدد:
- falcon-3-10b-instruct: 7/9 نجاح
- phi-4: 7/9 نجاح
- qwen-2.5-14b-instruct: 7/9 نجاح
- gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 نجاح
- gpt-4-turbo: 7/9 نجاح
متوسط وقت الاستجابة:
- الأسرع: gpt-4o (1.75 ثانية)
- الأسرع من النماذج مفتوحة المصدر: qwen-2.5-14b-instruct (3.42 ثانية)
- الأبطأ: gpt-4.5-preview-2025-02-27 (7.24 ثانية)
متوسط وقت الرمز الأول:
- الأسرع: falcon-3-10b-instruct (353.4 ميلي ثانية)
- الأبطأ: gpt-4.5-preview-2025-02-27 (900.1 ميلي ثانية)
- النية 8 (ملخص Wikipedia): فشل معظم النماذج تقريباً لأن المحتوى يتجاوز نافذة السياق
- مشاكل التنسيق: استخدم falcon-3-10b-instruct علامات كتل كود خاطئة في النية 7
- أخطاء اختيار الوظيفة: اختارت بعض النماذج وظائف API غير مناسبة في النوايا المعقدة
- المقدمة/الخاتمة: لا تتضمن النماذج مفتوحة المصدر عموماً، أداء النماذج الملكية متفاوتة
- تعليقات الكود: يميل phi-4 ومعظم النماذج الملكية إلى تضمين التعليقات
- صحة الكود: معظم الكود المولد صحيح من حيث بناء الجملة والمنطق
- معمارية Transformer: الأساس لجميع نماذج اللغة الحديثة، تدعم التدريب المتوازي ومعالجة اللغة الطبيعية عالية الجودة
- توليد الكود: تطبيقات الأدوات مثل GitHub Copilot في المساعدة على الكود
- التعرف على النية: البحث ذو الصلة حول التعرف على نية المستخدم في الأنظمة الحوارية
- المساعدات الشخصية: الحلول الموجودة مثل Siri و Cortana و Alexa
- التكامل مع نظام التشغيل: البحث حول أنظمة التشغيل الموجهة لوكلاء نموذج اللغة الكبيرة مثل AIOS
- أتمتة الواجهات الرسومية: البحث حول تشغيل الذكاء الاصطناعي المباشر للتطبيقات الموجودة
- خصوصية البيانات: مشاكل الخصوصية في معالجة بيانات التدريب والمعلومات الخاصة بالمستخدم
- مخاطر الذكاء الاصطناعي: التحليل المنهجي لمشاكل مثل الهلوسة وتوليد الكود الخاطئ
- قرب الأداء: تحقق نماذج اللغة الكبيرة مفتوحة المصدر أداءً قريباً من النماذج الملكية في مهام تحليل نوايا المستخدمين، بمعدل نجاح بلغ 77.8% (7/9)
- وقت الاستجابة مقبول: على الرغم من أن النماذج الملكية لها ميزة في وقت الاستجابة، فإن أداء النماذج مفتوحة المصدر لا تزال في نطاق مقبول
- جدوى النشر المحلي: التحقق من جدوى بناء أنظمة موجهة بالنية باستخدام نماذج مفتوحة المصدر ذاتية الاستضافة
- قيود الاختبار الفردي: تم اختبار كل نية مرة واحدة فقط، مما يفتقد التحقق من الأهمية الإحصائية
- متطلبات الموارد الحسابية: لا تزال النماذج الحالية تتطلب موارد حسابية كبيرة، مما يحد من النشر المحلي الحقيقي
- المخاطر الأمنية: يوجد ثغرات أمنية في تنفيذ الكود المولد مباشرة، مما يتطلب آليات حماية أفضل
- نطاق تغطية API: مجموعة API الحالية محدودة نسبياً، مما يجعل من الصعب التعامل مع نوايا مستخدم أكثر تعقيداً
- تحسين النموذج: تقليل حجم النموذج والمتطلبات الحسابية من خلال تقنيات التقليم والتقطير والكمية
- آليات الأمان: تطوير آليات عزل وحماية أفضل
- توسيع API: بناء مجموعة API أكثر شمولاً للتعامل مع نوايا مستخدم متنوعة
- مشاكل المحاذاة: حل مشاكل الإيقاف والمحاذاة الكاذبة في أنظمة الذكاء الاصطناعي
- أهمية البحث كبيرة: أول تقييم منهجي لإمكانيات تطبيق نماذج اللغة الكبيرة مفتوحة المصدر في أنظمة التشغيل الموجهة بالنية
- تصميم التجربة معقول: يغطي حالات اختبار بدرجات تعقيد مختلفة، وأبعاد التقييم شاملة
- الحل التقني مبتكر: نمذجة تكافؤ آلة الحالة والتنفيذ الكودي مبتكرة
- القيمة العملية عالية: توفير مرجع مهم لتصميم أنظمة التشغيل المستقبلية
- نطاق الاختبار محدود: 9 حالات اختبار فقط، حجم العينة صغير نسبياً
- غياب التحليل الإحصائي: نقص فترات الثقة واختبارات الأهمية
- عدم كفاية الاعتبارات الأمنية: النقاش حول مخاطر أمان تنفيذ الكود سطحي نسبياً
- عدم التحقق من الموثوقية طويلة الأجل: عدم النظر في استقرار النموذج في الاستخدام طويل الأجل
- المساهمة الأكاديمية: توفير معيار مهم لنماذج اللغة الكبيرة في مجال تكامل نظام التشغيل
- القيمة العملية: إثبات جدوى الحلول مفتوحة المصدر، تعزيز ديمقراطية التكنولوجيا
- التوجه المستقبلي: تحديد الاتجاه لتصميم واجهات التفاعل بين الإنسان والآلة من الجيل القادم
- البيئات الحساسة للخصوصية: التطبيقات الموجهة للمؤسسات والأفراد التي تتطلب معالجة محلية
- الأجهزة ذات الموارد المحدودة: سيناريوهات الأجهزة المحمولة والحوسبة الطرفية
- المتطلبات المخصصة: المجالات المتخصصة التي تتطلب تحسين وظائف محددة
- النماذج الأولية للبحث: أنظمة التحقق من المفاهيم والبحث الأكاديمي
تستشهد هذه الورقة بـ 38 مرجعاً مهماً، تغطي معمارية Transformer وتطبيقات نماذج اللغة الكبيرة وتوليد الكود والتفاعل بين الإنسان والآلة وأمان الذكاء الاصطناعي وغيرها من مجالات البحث ذات الصلة، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الإجمالي: هذه ورقة بحثية استشرافية وذات قيمة عملية، تقيّم للمرة الأولى بشكل منهجي إمكانيات تطبيق نماذج اللغة الكبيرة مفتوحة المصدر في أنظمة التشغيل المستقبلية. على الرغم من وجود بعض القيود في نطاق التجربة وتحليل الأمان، فإن استنتاجات البحث ذات أهمية كبيرة في تعزيز ديمقراطية تكنولوجيا الذكاء الاصطناعي وتطوير واجهات التفاعل بين الإنسان والآلة من الجيل القادم.