2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao
Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academic

تحليل مقارن لنماذج اللغة الكبيرة لحل نوايا المستخدمين بمساعدة الآلة

المعلومات الأساسية

  • معرّف الورقة: 2510.08576
  • العنوان: تحليل مقارن لنماذج اللغة الكبيرة لحل نوايا المستخدمين بمساعدة الآلة
  • المؤلفون: Justus Flerlage (جامعة برلين التقنية)، Alexander Acker (logsight.ai GmbH)، Odej Kao (جامعة برلين التقنية)
  • التصنيف: cs.SE cs.AI cs.CL cs.HC
  • المؤتمر: HAIC 2025: ورشة العمل الدولية الأولى حول الأنظمة التعاونية بين الإنسان والذكاء الاصطناعي
  • رابط الورقة: https://arxiv.org/abs/2510.08576

الملخص

تستكشف هذه الدراسة الدور التحويلي لنماذج اللغة الكبيرة (LLMs) في فهم اللغة الطبيعية وتحليل نوايا المستخدمين، خاصة في تنسيق سير العمل المعقد. تركز الدراسة على الانتقال من واجهات المستخدم الرسومية التقليدية إلى نماذج تفاعل حدسية موجهة باللغة. ومع ذلك، غالباً ما تعتمد التطبيقات الحالية على نماذج ملكية قائمة على السحابة، مما يحد من الخصوصية والاستقلالية وقابلية التوسع. تقيّم هذه الورقة جدوى نماذج اللغة الكبيرة مفتوحة المصدر المنشورة محلياً كمكونات أساسية لأنظمة تشغيل مستقبلية موجهة بالنية، من خلال مقارنة الأداء بين النماذج مفتوحة المصدر والنماذج المفتوحة الوصول مع نظام GPT-4 الملكي من OpenAI.

خلفية البحث والدافع

المشاكل الأساسية

  1. الحاجة إلى تحويل نموذج التفاعل: تتطلب أنظمة التشغيل التقليدية القائمة على الواجهات الرسومية وإدارة الملفات الهرمية وأصداف الأوامر من المستخدمين تنسيق عدة تطبيقات يدوياً، وهي عملية مرهقة وتستغرق وقتاً طويلاً
  2. تحديات الخصوصية والاستقلالية: تواجه النماذج الملكية القائمة على السحابة الحالية قيوداً في الخصوصية والاستقلالية وقابلية التوسع
  3. ضرورة النشر المحلي: لتحقيق نموذج تفاعل موجه باللغة حقيقي وموثوق، فإن النشر المحلي ليس مجرد راحة بل ضرورة حتمية

أهمية البحث

  • دفع الانتقال من التفاعل الموجه بالواجهات الرسومية إلى نماذج التفاعل الموجهة باللغة
  • تقييم جدوى نماذج اللغة الكبيرة مفتوحة المصدر في أنظمة التشغيل المستقبلية الموجهة بالنية
  • تعزيز اللامركزية والديمقراطية في البنية التحتية للذكاء الاصطناعي

قيود الطرق الموجودة

  • الاعتماد على البنية التحتية السحابية الخارجية، مما يفتقد الاستقلالية
  • مشاكل الخصوصية وأمان البيانات
  • الاعتماد على الشبكة يحد من حالات الاستخدام

المساهمات الأساسية

  1. أول مقارنة منهجية: إجراء تحليل مقارن شامل لأداء نماذج اللغة الكبيرة مفتوحة المصدر والمفتوحة الوصول مقابل نموذج GPT-4 الملكي في مهام تحليل نوايا المستخدمين
  2. معمارية نظام عملية: تصميم وتطبيق معمارية نظام قائمة على المتحكم تدعم التنفيذ الديناميكي لسير العمل الذي تولده نماذج اللغة الكبيرة
  3. إطار تقييم متعدد الأبعاد: إنشاء نظام تقييم يشمل وقت الاستجابة ووقت الرمز الأول وجودة الكود وأبعاد أخرى
  4. التحقق من جدوى نماذج اللغة الكبيرة مفتوحة المصدر: إثبات أن النماذج مفتوحة المصدر تحقق أداءً قريباً من النماذج الملكية في مهام تحليل نوايا المستخدمين

شرح الطريقة

تعريف المهمة

تحويل نية المستخدم باللغة الطبيعية إلى سير عمل قابل للتنفيذ، يتجلى بشكل محدد في:

  • الإدخال: وصف نية المستخدم باللغة الطبيعية
  • الإخراج: سير عمل قابل للتنفيذ في شكل كود Python
  • القيود: يجب أن يستدعي الكود مجموعة محددة مسبقاً من وظائف API

معمارية النظام

المكونات الأساسية

  1. المتحكم (Controller): وحدة التنسيق المركزية التي تدير الاتصال مع نموذج اللغة الكبيرة وتنفيذ سير العمل
  2. جدول الوظائف (Function Table): فهرس يحتوي على الوظائف المتاحة ومواصفاتها، يوفر توقيعات الوظائف واستدعاءات التطبيق
  3. منسق المطالبة (Prompt Formatter): يولد مطالبات نموذج اللغة الكبيرة بناءً على نية المستخدم وجدول الوظائف
  4. المنفذ (Executor): ينفذ الكود الذي يولده نموذج اللغة الكبيرة في بيئة محكومة
  5. خدمة نموذج اللغة الكبيرة (LLM Service): واجهة نموذج اللغة الكبيرة المستضافة خارجياً

نمذجة سير العمل

  • تصور سير العمل كآلة حالة حتمية
  • استخدام لغة البرمجة الأمرية (Python) للنمذجة
  • دعم الخطوات المتسلسلة وهياكل التحكم المعقدة (الحلقات والفروع)
  • السماح بمقاطعة الخطوات والاستيلاء عليها وإدارة المهام غير المتزامنة

نقاط الابتكار التقني

  1. تكافؤ آلة الحالة والكود: نمذجة مبتكرة لسير العمل كآلة حالة، مع تحقيق انتقالات الحالة من خلال تنفيذ كود Python
  2. بيئة التنفيذ المحكومة: تقييد الوظائف القابلة للتنفيذ من خلال جدول الوظائف لضمان الأمان
  3. واجهة موحدة متعددة النماذج: تصميم إطار تقييم موحد يدعم نماذج لغة متعددة

إعداد التجربة

نماذج الاختبار

النماذج مفتوحة المصدر/المفتوحة الوصول:

  • falcon-3-10b-instruct
  • qwen-2.5-14b-instruct
  • phi-4

النماذج الملكية:

  • gpt-4o
  • gpt-4o-mini
  • gpt-4-turbo
  • gpt-4.5-preview-2025-02-27

مجموعة النوايا المختبرة

تم تصميم 9 نوايا مستخدم بدرجات تعقيد مختلفة:

  1. وظائف خط الأساس البسيطة (مثل "يرجى السكون لمدة 5 ثوان")
  2. طلبات المعلومات الخارجية (مثل الاستعلام عن درجة الحرارة وملخصات Wikipedia)
  3. المهام الموجهة للنظام (مثل قائمة الملفات والتثبيت عن بعد)
  4. التفاعل مع الوسائط (مثل تشغيل أغنية عشوائية)
  5. المهام المركبة (مثل إرسال ملف إلى شركة التأمين)

مؤشرات التقييم

  1. الصحة الوظيفية: معدل نجاح تحليل النية
  2. وقت الاستجابة: الوقت الإجمالي لاستقبال الإخراج الكامل
  3. وقت الرمز الأول: الوقت المستغرق لاستقبال الإخراج الأولي
  4. جودة الكود: ما إذا كان يتضمن مقدمة وخاتمة وتعليقات الكود

تفاصيل التطبيق

  • تطبيق المتحكم بناءً على Python 3
  • التشغيل على جهاز Android باستخدام بيئة Termux
  • ضبط درجة حرارة النموذج على 0.0 لضمان النتائج الحتمية
  • اختبار كل نية مع كل نموذج لغة كبيرة مرة واحدة

نتائج التجربة

النتائج الرئيسية

معدل نجاح تحليل النية

فئة النموذجعدد التحليلات الناجحةالأداء الإجمالي
النماذج مفتوحة المصدر7/9مماثل لـ gpt-4-turbo
النماذج الملكية (الأعلى)8/9أفضل قليلاً من النماذج مفتوحة المصدر

الأداء المحدد:

  • falcon-3-10b-instruct: 7/9 نجاح
  • phi-4: 7/9 نجاح
  • qwen-2.5-14b-instruct: 7/9 نجاح
  • gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 نجاح
  • gpt-4-turbo: 7/9 نجاح

مقارنة مؤشرات الأداء

متوسط وقت الاستجابة:

  • الأسرع: gpt-4o (1.75 ثانية)
  • الأسرع من النماذج مفتوحة المصدر: qwen-2.5-14b-instruct (3.42 ثانية)
  • الأبطأ: gpt-4.5-preview-2025-02-27 (7.24 ثانية)

متوسط وقت الرمز الأول:

  • الأسرع: falcon-3-10b-instruct (353.4 ميلي ثانية)
  • الأبطأ: gpt-4.5-preview-2025-02-27 (900.1 ميلي ثانية)

التحليل التفصيلي

تحليل حالات الفشل

  1. النية 8 (ملخص Wikipedia): فشل معظم النماذج تقريباً لأن المحتوى يتجاوز نافذة السياق
  2. مشاكل التنسيق: استخدم falcon-3-10b-instruct علامات كتل كود خاطئة في النية 7
  3. أخطاء اختيار الوظيفة: اختارت بعض النماذج وظائف API غير مناسبة في النوايا المعقدة

خصائص جودة الكود

  • المقدمة/الخاتمة: لا تتضمن النماذج مفتوحة المصدر عموماً، أداء النماذج الملكية متفاوتة
  • تعليقات الكود: يميل phi-4 ومعظم النماذج الملكية إلى تضمين التعليقات
  • صحة الكود: معظم الكود المولد صحيح من حيث بناء الجملة والمنطق

الأعمال ذات الصلة

الأسس التقنية الأساسية

  1. معمارية Transformer: الأساس لجميع نماذج اللغة الحديثة، تدعم التدريب المتوازي ومعالجة اللغة الطبيعية عالية الجودة
  2. توليد الكود: تطبيقات الأدوات مثل GitHub Copilot في المساعدة على الكود
  3. التعرف على النية: البحث ذو الصلة حول التعرف على نية المستخدم في الأنظمة الحوارية

توسيع مجالات التطبيق

  • المساعدات الشخصية: الحلول الموجودة مثل Siri و Cortana و Alexa
  • التكامل مع نظام التشغيل: البحث حول أنظمة التشغيل الموجهة لوكلاء نموذج اللغة الكبيرة مثل AIOS
  • أتمتة الواجهات الرسومية: البحث حول تشغيل الذكاء الاصطناعي المباشر للتطبيقات الموجودة

الأمان والخصوصية

  • خصوصية البيانات: مشاكل الخصوصية في معالجة بيانات التدريب والمعلومات الخاصة بالمستخدم
  • مخاطر الذكاء الاصطناعي: التحليل المنهجي لمشاكل مثل الهلوسة وتوليد الكود الخاطئ

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. قرب الأداء: تحقق نماذج اللغة الكبيرة مفتوحة المصدر أداءً قريباً من النماذج الملكية في مهام تحليل نوايا المستخدمين، بمعدل نجاح بلغ 77.8% (7/9)
  2. وقت الاستجابة مقبول: على الرغم من أن النماذج الملكية لها ميزة في وقت الاستجابة، فإن أداء النماذج مفتوحة المصدر لا تزال في نطاق مقبول
  3. جدوى النشر المحلي: التحقق من جدوى بناء أنظمة موجهة بالنية باستخدام نماذج مفتوحة المصدر ذاتية الاستضافة

القيود

  1. قيود الاختبار الفردي: تم اختبار كل نية مرة واحدة فقط، مما يفتقد التحقق من الأهمية الإحصائية
  2. متطلبات الموارد الحسابية: لا تزال النماذج الحالية تتطلب موارد حسابية كبيرة، مما يحد من النشر المحلي الحقيقي
  3. المخاطر الأمنية: يوجد ثغرات أمنية في تنفيذ الكود المولد مباشرة، مما يتطلب آليات حماية أفضل
  4. نطاق تغطية API: مجموعة API الحالية محدودة نسبياً، مما يجعل من الصعب التعامل مع نوايا مستخدم أكثر تعقيداً

الاتجاهات المستقبلية

  1. تحسين النموذج: تقليل حجم النموذج والمتطلبات الحسابية من خلال تقنيات التقليم والتقطير والكمية
  2. آليات الأمان: تطوير آليات عزل وحماية أفضل
  3. توسيع API: بناء مجموعة API أكثر شمولاً للتعامل مع نوايا مستخدم متنوعة
  4. مشاكل المحاذاة: حل مشاكل الإيقاف والمحاذاة الكاذبة في أنظمة الذكاء الاصطناعي

التقييم المتعمق

المميزات

  1. أهمية البحث كبيرة: أول تقييم منهجي لإمكانيات تطبيق نماذج اللغة الكبيرة مفتوحة المصدر في أنظمة التشغيل الموجهة بالنية
  2. تصميم التجربة معقول: يغطي حالات اختبار بدرجات تعقيد مختلفة، وأبعاد التقييم شاملة
  3. الحل التقني مبتكر: نمذجة تكافؤ آلة الحالة والتنفيذ الكودي مبتكرة
  4. القيمة العملية عالية: توفير مرجع مهم لتصميم أنظمة التشغيل المستقبلية

أوجه القصور

  1. نطاق الاختبار محدود: 9 حالات اختبار فقط، حجم العينة صغير نسبياً
  2. غياب التحليل الإحصائي: نقص فترات الثقة واختبارات الأهمية
  3. عدم كفاية الاعتبارات الأمنية: النقاش حول مخاطر أمان تنفيذ الكود سطحي نسبياً
  4. عدم التحقق من الموثوقية طويلة الأجل: عدم النظر في استقرار النموذج في الاستخدام طويل الأجل

التأثير

  1. المساهمة الأكاديمية: توفير معيار مهم لنماذج اللغة الكبيرة في مجال تكامل نظام التشغيل
  2. القيمة العملية: إثبات جدوى الحلول مفتوحة المصدر، تعزيز ديمقراطية التكنولوجيا
  3. التوجه المستقبلي: تحديد الاتجاه لتصميم واجهات التفاعل بين الإنسان والآلة من الجيل القادم

السيناريوهات المعمول بها

  1. البيئات الحساسة للخصوصية: التطبيقات الموجهة للمؤسسات والأفراد التي تتطلب معالجة محلية
  2. الأجهزة ذات الموارد المحدودة: سيناريوهات الأجهزة المحمولة والحوسبة الطرفية
  3. المتطلبات المخصصة: المجالات المتخصصة التي تتطلب تحسين وظائف محددة
  4. النماذج الأولية للبحث: أنظمة التحقق من المفاهيم والبحث الأكاديمي

المراجع

تستشهد هذه الورقة بـ 38 مرجعاً مهماً، تغطي معمارية Transformer وتطبيقات نماذج اللغة الكبيرة وتوليد الكود والتفاعل بين الإنسان والآلة وأمان الذكاء الاصطناعي وغيرها من مجالات البحث ذات الصلة، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الإجمالي: هذه ورقة بحثية استشرافية وذات قيمة عملية، تقيّم للمرة الأولى بشكل منهجي إمكانيات تطبيق نماذج اللغة الكبيرة مفتوحة المصدر في أنظمة التشغيل المستقبلية. على الرغم من وجود بعض القيود في نطاق التجربة وتحليل الأمان، فإن استنتاجات البحث ذات أهمية كبيرة في تعزيز ديمقراطية تكنولوجيا الذكاء الاصطناعي وتطوير واجهات التفاعل بين الإنسان والآلة من الجيل القادم.