2025-11-11T13:46:09.477452

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

Cogo, Oliva, Hassan

The rapid advancement of AI-assisted software engineering has brought transformative potential to the field of software engineering, but existing tools and paradigms remain limited by cognitive overload, inefficient tool integration, and the narrow capabilities of AI copilots. In response, we propose Compiler.next, a novel search-based compiler designed to enable the seamless evolution of AI-native software systems as part of the emerging Software Engineering 3.0 era. Unlike traditional static compilers, Compiler.next takes human-written intents and automatically generates working software by searching for an optimal solution. This process involves dynamic optimization of cognitive architectures and their constituents (e.g., prompts, foundation model configurations, and system parameters) while finding the optimal trade-off between several objectives, such as accuracy, cost, and latency. This paper outlines the architecture of Compiler.next and positions it as a cornerstone in democratizing software development by lowering the technical barrier for non-experts, enabling scalable, adaptable, and reliable AI-powered software. We present a roadmap to address the core challenges in intent compilation, including developing quality programming constructs, effective search heuristics, reproducibility, and interoperability between compilers. Our vision lays the groundwork for fully automated, search-driven software development, fostering faster innovation and more efficient AI-driven systems.

academic

Compiler.next: مترجم قائم على البحث لتمكين مستقبل هندسة البرمجيات الأصلي للذكاء الاصطناعي

المعلومات الأساسية

معرّف الورقة: 2510.24799
العنوان: Compiler.next: مترجم قائم على البحث لتمكين مستقبل هندسة البرمجيات الأصلي للذكاء الاصطناعي
المؤلفون: Filipe R. Cogo (هواوي كندا)، Gustavo A. Oliva (هواوي كندا)، Ahmed E. Hassan (جامعة كوينز)
التصنيف: cs.SE (هندسة البرمجيات)
تاريخ النشر: أكتوبر 2025 (مخطوطة مقدمة إلى ACM)
رابط الورقة: https://arxiv.org/abs/2510.24799

الملخص

تقدم هذه الورقة Compiler.next، وهو مترجم قائم على البحث يهدف إلى دعم أنظمة البرمجيات الأصلية للذكاء الاصطناعي في عصر هندسة البرمجيات 3.0. بخلاف المترجمات الثابتة التقليدية، يقبل Compiler.next النوايا المكتوبة بواسطة الإنسان ويولد تلقائياً برمجيات قابلة للعمل من خلال البحث عن الحلول المثلى. تتضمن هذه العملية التحسين الديناميكي للبنية المعرفية ومكوناتها (مثل الأوامر والتكوينات الأساسية للنموذج ومعاملات النظام)، مع إيجاد التوازن الأمثل بين أهداف متعددة مثل الدقة والتكلفة والكمون. تقدم الورقة نظرة عامة على بنية Compiler.next وتحددها كحجر الأساس لديمقراطية تطوير البرمجيات من خلال خفض الحواجز التقنية، مما يحقق برمجيات قابلة للتوسع والتكيف والموثوقة مدفوعة بالذكاء الاصطناعي.

خلفية البحث والدافع

خلفية المشكلة

قيود أدوات هندسة البرمجيات المدعومة بالذكاء الاصطناعي الحالية:
- يواجه المطورون الإرهاق المعرفي
- كفاءة تكامل الأدوات منخفضة
- قدرات مساعد الذكاء الاصطناعي محدودة
تطور نماذج هندسة البرمجيات:
- SE 1.0: عصر البرمجة اليدوية
- SE 2.0: عصر المساعدة بالتعلم الآلي
- SE 3.0: العصر الأصلي للذكاء الاصطناعي، التعاون السلس بين الإنسان والذكاء الاصطناعي
تعقيد FMware (برمجيات النموذج الأساسي):
- ليست مجرد تغليف بسيط للنموذج الأساسي
- تتضمن مكونات معقدة مثل التكوين وجمع البيانات وأنظمة RAG والتحقق من البيانات وأدوات التحليل
- تتطلب التطور المستمر استجابة لبيانات التغذية الراجعة

دافع البحث

تم تصميم المترجمات التقليدية للبيئات الثابتة ولا يمكنها التعامل مع متطلبات التكيف في الوقت الفعلي للأنظمة المدفوعة بالذكاء الاصطناعي
الحاجة إلى بنية ترجمة جديدة لدعم التحويل من النية إلى FMware المحسّن
تحقيق تطوير حقيقي موجه بالنية، مما يسمح للمطورين بالتركيز على "ماذا" بدلاً من "كيف"

المساهمات الأساسية

اقتراح بنية Compiler.next: إطار عمل مترجم قائم على البحث يمكنه تجميع النوايا البشرية إلى FMware محسّن
تعريف تمثيل برنامج FMware: مزيج معياري يتضمن Promptware و Agentware
تصميم آلية تحسين متعددة الأهداف: تحسين الأهداف المتنافسة مثل الدقة والكمون والتكلفة بشكل متزامن
إنشاء 10 نداءات للعمل: توفير خريطة طريق منهجية لتطوير مترجمات SE 3.0
تنفيذ إثبات المفهوم: التحقق من جدوى النظام على معيار HumanEval-Plus
توفير آلية التخزين المؤقت الدلالي: تحسين كفاءة الترجمة بشكل كبير وخفض التكاليف

شرح الطريقة

تعريف المهمة

الإدخال: النية المكتوبة بواسطة الإنسان (وصف متطلبات البرمجيات باللغة الطبيعية) الإخراج: برنامج FMware محسّن (يتضمن قوالب الأوامر وتكوينات البنية المعرفية ومعاملات النظام) القيود: تحسين متعدد الأهداف (التوازن بين الدقة والكمون والتكلفة)

بنية النموذج

1. مكونات المجموعة التقنية

محسّن الاستكشاف المعرفي: استخدام تقنيات مثل التأمل الذاتي لقيادة عملية البحث بذكاء
معيد كتابة الأوامر: تحسين وتنقية هيكل الأوامر
مستكشف البنية: البحث عن التكوين الأمثل لمعاملات RAG وأنماط البنية المعرفية
موسع السيناريو: توسيع بيئة التحسين من خلال السيناريوهات الاصطناعية الجديدة
محسّن البحث: الاستفادة من مسارات الترجمة التاريخية لتحسين كفاءة البحث
وقت التشغيل الاصطناعي الموزع: استخدام المنصات الموزعة لتسريع عملية التوليف
محرك قابلية الملاحظة للمركب: دعم تصحيح الأخطاء والتتبع

2. آلية البحث

1. إنشاء مثيل من مكونات FMware → 2. توليد تكوين محدد → 3. تنفيذ الاستدلال
     ↑                                                              ↓
6. مقرب إرشادي ← 5. تسجيل أفضل تكوين ← 4. مقدّر الخطأ

الخطوات الرئيسية:

ملء القالب: ملء العناصر النائبة في قوالب الأوامر بمعلومات مثيل المشكلة
نشر استدلال FM: استخدام FM المنشور لتنفيذ الأوامر المثيلة لتوليد مرشحي النتائج
تقييم FM: استخدام FM التقييم لتقييم جودة مرشحي النتائج
التأمل الذاتي (اختياري): توليد تغذية راجعة استدلالية حول كيفية تحسين قالب الأوامر
تجميع درجات التقييم: حساب درجة الملاءمة الإجمالية عبر مثيلات المشاكل المتعددة
اختيار المرشح: اختيار قوالب عالية الجودة بناءً على درجات التقييم
التقاطع والطفرة: توليد مرشحين جدد من خلال عمليات موجهة بـ FM

3. النموذج المفاهيمي

العملية: تمثل مكون برنامج FMware، يتضمن معاملات ثابتة وديناميكية
المحسّن: مكون قابل للتوصيل يحدد كيفية تحسين معاملات العملية
مقاعد التقييم: تحدد صيغة التسميات الذهبية ومنطق التقييم المستخدم في عملية التحسين

نقاط الابتكار التقني

تحسين Pareto متعدد الأهداف: استخدام خوارزمية NSGA-II لتحسين الأهداف المتنافسة بشكل متزامن، بدلاً من المزج البسيط المرجح
آلية التخزين المؤقت الدلالي: التخزين المؤقت بناءً على تشابه التضمين، الموازنة بين سرعة الترجمة واستكشاف فضاء البحث
فصل الاهتمامات: فصل النية (ما يجب تحقيقه) عن التنفيذ (الأوامر والتكوينات المحسّنة)
البنية القابلة للتركيب: دعم التحسين المشترك لمكونات FMware المتعددة المترابطة

إعداد التجربة

مجموعات البيانات

HumanEval-Plus: معيار مهام البرمجة بلغة Python، يتضمن توقيعات الدوال وسلاسل التوثيق
تقسيم البيانات: 70% كتسميات ذهبية لتوجيه التحسين، 30% للتقييم

مؤشرات التقييم

الدقة: نسبة حلول التوليد التي تمر اختبارات الوحدة
الكمون: وقت التشغيل المطلوب لتقييم مرشحي الحل
تكلفة التنفيذ: عدد الرموز المستهلكة في كل تشغيل (الإدخال + الإخراج)

طرق المقارنة

أوامر التوليف الأولية مقابل الأوامر المحسّنة
أداء الترجمة مع التخزين المؤقت مقابل بدون تخزين مؤقت

تفاصيل التنفيذ

خوارزمية البحث: خوارزمية NSGA-II الجينية متعددة الأهداف
حجم السكان: 10 حلول مرشحة لكل مهمة
عدد التكرارات: 5 أجيال
عتبة التشابه: 0.85 (المسافة الإقليدية)
نماذج الاختبار: Qwen2.5-7B-Instruct و GPT-4o-mini

نتائج التجربة

النتائج الرئيسية

النموذج	المؤشر	الأولي	المحسّن	التحسن (%)
Qwen2.5-7B-Instruct	الدقة (%)	0.26	0.56	46.4
	متوسط الكمون (ثانية)	14.2	10.8	76.6
	متوسط عدد الرموز	537.1	369.3	68.7
GPT-4o-mini	الدقة (%)	0.68	1.00	47.0
	متوسط الكمون (ثانية)	8.7	5.0	42.5
	متوسط عدد الرموز	500.0	417.1	16.5

تأثير آلية التخزين المؤقت

المؤشر	بدون تخزين مؤقت	مع تخزين مؤقت	الفرق
الدقة (%)	1.00	0.70	-30%
متوسط الكمون (ثانية)	5.0	5.9	-18%
متوسط عدد الرموز	417.1	467.0	12%
إجمالي وقت التشغيل	8م:15ث	10م:27ث	تسريع 22.1%

نتائج التجربة

تحسن الأداء الملحوظ: الأوامر المحسّنة تظهر تحسناً ملحوظاً في الدقة والكفاءة
مقايضات التخزين المؤقت: يمكن للتخزين المؤقت الدلالي أن يقلل بشكل كبير من وقت الترجمة، لكنه قد يحد من تنوع البحث
قابلية التكيف مع النموذج: الطريقة فعالة مع نماذج أساسية بأحجام مختلفة

الأعمال ذات الصلة

المترجمات التقليدية

GCC و LLVM: ترجمة ثابتة وتحسينات حتمية
القيود: لا يمكنها التكيف مع البيئات الديناميكية المدفوعة بالذكاء الاصطناعي

مترجمات التعلم العميق

TVM و XLA و Glow: التركيز على عمليات الموتر وتحسينات الأجهزة
القيود: محدودة بالبنى العصبية المحددة مسبقاً، تفتقر إلى دعم التجريدات العالية المستوى

مترجمات الأوامر

APE: طريقة توليف البرامج باللغة الطبيعية
Promptbreeder: عملية بحث ذاتية التحسين
EvoPrompt: خوارزمية تطورية لتحسين الأوامر
ProTeGi: محاكاة انحدار التدرج
SAMMO: تمثيل برنامج أوامر رمزي
DSPy: تحسين برنامج FMware من النهاية إلى النهاية
TextGrad: تحسين قائم على الانتشار العكسي

عشرة نداءات للعمل

تمثيل برنامج FMware

إنشاء بنى برمجية عالية الجودة: إنشاء بنى دلالية لتمثيل برامج FMware
تحسين FMware من النهاية إلى النهاية: تجاوز تحسين قوالب الأوامر المنفصلة

الأداء الحسابي

اكتشاف الاستدلالات الفعالة: تحديد ميزات الأوامر ومعاملات FMware التي تؤثر على مخرجات FM
تحسينات الكفاءة وخفض التكاليف: تطوير تقنيات لتقليل الكمون وتحسين إنتاجية الترجمة

التحقق من النتائج

بناء التسميات الذهبية: إنشاء نقاط بيانات عالية الجودة ومستقلة
تقدير نطاق الجودة: حساب احتمالية تنفيذ FMware ضمن عتبة الجودة
الترجمة القابلة للتكرار: تحقيق قابلية تكرار عملية الترجمة

أولويات المستخدم والأهداف

أهداف التحسين المحددة من قبل المستخدم: دعم تحسين متعدد الأهداف مرن
التشغيل البيني بين المترجمات: ضمان التشغيل البيني بين المترجمات المختلفة
مشاركة مسارات الترجمة المجتمعية: إنشاء منصة لمشاركة مسارات الترجمة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجح Compiler.next في تحقيق الترجمة التلقائية من النية إلى FMware
التحسين متعدد الأهداف يوازن بفعالية بين الدقة والكمون والتكلفة
آلية التخزين المؤقت الدلالي تحسن بشكل كبير من كفاءة الترجمة
توفر الطريقة نموذجاً جديداً لتطوير البرمجيات في عصر SE 3.0

القيود

التنفيذ الحالي يركز بشكل أساسي على مكون Promptware الفردي: لا تزال تحسينات FMware المعقدة متعددة المكونات تتطلب مزيداً من البحث
الاعتماد على التسميات الذهبية: يتطلب مجموعات بيانات تقييم عالية الجودة، قد يحد من نطاق التطبيق
تحديات القابلية للتكرار: السلوك غير الحتمي لـ FM يجعل الترجمة القابلة للتكرار بالكامل تحدياً
انفجار فضاء البحث: قد يصبح فضاء البحث صعب التعامل معه مع زيادة عدد المكونات

الاتجاهات المستقبلية

استراتيجيات التحسين الهرمية: تطوير طرق لتحسين مكونات FMware المعقدة على مراحل
استراتيجيات التخزين المؤقت التكيفية: ضبط ديناميكي لعتبة التشابه لموازنة الكفاءة والتنوع
التشغيل البيني عبر الأطر: إنشاء تمثيل وسيط معياري لـ FMware
آليات ضمان الجودة: تطوير طرق تقييم جودة FMware أكثر قوة

التقييم المتعمق

المميزات

ابتكار قوي: أول إطار عمل منهجي لترجمة النية، يوفر أساساً نظرياً لـ SE 3.0
قيمة عملية عالية: يحل نقاط الألم الفعلية في تطوير FMware، مع آفاق تطبيق واضحة
قوة منهجية: لا يقدم فقط حلاً تقنياً، بل يوفر أيضاً خريطة طريق بحثية شاملة
التحقق الكافي: يثبت جدوى الطريقة وفعاليتها من خلال إثبات المفهوم
الكتابة الواضحة: هيكل الورقة واضح، الوصف التقني مفصل، سهل الفهم والتكرار

أوجه القصور

نطاق التقييم محدود: تم التحقق فقط على مهام توليد الأكواد، يفتقر إلى تقييم أنواع مهام أخرى
قابلية التوسع غير معروفة: لم يتم التحقق من القدرة على التعامل مع أنظمة FMware كبيرة ومعقدة
تحليل التكلفة غير كافٍ: على الرغم من الإشارة إلى تحسينات التكلفة، يفتقر إلى تحليل تفصيلي للتكلفة والفائدة
التكامل مع الأدوات الموجودة: النقاش حول كيفية التكامل مع سلاسل الأدوات الموجودة غير عميق بما يكفي

التأثير

المساهمة الأكاديمية: تقدم اتجاهاً بحثياً جديداً وإطار عمل نظري لمجال هندسة البرمجيات
القيمة الصناعية: من المتوقع أن تدفع تطوير أدوات تطوير برمجيات أصلية للذكاء الاصطناعي
دفع التوحيد القياسي: قد تعزز إنشاء معايير وأفضل ممارسات تطوير FMware
بناء المجتمع: توفر النداءات العشرة للعمل جدول أعمال بحثي واضح للمجتمع

السيناريوهات المطبقة

تطوير التطبيقات الأصلية للذكاء الاصطناعي: مناسبة بشكل خاص للتطبيقات التي تتطلب هندسة أوامر مكثفة
منصات بدون أكواد/منخفضة الأكواد: توفير قدرات تطوير البرمجيات للأشخاص غير التقنيين
تطوير النماذج الأولية السريعة: دعم التحويل السريع من الفكرة إلى برمجيات قابلة للعمل
تحسين وصيانة FMware: مساعدة أنظمة FMware الموجودة على التحسين والتطور المستمر

المراجع

تتضمن الورقة 94 مرجعاً يغطي أعمالاً مهمة في هندسة البرمجيات والتعلم الآلي وتصميم المترجمات وخوارزميات البحث وغيرها، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة ممتازة تتمتع برؤية مستقبلية وطابع منهجي، لا تقدم فقط حلاً تقنياً مبتكراً، بل الأهم من ذلك توفر رؤية واضحة وخريطة طريق لتطور هندسة البرمجيات في المستقبل. على الرغم من الحاجة إلى مزيد من التحسينات في بعض الجوانب، فإن أفكارها الأساسية وتصميم إطار عملها يفتح إمكانيات جديدة لممارسة هندسة البرمجيات في عصر الذكاء الاصطناعي.