2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen
We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.
academic

توليد موثوق لمسائل الفيزياء المتماثلة باستخدام الذكاء الاصطناعي التوليدي مع ربط المحفزات واستخدام الأدوات

المعلومات الأساسية

  • معرّف الورقة: 2508.14755
  • العنوان: توليد موثوق لمسائل الفيزياء المتماثلة باستخدام الذكاء الاصطناعي التوليدي مع ربط المحفزات واستخدام الأدوات
  • المؤلف: تشونغتشو تشن (جامعة وسط فلوريدا)
  • التصنيف: physics.ed-ph cs.AI
  • وقت النشر: 2024
  • رابط الورقة: https://arxiv.org/abs/2508.14755

الملخص

تقترح هذه الورقة طريقة لاستخدام خدمات الذكاء الاصطناعي التوليدي (مثل ChatGPT) من خلال ربط المحفزات واستخدام الأدوات لتوليد عدد كبير من مسائل الفيزياء المتماثلة. تتمكن الطريقة من التحكم الدقيق في التغييرات الهيكلية (مثل القيم والعلاقات المكانية)، مع دعم تنويع السياق المتعدد لأنطولوجيا المسائل. من خلال الاستفادة من مفسّر كود Python، تدعم الطريقة التحقق التلقائي من الحلول وتوليد الرسوم البيانية البسيطة، مما يحل القيود الرئيسية للطرق القائمة على نماذج اللغة الكبيرة. أنتجت الدراسة مكتبتي مسائل متماثلة نموذجيتين وقارنتهما مع طريقتين أبسط قائمتين على المحفزات. أظهرت النتائج أن جودة المخرجات الناتجة عن ربط المحفزات أعلى بكثير وأكثر اتساقاً.

خلفية البحث والدافع

مشكلة البحث

يهدف هذا البحث إلى حل تحديات توليد مسائل الفيزياء المتماثلة في المجال التعليمي. المسائل المتماثلة هي تلك التي تقيّم نفس المفاهيم والمبادئ الأساسية لكن مع اختلافات في الخصائص السطحية، وتتمتع بقيمة مهمة في التقييم الشخصي والاختبارات المتكررة والممارسة المقصودة.

أهمية المشكلة

  1. النمو في الطلب التعليمي: مع تطور التعلم الشخصي والاختبارات التكيفية، هناك حاجة متزايدة لعدد كبير من المسائل عالية الجودة
  2. قيود الطرق التقليدية: تتطلب الطرق القائمة على القوالب تكاليف تطوير عالية وبرمجة متخصصة
  3. التحكم في جودة التقييم: الحاجة إلى التحكم الدقيق في صعوبة المسائل والهيكل مع الحفاظ على الابتكار

قيود الطرق الموجودة

  1. طرق AQG/AIG المبكرة: تعتمد بشكل أساسي على القوالب المشفرة بشكل صارم، وتتطلب وقتاً طويلاً وبرمجة متخصصة بالمجال
  2. التطبيق المباشر لنماذج اللغة الكبيرة: يصعب التحكم في الصعوبة والتعقيد المعرفي، وغالباً ما تنتج مسائل استدعاء الحقائق
  3. مشاكل الحسابات الرقمية: نماذج اللغة الكبيرة عرضة للهلوسة في مسائل الحسابات الرقمية وإنتاج إجابات خاطئة
  4. صعوبة توليد الرسوم البيانية: القدرات المحدودة لنماذج اللغة الكبيرة الحالية في التحكم الدقيق بالعناصر البصرية

المساهمات الأساسية

  1. اقتراح طريقة لتوليد المسائل المتماثلة قائمة على ربط المحفزات واستخدام الأدوات، مما يحقق التحكم الدقيق في التغييرات الهيكلية وتنويع السياق
  2. تطوير عملية توليد من سبع خطوات، تفصل بشكل منهجي بين التغييرات المتعلقة بالبناء والتغييرات غير المتعلقة به
  3. تحقيق التحقق التلقائي من الحلول وتوليد الرسوم البيانية، مما يحل القيود الرئيسية لنماذج اللغة الكبيرة من خلال مفسّر كود Python
  4. بناء مكتبتي مسائل نموذجيتين وإجراء مقارنة منهجية، مما يثبت فعالية الطريقة
  5. إظهار جدوى استخدام خدمات الذكاء الاصطناعي التوليدي للتحقق من الجودة، وإنشاء حلقة توليد-تحقق كاملة

شرح الطريقة

تعريف المهمة

الإدخال: مسألة نموذجية أو نوع مسألة الإخراج: عدد كبير من مسائل الفيزياء المتماثلة، تتضمن نص المسألة والحل و(اختياري) الرسوم البيانية القيود:

  • الحفاظ على نفس الصعوبة المعرفية والمفاهيم الفيزيائية
  • التحكم الدقيق في التغييرات الهيكلية (القيم والعلاقات المكانية وغيرها)
  • دعم تنويع السياق المتعدد

معمارية الطريقة الأساسية

عملية التوليد من سبع خطوات

  1. تحديد المسألة النموذجية: تحديد المسألة النموذجية أو نوع المسألة
  2. تحليل المكونات: تحديد الأجزاء المختلفة للمسألة
  3. تعريف التغييرات: تعريف التغييرات الهيكلية والسياقية وقيودها
  4. تصميم ربط المحفزات: تصميم سلسلة محفزات لتوليد تغييرات المكونات
  5. تحسين التنفيذ: تنفيذ سلسلة المحفزات والتحسين التكراري
  6. دمج المخرجات: دمج المكونات في مسألة كاملة وتنسيقها
  7. التحقق من الجودة: استخدام الذكاء الاصطناعي التوليدي للتحقق من صحة النتائج المولدة

تمييز المفاهيم الرئيسية

التغييرات الهيكلية (Structural Variations):

  • تغييرات البناء الأساسي المرتبطة بالبناء
  • يجب أن تكون ضمن نطاق محدد بدقة من قبل المستخدم
  • تشمل القيم والترتيبات المكانية وعدد الأجسام وغيرها
  • يتم تحقيقها من خلال دمج توليد نماذج اللغة الكبيرة مع أداة مفسّر Python

التغييرات السياقية (Contextual Variations):

  • تغييرات في الخصائص السطحية للمسألة
  • قيود أقل لكن تتطلب الإبداع من نماذج اللغة الكبيرة
  • تأخذ في الاعتبار مستوى القراءة للطالب والكفاءة اللغوية والخلفية الثقافية
  • يتم تحقيقها بشكل أساسي من خلال قدرات التوليد لنماذج اللغة الكبيرة

نقاط الابتكار التقني

  1. تقنية ربط المحفزات: تقسيم المهام المعقدة إلى مهام فرعية متعددة، والتنفيذ من خلال محفزات متسلسلة، مما يتغلب على قيود المحفز الواحد
  2. تكامل استخدام الأدوات: الاستفادة من مفسّر كود Python للحسابات الرقمية والتحقق من القيود وتوليد الرسوم البيانية
  3. فصل أنواع التغييرات: التمييز والمعالجة المستقلة بشكل منهجي للتغييرات الهيكلية والسياقية
  4. نقل البيانات الجدولية: استخدام تنسيق الجداول في سلسلة المحفزات لتخزين ونقل المعلومات، مما يحسن الموثوقية

إعداد التجارب

تصميم مكتبات المسائل

مكتبة المسائل 1: مسائل الحسابات الرقمية

  • النموذج: دفع أو سحب جسم بقوة مائلة على سطح خشن، حركة منتظمة
  • التغييرات الهيكلية: اتجاه القوة وطبيعتها، قيم المتغيرات، اختيار المتغير المجهول
  • القيود: الزوايا من 10-60 درجة، توازن المكون الأفقي للقوة مع قوة الاحتكاك الحركي
  • سلسلة المحفزات: 5 محفزات، توليد السياق → القيم الرقمية → نص المسألة → الحل → التنسيق

مكتبة المسائل 2: أسئلة الاختيار من متعدد المفاهيمية (مع رسوم بيانية)

  • النموذج: مقارنة مسارات الحركة المقذوفة، نقطة انطلاق واحدة بارتفاعات ومدى مختلفة
  • التغييرات الهيكلية: علاقات الإجابة، معاملات المسار، تصميم خيارات التشتيت
  • القيود: عدم التداخل البصري، تحديد العلاقات، اختلاف بصري كافٍ
  • سلسلة المحفزات: 9 محفزات، معالجة تغييرات هيكلية أكثر تعقيداً وتوليد رسوم بيانية

الطرق المقارنة

  1. طريقة المحفز الواحد: دمج سلسلة المحفزات في محفز واحد أو اثنين
  2. طريقة المحفز البسيط: محفزات مبسطة قائمة على مثال واحد (فقط لمكتبة المسائل 1)

مؤشرات التقييم

  1. جودة المخرجات: اكتمال المسألة، دقة القيم الرقمية، اتساق التنسيق
  2. التحكم الهيكلي: درجة الامتثال لشروط القيود
  3. تنويع السياق: درجة التنويع في السيناريوهات والأوصاف
  4. صحة الإجابات: معدل الدقة المتحقق منه من خلال الذكاء الاصطناعي التوليدي

نتائج التجارب

النتائج الرئيسية

تأثير توليد مكتبة المسائل 1

  • التوليد الناجح: 20 مسألة متماثلة (10 من GPT-4o + 10 من Gemini Pro 2.5)
  • التحكم في الجودة: كل مسألة لها قصة خلفية فريدة وقيم عشوائية مناسبة وإجابة صحيحة
  • مثال على المسألة: مسألة عامل يدفع صندوقاً خشبياً، تتضمن معاملات فيزيائية كاملة وحل

تأثير توليد مكتبة المسائل 2

  • التوليد المنهجي: 26 متغيراً (13 علاقة محتملة × 2 خيار تشتيت رئيسي)
  • جودة الرسوم البيانية: مسارات قطع مكافئ تم توليدها تلقائياً بواسطة Python، واضحة وسهلة التمييز
  • اكتمال المسألة: كل مسألة تتضمن وصف الموقف والرسم البياني وأربع خيارات اختيار

نتائج التجارب المقارنة

المحفز الواحد مقابل سلسلة المحفزات

مكتبة المسائل 1:

  • عيوب المحفز الواحد: تجاهل تعليمات توليد القيم الرقمية بالكامل، جميع النسخ الـ 10 لم تحتوِ على قيم رقمية
  • مزايا سلسلة المحفزات: الامتثال الدقيق لجميع شروط القيود، توليد مسائل كاملة

مكتبة المسائل 2:

  • مشاكل المحفز الواحد: ظهور مسارات تحت الأرض وغير مرئية وأخطاء أخرى
  • عدم كفاية الكمية المولدة: فقط 7 سيناريوهات و 13 مجموعة بدلاً من 10 سيناريوهات و 26 مجموعة متوقعة

المحفز البسيط مقابل سلسلة المحفزات (مكتبة المسائل 1)

  • دقة الإجابات: معظم الإجابات المولدة بالمحفز البسيط خاطئة (مثل 140 كجم مقابل الإجابة الصحيحة 148.6 كجم)
  • استخدام الأدوات: المحفز البسيط لم يشغّل أداة Python، بل هلوس الإجابات مباشرة
  • جودة النص: النص المولد بالمحفز البسيط أقصر بشكل واضح وجودة أقل

نتائج التحقق من الجودة

  • مكتبة المسائل 1: حدد الذكاء الاصطناعي التوليدي وصحح 6 أخطاء في الاشتقاق الرياضي (من أصل 20 مسألة)
  • مكتبة المسائل 2: حدد 3 خيارات تشتيت مكافئة للإجابة الصحيحة
  • التحقق من الطلاب: تم استخدام مكتبة المسائل في امتحان منتصف الفصل، ولم يبلغ الطلاب عن أخطاء إضافية

الأعمال ذات الصلة

تطور التوليد التلقائي للمسائل (AQG)

  1. الطرق المبكرة: قائمة على القوالب المشفرة بشكل صارم، تكاليف تطوير عالية
  2. تطبيقات نماذج اللغة الكبيرة: قام Dijkstra وآخرون بتدريب GPT-3 لتوليد أسئلة الاختيار من متعدد؛ قام Chan وآخرون باستخدام GPT-3.5/4 لتوليد مسائل STEM
  3. المسائل المتماثلة: قام Arendasy و Sommer بتوليد مسائل جبرية من خلال القوالب؛ قام Norberg وآخرون باستخدام GPT-4 لإعادة صياغة شروحات مسائل الرياضيات

مقارنة الطرق التقنية

  • AIG التقليدي: تحكم دقيق لكن افتقار للإبداع
  • تطبيق نماذج اللغة الكبيرة المباشر: إبداع قوي لكن صعوبة في التحكم
  • طريقة هذه الورقة: دمج مزايا كلا الطريقتين، تحقيق التوازن بين التحكم الدقيق والإبداع

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. سلسلة المحفزات تتفوق بشكل كبير على المحفز الواحد: أداء متميزة في اتساق الجودة والامتثال للقيود
  2. استخدام الأدوات حاسم: مفسّر Python يحل المشاكل الرئيسية في الحسابات الرقمية وتوليد الرسوم البيانية
  3. التحقق من جودة الذكاء الاصطناعي التوليدي فعال: قادر على تحديد وتصحيح الأخطاء في عملية التوليد
  4. الطريقة قابلة للتوسع: يمكن توليد عدد قريب من اللانهائي من المسائل المتماثلة

القيود

  1. تقييم الجودة أحادي الجانب: تم التقييم فقط من قبل المؤلف، افتقار إلى مراجعة جودة منهجية
  2. الخصائص النفسية القياسية غير معروفة: افتقار إلى بيانات اختبار الطلاب لتقييم الخصائص النفسية القياسية للمسائل المتماثلة
  3. التحكم السياقي محدود: التركيز الأساسي على التغييرات الهيكلية، تحكم أقل في التغييرات السياقية
  4. قيود تعقيد الرسوم البيانية: يدعم فقط توليد الرسوم البيانية البسيطة

الاتجاهات المستقبلية

  1. تقييم الجودة المنهجي: إجراء مراجعة جودة أكثر شمولاً واختبارات الطلاب
  2. التحكم السياقي الدقيق: استكشاف التحكم في التغييرات السياقية مثل أنماط الكتابة المختلفة
  3. توليد الرسوم البيانية المعقدة: التوسع إلى أنواع رسوم بيانية أكثر تعقيداً
  4. تصميم سلسلة المحفزات التلقائي: استخدام الذكاء الاصطناعي التوليدي لمساعدة تصميم سلسلة المحفزات
  5. نظام التوليد في الوقت الفعلي: تحقيق توليد المسائل الفوري للتقييم الشخصي الكامل

التقييم المتعمق

المزايا

  1. قوة الابتكار المنهجي: أول دمج منهجي لسلسلة المحفزات واستخدام الأدوات لتوليد المسائل المتماثلة
  2. قيمة عملية عالية: توفير طريقة فعالة وسهلة الوصول لإنشاء المسائل للمعلمين العاديين
  3. تصميم تجريبي شامل: مكتبتا مسائل من أنواع مختلفة تتحقق من عمومية الطريقة
  4. تفاصيل التنفيذ التقني: توفير سلسلة محفزات كاملة وتفاصيل التنفيذ، قابلية عالية للتكرار
  5. التحكم في الجودة الكامل: إنشاء حلقة توليد-تحقق كاملة

أوجه القصور

  1. نطاق التقييم محدود: التحقق فقط على نوعين من المسائل في مجال الفيزياء
  2. الحجم نسبياً صغير: عدد المسائل المولدة نسبياً محدود (20+26)
  3. افتقار تحليل التكاليف: عدم توفير مقارنة فعالية التكلفة مع الطرق التقليدية
  4. نقص البحث عن تجربة المستخدم: افتقار إلى دراسات تجربة المعلمين والطلاب

التأثير

  1. مساهمة المجال: توفير نموذج توليد مسائل جديد لمجال تكنولوجيا التعليم
  2. القيمة العملية: التطبيق المباشر على التعلم الشخصي والاختبارات التكيفية
  3. عرض تقني: إظهار إمكانية التحكم الدقيق لنماذج اللغة الكبيرة في التطبيقات التعليمية
  4. قابلية الطريقة للتعميم: يمكن توسيع إطار العمل التقني إلى مجالات وأنواع مسائل أخرى

السيناريوهات المناسبة

  1. منصات التعلم الشخصي: توفير عدد لا محدود من أسئلة الممارسة للطلاب
  2. أنظمة الاختبارات التكيفية: توليد أسئلة بديلة متكافئة الصعوبة
  3. أداة مساعدة للمعلمين: مساعدة المعلمين على إنشاء مكتبات أسئلة عالية الجودة بسرعة
  4. منصات التعليم الإلكترونية: دعم توليد محتوى شخصي على نطاق واسع

المراجع

تستشهد الورقة بـ 14 مرجعاً ذا صلة، تغطي التوليد التلقائي للمسائل وإنشاء المسائل المتماثلة وتطبيقات نماذج اللغة الكبيرة وغيرها من الأعمال المهمة في المجالات الرئيسية، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال البحث التطبيقي، وقد قدمت مساهمات مهمة في المجال المتقاطع بين تكنولوجيا التعليم وتطبيقات الذكاء الاصطناعي. الطريقة مبتكرة وعملية، وتصميم التجارب معقول، والنتائج مقنعة. على الرغم من وجود مجال للتحسن في نطاق التقييم وتغطية المجالات الدراسية، فإن البحث يشير إلى اتجاه تطوري مهم لهذا المجال.