2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen
We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.
academic

सामान्यीकृत भौतिकी समस्याओं का विश्वसनीय निर्माण जनरेटिव AI के साथ प्रॉम्प्ट-चेनिंग और टूल उपयोग का उपयोग करते हुए

मूल जानकारी

  • पेपर ID: 2508.14755
  • शीर्षक: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
  • लेखक: Zhongzhou Chen (University of Central Florida)
  • वर्गीकरण: physics.ed-ph cs.AI
  • प्रकाशन वर्ष: 2024
  • पेपर लिंक: https://arxiv.org/abs/2508.14755

सारांश

यह पेपर ChatGPT जैसी जनरेटिव AI सेवाओं का उपयोग करके प्रॉम्प्ट चेनिंग और टूल उपयोग के माध्यम से बड़ी संख्या में समरूप भौतिकी समस्याओं को उत्पन्न करने की एक विधि प्रस्तावित करता है। यह विधि संरचनात्मक परिवर्तनों (जैसे संख्यात्मक मान और स्थानिक संबंध) पर सटीक नियंत्रण प्रदान करती है, साथ ही समस्या के संदर्भ में विविधता का समर्थन करती है। Python कोड इंटरप्रेटर का उपयोग करके, यह विधि स्वचालित समाधान सत्यापन और सरल आरेख निर्माण का समर्थन करती है, जो LLM-आधारित विधियों की महत्वपूर्ण सीमाओं को संबोधित करती है। अनुसंधान दो उदाहरण समरूप समस्या संग्रह उत्पन्न करता है और दो सरल प्रॉम्प्ट-आधारित विधियों के साथ तुलना करता है। परिणाम दर्शाते हैं कि प्रॉम्प्ट चेनिंग से प्राप्त आउटपुट की गुणवत्ता स्पष्ट रूप से अधिक और अधिक सुसंगत है।

अनुसंधान पृष्ठभूमि और प्रेरणा

अनुसंधान समस्या

यह अनुसंधान शिक्षा क्षेत्र में समरूप भौतिकी समस्याओं के निर्माण की चुनौतियों को हल करने का लक्ष्य रखता है। समरूप समस्याएं ऐसी समस्याएं हैं जो समान मूल अवधारणाओं और सिद्धांतों का मूल्यांकन करती हैं लेकिन सतही विशेषताओं में भिन्न होती हैं। ये समस्याएं व्यक्तिगत मूल्यांकन, पुनरावृत्ति परीक्षण और जानबूझकर अभ्यास में महत्वपूर्ण मूल्य रखती हैं।

समस्या की महत्ता

  1. शिक्षा की बढ़ती आवश्यकता: व्यक्तिगत शिक्षा और अनुकूली परीक्षण के विकास के साथ, उच्च गुणवत्ता की समरूप समस्याओं की बड़ी संख्या की आवश्यकता है
  2. पारंपरिक विधियों की सीमाएं: टेम्पलेट-आधारित विधियों के विकास में उच्च लागत और विशेष प्रोग्रामिंग की आवश्यकता होती है
  3. मूल्यांकन गुणवत्ता नियंत्रण: समस्या की कठिनाई और संरचना पर सटीक नियंत्रण बनाए रखते हुए नवीनता की आवश्यकता है

मौजूदा विधियों की सीमाएं

  1. प्रारंभिक AQG/AIG विधियां: मुख्य रूप से कठोर टेम्पलेट पर निर्भर, विकास समय लेने वाला और डोमेन-विशिष्ट प्रोग्रामिंग की आवश्यकता
  2. LLM का सीधा अनुप्रयोग: कठिनाई और संज्ञानात्मक जटिलता पर नियंत्रण करना कठिन, अक्सर तथ्यात्मक स्मरण समस्याओं की ओर झुकाव
  3. संख्यात्मक गणना समस्याएं: LLM संख्यात्मक गणना समस्याओं पर भ्रम उत्पन्न करने का प्रवण है, गलत उत्तर देता है
  4. आरेख निर्माण कठिनाई: मौजूदा LLM दृश्य तत्वों पर सटीक नियंत्रण में सीमित क्षमता रखते हैं

मुख्य योगदान

  1. प्रॉम्प्ट चेनिंग और टूल उपयोग पर आधारित समरूप समस्या निर्माण विधि प्रस्तावित की, जो संरचनात्मक परिवर्तनों पर सटीक नियंत्रण और संदर्भ में विविधता प्राप्त करती है
  2. सात-चरण निर्माण प्रक्रिया विकसित की, जो संरचना-संबंधित परिवर्तनों और संरचना-स्वतंत्र परिवर्तनों को व्यवस्थित रूप से अलग करती है
  3. स्वचालित समाधान सत्यापन और आरेख निर्माण लागू किया, Python कोड इंटरप्रेटर के माध्यम से LLM की महत्वपूर्ण सीमाओं को हल किया
  4. दो उदाहरण समस्या संग्रह बनाए और व्यवस्थित तुलना की, विधि की प्रभावशीलता को साबित किया
  5. गुणवत्ता सत्यापन के लिए GenAI का उपयोग करने की व्यवहार्यता प्रदर्शित की, संपूर्ण निर्माण-सत्यापन बंद लूप स्थापित किया

विधि विवरण

कार्य परिभाषा

इनपुट: टेम्पलेट समस्या या समस्या प्रकार आउटपुट: बड़ी संख्या में समरूप भौतिकी समस्याएं, जिनमें समस्या निकाय, समाधान और (वैकल्पिक) आरेख शामिल हैं बाधा शर्तें:

  • समान संज्ञानात्मक कठिनाई और भौतिकी अवधारणा बनाए रखना
  • संरचनात्मक परिवर्तनों (संख्यात्मक, स्थानिक संबंध आदि) पर सटीक नियंत्रण
  • संदर्भ परिवर्तनों में विविधता का समर्थन

मुख्य विधि आर्किटेक्चर

सात-चरण निर्माण प्रक्रिया

  1. टेम्पलेट समस्या की पहचान: टेम्पलेट समस्या या समस्या प्रकार निर्धारित करना
  2. घटक विघटन: समस्या के विभिन्न घटकों की पहचान करना
  3. परिवर्तन परिभाषा: संरचनात्मक परिवर्तन और संदर्भ परिवर्तन और उनकी बाधाओं को परिभाषित करना
  4. प्रॉम्प्ट चेन डिजाइन: विभिन्न घटक परिवर्तनों को उत्पन्न करने के लिए प्रॉम्प्ट चेन डिजाइन करना
  5. निष्पादन अनुकूलन: प्रॉम्प्ट चेन को निष्पादित करना और पुनरावृत्ति सुधार करना
  6. आउटपुट संयोजन: घटकों को संपूर्ण समस्या में संयोजित करना और प्रारूपित करना
  7. गुणवत्ता सत्यापन: GenAI का उपयोग करके उत्पन्न परिणामों की सटीकता सत्यापित करना

मुख्य अवधारणा भेद

संरचनात्मक परिवर्तन (Structural Variations):

  • निर्माण-संबंधित मूल संरचना परिवर्तन
  • उपयोगकर्ता द्वारा परिभाषित सटीक सीमा के भीतर होना चाहिए
  • संख्यात्मक मान, स्थानिक व्यवस्था, वस्तुओं की संख्या आदि शामिल
  • LLM निर्माण और Python इंटरप्रेटर टूल के संयोजन के माध्यम से लागू

संदर्भ परिवर्तन (Contextual Variations):

  • समस्या की सतही विशेषताओं में परिवर्तन
  • कम बाधाएं लेकिन LLM की रचनात्मकता की आवश्यकता
  • छात्र पठन स्तर, भाषा दक्षता, सांस्कृतिक पृष्ठभूमि आदि पर विचार
  • मुख्य रूप से LLM की निर्माण क्षमता के माध्यम से लागू

तकनीकी नवाचार बिंदु

  1. प्रॉम्प्ट चेन तकनीक: जटिल कार्यों को कई उप-कार्यों में विभाजित करना, श्रृंखलाबद्ध प्रॉम्प्ट के माध्यम से निष्पादन, एकल प्रॉम्प्ट की सीमाओं को दूर करना
  2. टूल उपयोग एकीकरण: संख्यात्मक गणना, बाधा जांच और आरेख निर्माण के लिए Python कोड इंटरप्रेटर का उपयोग
  3. परिवर्तन प्रकार पृथक्करण: संरचनात्मक परिवर्तनों और संदर्भ परिवर्तनों को व्यवस्थित रूप से अलग करना और स्वतंत्र रूप से संभालना
  4. डेटा तालिका संचरण: प्रॉम्प्ट चेन में तालिका प्रारूप का उपयोग करके जानकारी संग्रहीत और संचारित करना, विश्वसनीयता में सुधार

प्रायोगिक सेटअप

समस्या संग्रह डिजाइन

समस्या संग्रह 1: संख्यात्मक गणना समस्याएं

  • टेम्पलेट: वस्तु को झुकी हुई सतह पर समान गति से धकेला या खींचा जाता है
  • संरचनात्मक परिवर्तन: बल की दिशा और प्रकृति, चर संख्यात्मक मान, अज्ञात चर चयन
  • बाधा शर्तें: कोण 10-60 डिग्री, बल का क्षैतिज घटक गतिशील घर्षण को संतुलित करता है
  • प्रॉम्प्ट चेन: 5 प्रॉम्प्ट, संदर्भ → संख्यात्मक → समस्या निकाय → समाधान → प्रारूपण उत्पन्न करता है

समस्या संग्रह 2: अवधारणा बहुविकल्पीय प्रश्न (आरेख सहित)

  • टेम्पलेट: प्रक्षेप्य गति प्रक्षेपवक्र तुलना, समान प्रारंभिक बिंदु विभिन्न ऊंचाई और रेंज के साथ
  • संरचनात्मक परिवर्तन: उत्तर संबंध, प्रक्षेपवक्र पैरामीटर, विकर्षक आइटम डिजाइन
  • बाधा शर्तें: कोई दृश्य अतिव्यापन नहीं, संबंध निश्चितता, पर्याप्त दृश्य अंतर
  • प्रॉम्प्ट चेन: 9 प्रॉम्प्ट, अधिक जटिल संरचनात्मक परिवर्तन और आरेख निर्माण को संभालता है

तुलना विधियां

  1. एकल प्रॉम्प्ट विधि: प्रॉम्प्ट चेन को एक या दो प्रॉम्प्ट में मिलाया जाता है
  2. सरल प्रॉम्प्ट विधि: एकल उदाहरण पर आधारित सरलीकृत प्रॉम्प्ट (केवल समस्या संग्रह 1 के लिए)

मूल्यांकन मेट्रिक्स

  1. आउटपुट गुणवत्ता: समस्या पूर्णता, संख्यात्मक सटीकता, प्रारूप सुसंगतता
  2. संरचना नियंत्रण: बाधा शर्तों का पालन स्तर
  3. संदर्भ विविधता: परिदृश्य और विवरण में परिवर्तन की डिग्री
  4. उत्तर सटीकता: GenAI सत्यापन के माध्यम से सटीकता दर

प्रायोगिक परिणाम

मुख्य परिणाम

समस्या संग्रह 1 निर्माण प्रभाव

  • सफल निर्माण: 20 समरूप समस्याएं (10 GPT-4o + 10 Gemini Pro 2.5)
  • गुणवत्ता नियंत्रण: प्रत्येक समस्या में अद्वितीय पृष्ठभूमि कहानी, उपयुक्त यादृच्छिक संख्यात्मक मान, सही उत्तर
  • उदाहरण समस्या: कार्यकर्ता लकड़ी के डिब्बे को धकेलने की समस्या, संपूर्ण भौतिकी पैरामीटर और समाधान सहित

समस्या संग्रह 2 निर्माण प्रभाव

  • व्यवस्थित निर्माण: 26 परिवर्तन (13 संभावित संबंध × 2 मुख्य विकर्षक आइटम)
  • आरेख गुणवत्ता: Python द्वारा स्वचालित रूप से उत्पन्न प्रक्षेपवक्र आरेख, स्पष्ट और पहचानने योग्य
  • समस्या पूर्णता: प्रत्येक समस्या में परिस्थिति विवरण, आरेख और चार विकल्प शामिल

तुलना प्रायोगिक परिणाम

एकल प्रॉम्प्ट बनाम प्रॉम्प्ट चेन

समस्या संग्रह 1:

  • एकल प्रॉम्प्ट दोष: संख्यात्मक निर्माण निर्देशों को पूरी तरह से अनदेखा किया, सभी 10 संस्करणों में कोई संख्यात्मक मान नहीं
  • प्रॉम्प्ट चेन लाभ: सभी बाधा शर्तों का सटीक पालन, संपूर्ण समस्याओं का निर्माण

समस्या संग्रह 2:

  • एकल प्रॉम्प्ट समस्या: प्रक्षेपवक्र जमीन के नीचे, अदृश्य आदि त्रुटियां
  • अपर्याप्त निर्माण संख्या: केवल 7 परिदृश्य और 13 संयोजन, अपेक्षित 10 परिदृश्य और 26 संयोजन नहीं

सरल प्रॉम्प्ट बनाम प्रॉम्प्ट चेन (समस्या संग्रह 1)

  • उत्तर सटीकता: सरल प्रॉम्प्ट द्वारा उत्पन्न उत्तर अधिकांशतः गलत (जैसे 140 kg बनाम सही उत्तर 148.6 kg)
  • टूल उपयोग: सरल प्रॉम्प्ट ने Python टूल को सक्रिय नहीं किया, सीधे उत्तर का भ्रम
  • पाठ गुणवत्ता: सरल प्रॉम्प्ट द्वारा उत्पन्न पाठ स्पष्ट रूप से छोटा, गुणवत्ता में कमी

गुणवत्ता सत्यापन परिणाम

  • समस्या संग्रह 1: GenAI ने 6 सूत्र व्युत्पत्ति त्रुटियों की पहचान और सुधार किया (20 समस्याओं में से)
  • समस्या संग्रह 2: 3 विकर्षक आइटम की पहचान की जो सही उत्तर के समतुल्य हैं
  • छात्र सत्यापन: समस्या संग्रह का उपयोग मध्यावधि परीक्षा में किया गया, छात्रों ने अतिरिक्त त्रुटियों की रिपोर्ट नहीं की

संबंधित कार्य

स्वचालित प्रश्न निर्माण (AQG) विकास

  1. प्रारंभिक विधियां: कठोर टेम्पलेट पर आधारित, विकास में उच्च लागत
  2. LLM अनुप्रयोग: Dijkstra आदि ने GPT-3 को प्रशिक्षित किया बहुविकल्पीय प्रश्न उत्पन्न करने के लिए; Chan आदि ने GPT-3.5/4 का उपयोग STEM समस्याएं उत्पन्न करने के लिए
  3. समरूप समस्याएं: Arendasy और Sommer ने टेम्पलेट के माध्यम से बीजगणित समस्याएं उत्पन्न कीं; Norberg आदि ने GPT-4 का उपयोग गणित समस्या व्याख्याओं को फिर से लिखने के लिए

तकनीकी विधि तुलना

  • पारंपरिक AIG: सटीक नियंत्रण लेकिन रचनात्मकता की कमी
  • सीधा LLM अनुप्रयोग: मजबूत रचनात्मकता लेकिन नियंत्रण कठिन
  • यह पेपर: दोनों के लाभों को संयोजित करता है, सटीक नियंत्रण और रचनात्मकता का संतुलन प्राप्त करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रॉम्प्ट चेन एकल प्रॉम्प्ट से स्पष्ट रूप से बेहतर है: गुणवत्ता सुसंगतता और बाधा पालन में उत्कृष्ट प्रदर्शन
  2. टूल उपयोग महत्वपूर्ण है: Python इंटरप्रेटर संख्यात्मक गणना और आरेख निर्माण की महत्वपूर्ण समस्याओं को हल करता है
  3. GenAI गुणवत्ता सत्यापन प्रभावी है: निर्माण प्रक्रिया में त्रुटियों की पहचान और सुधार कर सकता है
  4. विधि स्केलेबल है: लगभग असीमित संख्या में समरूप समस्याएं उत्पन्न कर सकता है

सीमाएं

  1. गुणवत्ता मूल्यांकन एकल: केवल लेखक द्वारा मूल्यांकित, व्यवस्थित गुणवत्ता समीक्षा की कमी
  2. मनोमितीय विशेषताएं अज्ञात: समरूप समस्याओं की मनोमितीय विशेषताओं का मूल्यांकन करने के लिए छात्र परीक्षण डेटा की कमी
  3. संदर्भ नियंत्रण सीमित: मुख्य रूप से संरचनात्मक परिवर्तनों पर ध्यान केंद्रित, संदर्भ परिवर्तनों पर कम नियंत्रण
  4. आरेख जटिलता सीमा: केवल सरल आरेख निर्माण का समर्थन करता है

भविष्य की दिशाएं

  1. व्यवस्थित गुणवत्ता मूल्यांकन: अधिक व्यापक गुणवत्ता समीक्षा और छात्र परीक्षण करना
  2. संदर्भ सूक्ष्म नियंत्रण: विभिन्न लेखन शैलियों आदि संदर्भ परिवर्तनों के नियंत्रण की खोज
  3. जटिल आरेख निर्माण: अधिक जटिल आरेख प्रकारों तक विस्तार
  4. स्वचालित प्रॉम्प्ट चेन डिजाइन: प्रॉम्प्ट चेन डिजाइन में सहायता के लिए GenAI का उपयोग
  5. वास्तविक समय निर्माण प्रणाली: पूर्ण व्यक्तिगत मूल्यांकन के लिए तत्काल समस्या निर्माण लागू करना

गहन मूल्यांकन

शक्तियां

  1. विधि नवाचार मजबूत है: पहली बार समरूप समस्या निर्माण के लिए प्रॉम्प्ट चेन और टूल उपयोग को व्यवस्थित रूप से संयोजित किया
  2. व्यावहारिक मूल्य उच्च है: सामान्य शिक्षकों को कुशल प्रश्न निर्माण के लिए सुलभ विधि प्रदान करता है
  3. प्रायोगिक डिजाइन पूर्ण है: दो विभिन्न प्रकार की समस्याओं ने विधि की सामान्यता को सत्यापित किया
  4. तकनीकी कार्यान्वयन विस्तृत है: संपूर्ण प्रॉम्प्ट चेन और कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादनीयता मजबूत है
  5. गुणवत्ता नियंत्रण संपूर्ण है: निर्माण-सत्यापन का संपूर्ण बंद लूप स्थापित करता है

कमियां

  1. मूल्यांकन सीमा सीमित है: केवल भौतिकी विषय के दो प्रकार की समस्याओं पर सत्यापित
  2. पैमाना अपेक्षाकृत छोटा है: उत्पन्न समस्याओं की संख्या सीमित है (20+26)
  3. लागत विश्लेषण अनुपस्थित है: पारंपरिक विधियों के साथ लागत-लाभ तुलना प्रदान नहीं करता
  4. उपयोगकर्ता अनुसंधान अपर्याप्त है: शिक्षकों और छात्रों के उपयोग अनुभव अनुसंधान की कमी

प्रभाव

  1. क्षेत्र योगदान: शिक्षा प्रौद्योगिकी क्षेत्र को समस्या निर्माण का नया प्रतिमान प्रदान करता है
  2. व्यावहारिक मूल्य: व्यक्तिगत शिक्षा और अनुकूली परीक्षण में सीधे अनुप्रयोग
  3. तकनीकी प्रदर्शन: शिक्षा अनुप्रयोगों में LLM की सटीक नियंत्रण संभावना प्रदर्शित करता है
  4. विधि सामान्यीकरणीय: तकनीकी ढांचा अन्य विषयों और समस्या प्रकारों तक विस्तारित हो सकता है

लागू परिदृश्य

  1. व्यक्तिगत शिक्षा मंच: छात्रों को असीमित अभ्यास प्रश्न प्रदान करता है
  2. अनुकूली परीक्षण प्रणाली: कठिनाई के समान वैकल्पिक प्रश्न उत्पन्न करता है
  3. शिक्षक सहायता उपकरण: शिक्षकों को उच्च गुणवत्ता की समस्या संग्रह तेजी से बनाने में मदद करता है
  4. ऑनलाइन शिक्षा मंच: बड़े पैमाने पर व्यक्तिगत सामग्री निर्माण का समर्थन करता है

संदर्भ

पेपर 14 संबंधित संदर्भों का हवाला देता है, जिसमें स्वचालित प्रश्न निर्माण, समरूप समस्या निर्माण, LLM अनुप्रयोग आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए दृढ़ सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह शिक्षा प्रौद्योगिकी और AI अनुप्रयोग के अंतरविषय क्षेत्र में एक उच्च गुणवत्ता वाला अनुप्रयोग अनुसंधान पेपर है जो महत्वपूर्ण योगदान देता है। विधि नवीन और व्यावहारिक है, प्रायोगिक डिजाइन उचित है, परिणाम विश्वसनीय हैं। हालांकि मूल्यांकन पैमाने और विषय कवरेज में सुधार की गुंजाइश है, लेकिन यह क्षेत्र के विकास के लिए महत्वपूर्ण दिशा निर्दिष्ट करता है।