Order Matters: Rethinking Prompt Construction in In-Context Learning
Li, Wang, Wang et al.
In-context learning (ICL) enables large language models to perform new tasks by conditioning on a sequence of examples. Most prior work reasonably and intuitively assumes that which examples are chosen has a far greater effect on performance than how those examples are ordered, leading to a focus on example selection. We revisit this assumption and conduct a systematic comparison between the effect of selection and ordering. Through controlled experiments on both classification and generation tasks, using multiple open-source model families (0.5B to 27B parameters) and GPT-5, we find that the variance in performance due to different example orderings is comparable to that from using entirely different example sets. Furthermore, we show that strong orderings can be identified using only a development set, achieving performance close to an oracle that selects the best ordering based on test labels. Our findings highlight the equal and intertwined importance of example selection and ordering in prompt design, calling for a reexamination of the assumptions held in ICL.
academic
क्रम महत्वपूर्ण है: इन-कॉन्टेक्स्ट लर्निंग में प्रॉम्प्ट निर्माण पर पुनर्विचार
यह पेपर इन-कॉन्टेक्स्ट लर्निंग (ICL) क्षेत्र की एक मौलिक मान्यता को चुनौती देता है: उदाहरण चयन उदाहरण क्रम से अधिक महत्वपूर्ण है। वर्गीकरण और पीढ़ी कार्यों पर व्यवस्थित प्रयोगों के माध्यम से, लेखकों ने पाया कि उदाहरण क्रम द्वारा उत्पन्न प्रदर्शन में उतार-चढ़ाव उदाहरण सेट को पूरी तरह से बदलने के प्रभाव के बराबर है। अनुसंधान 0.5B से 27B पैरामीटर तक कई ओपन-सोर्स मॉडल परिवारों और GPT-5 को कवर करता है। इसके अतिरिक्त, अनुसंधान से पता चलता है कि केवल विकास सेट का उपयोग करके oracle प्रदर्शन के करीब मजबूत क्रम की पहचान की जा सकती है। ये निष्कर्ष ICL में प्रॉम्प्ट निर्माण रणनीतियों पर पुनर्विचार का आह्वान करते हैं, जो उदाहरण चयन और क्रम की समान महत्ता पर जोर देते हैं।
इन-कॉन्टेक्स्ट लर्निंग में, बड़े भाषा मॉडल कुछ उदाहरणों पर शर्त लगाकर नए कार्यों को निष्पादित करते हैं, बिना ग्रेडिएंट अपडेट या कार्य-विशिष्ट सूक्ष्म-ट्यूनिंग के। जबकि ICL प्रदर्शन उदाहरणों के प्रति संवेदनशील है, मौजूदा अनुसंधान व्यापक रूप से मानता है कि उदाहरण चयन उदाहरण क्रम से अधिक महत्वपूर्ण है, जिससे अनुसंधान फोकस उदाहरण चयन पर केंद्रित है।
व्यावहारिक महत्व: यदि क्रम चयन के बराबर महत्वपूर्ण है, तो वर्तमान में केवल उदाहरण चयन पर ध्यान केंद्रित करने वाली अनुसंधान प्रतिमान प्रदर्शन सुधार के एक महत्वपूर्ण आयाम को याद कर सकता है
सैद्धांतिक महत्व: क्रम संवेदनशीलता को समझना LLM के संदर्भ प्रसंस्करण तंत्र को उजागर करने में सहायता करता है
अनुप्रयोग मूल्य: क्रम को अनुकूलित करना शून्य लागत पर मॉडल प्रदर्शन में सुधार कर सकता है
लेखकों ने नियंत्रित प्रयोग डिजाइन के माध्यम से, चयन और क्रम को स्वतंत्र रूप से भिन्न करके, दोनों के सापेक्ष प्रभाव को व्यवस्थित रूप से मापा, क्षेत्र में पारंपरिक ज्ञान को चुनौती दी।
मात्रात्मक प्रमाण: नियंत्रित प्रयोगों के माध्यम से साबित करता है कि उदाहरण क्रम का प्रदर्शन प्रभाव उदाहरण चयन के बराबर है, क्रम संवेदनशीलता औसत मानक विचलन 0.01970 है, चयन संवेदनशीलता 0.02251 है (केवल 14% अधिक)
व्यावहारिक विधि: विकास सेट-आधारित क्रम पहचान विधि प्रस्तावित करता है, केवल 64-128 उम्मीदवार क्रमपरिवर्तन का मूल्यांकन करके oracle प्रदर्शन के करीब प्रदर्शन को पुनः प्राप्त करता है (वर्गीकरण कार्यों के लिए 99%, पीढ़ी कार्यों के लिए 95%)
व्यवस्थित विश्लेषण: 8 डेटासेट, 14 मॉडल (0.5B-27B पैरामीटर) और दो कार्य प्रकारों (वर्गीकरण/पीढ़ी) में व्यापक मूल्यांकन
महत्वपूर्ण निष्कर्ष:
क्रम प्रभाव मॉडल आकार के साथ एकरूप रूप से भिन्न नहीं होता है
पीढ़ी कार्य चयन के प्रति अधिक संवेदनशील हैं (r=1.46), वर्गीकरण कार्य लगभग समान हैं (r=1.09)
इष्टतम क्रम डेटासेट पर अत्यधिक निर्भर है, डेटासेट के बीच स्थानांतरण प्रदर्शन खराब है
इनपुट: उदाहरण सेट Sᵢ, विकास सेट Ddev, परीक्षण सेट Dtest, क्रमपरिवर्तन संख्या P=128
प्रत्येक उदाहरण सेट Sᵢ के लिए (M=10 बार दोहराएं):
1. P यादृच्छिक क्रमपरिवर्तन {πⱼ} उत्पन्न करें
2. विकास सेट पर प्रत्येक क्रमपरिवर्तन का मूल्यांकन करें: aⱼ = Acc(Sᵢ, πⱼ | Ddev)
3. इष्टतम क्रमपरिवर्तन चुनें: π* = argmax aⱼ
4. परीक्षण सेट पर मूल्यांकन करें: a* = Acc(Sᵢ, π* | Dtest)
5. oracle प्रदर्शन रिकॉर्ड करें: amax = max Acc(Sᵢ, πⱼ | Dtest)
रिटर्न: {a*, amax}
प्रयोग डिजाइन नवाचार: डिफ़ॉल्ट क्रम परिभाषा के माध्यम से, पहली बार चयन और क्रम प्रभाव का पूर्ण विघटन प्राप्त करें
माप विधि: समूहीकृत मानक विचलन (grouped standard deviation) को एकीकृत संवेदनशीलता माप के रूप में प्रस्तावित करें, दोनों कारकों की निष्पक्ष तुलना कर सकते हैं
व्यावहारिकता संतुलन: विधि को oracle परीक्षण लेबल तक पहुंच की आवश्यकता नहीं है, केवल छोटे विकास सेट (250 नमूने) की आवश्यकता है
व्यवस्थित मूल्यांकन: पहली बार कई मॉडल, कई कार्य, कई पैमानों में क्रम बनाम चयन की व्यापक तुलना अनुसंधान
Zhao et al. (2021): पहली बार व्यवस्थित रूप से साबित करता है कि GPT-3 उदाहरण क्रम के प्रति अत्यधिक संवेदनशील है, सटीकता दसियों प्रतिशत बिंदु तक उतार-चढ़ाव कर सकती है, जिसे मॉडल की प्रारंभिक संदर्भ पर अत्यधिक निर्भरता के लिए जिम्मेदार ठहराया जाता है
Lu et al. (2022): साबित करता है कि इष्टतम क्रम SOTA के करीब प्रदर्शन प्राप्त कर सकता है, जबकि खराब क्रम सटीकता को यादृच्छिक स्तर तक गिरा देता है
इस पेपर का योगदान: पहली बार क्रम और चयन के सापेक्ष प्रभाव की मात्रात्मक तुलना करता है, केवल क्रम की उपस्थिति का अवलोकन नहीं करता है
अनुमानी विधि: विकास सेट पर क्रमपरिवर्तन नमूनाकरण (Zhao et al., 2021; Zhang et al., 2022)
अनुकूली विधि: परीक्षण क्वेरी के आधार पर गतिशील पुनः क्रमबद्धता (Guo et al., 2024)
सुदृढ़ शिक्षण: RL-आधारित खोज (Bhope et al., 2023)
इस पेपर का योगदान: सरल लेकिन प्रभावी विकास सेट चयन विधि प्रस्तावित करता है, साबित करता है कि जटिल एल्गोरिदम के बिना इष्टतम क्रम के करीब प्राप्त किया जा सकता है
उदाहरण संख्या: k मान 2|C| या 8 पर निश्चित है, विभिन्न शॉट संख्या के प्रभाव का व्यवस्थित अनुसंधान नहीं किया गया है
डिफ़ॉल्ट क्रम परिभाषा: वर्णानुक्रम की पसंद तर्कसंगत है, लेकिन छोटी विसंगति पेश कर सकती है
कम्प्यूटेशनल लागत: 128 क्रमपरिवर्तन × 10 उदाहरण सेट का मूल्यांकन अभी भी काफी कम्प्यूटेशनल संसाधन की आवश्यकता है, व्यावहारिक अनुप्रयोग में संतुलन की आवश्यकता हो सकती है
सैद्धांतिक व्याख्या अपर्याप्त: क्रम इतना महत्वपूर्ण क्यों है इसके गहरे तंत्र की कमी
यह एक उच्च गुणवत्ता, उच्च प्रभाव अनुसंधान कार्य है, जिसका मुख्य मूल्य इसमें निहित है:
क्षेत्र की मौलिक मान्यता को चुनौती देता है: कठोर प्रयोगों के साथ साबित करता है कि क्रम और चयन समान रूप से महत्वपूर्ण हैं
व्यावहारिक समाधान प्रदान करता है: सरल और प्रभावी विकास सेट चयन विधि
व्यवस्थित शक्तिशाली: मॉडल, कार्य, पैमाने के बीच व्यापक मूल्यांकन
प्रेरणादायक शक्तिशाली: अनुवर्ती अनुसंधान के लिए कई महत्वपूर्ण दिशाएं इंगित करता है
मुख्य कमियां सैद्धांतिक व्याख्या की कमी और सीमित स्थानांतरण अनुसंधान में हैं, लेकिन ये कमियां ICL क्षेत्र में महत्वपूर्ण योगदान के रूप में इसकी स्थिति को प्रभावित नहीं करती हैं।
अनुशंसित पाठक: ICL, प्रॉम्प्ट इंजीनियरिंग और LLM अनुप्रयोग में काम करने वाले सभी शोधकर्ता और इंजीनियर।