2025-11-13T00:07:10.698624

Predicting Task Performance with Context-aware Scaling Laws

Montgomery, Park, Tu et al.

Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.

academic

संदर्भ-जागरूक स्केलिंग कानूनों के साथ कार्य प्रदर्शन की भविष्यवाणी

बुनियादी जानकारी

पेपर ID: 2510.14919
शीर्षक: संदर्भ-जागरूक स्केलिंग कानूनों के साथ कार्य प्रदर्शन की भविष्यवाणी
लेखक: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
वर्गीकरण: cs.CL cs.AI cs.LG
प्रकाशन समय: 16 अक्टूबर 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.14919
कोड लिंक: https://github.com/wang-research-lab/context-scaling

सारांश

पारंपरिक तंत्रिका नेटवर्क स्केलिंग कानूनों ने अपस्ट्रीम मेट्रिक्स (जैसे क्रॉस-एंट्रॉपी हानि) को डिज़ाइन कारकों (जैसे मॉडल आकार, प्रशिक्षण डेटा और कम्प्यूटेशनल संसाधन) से जोड़कर बड़े भाषा मॉडल की हमारी समझ को रूपांतरित किया है। हालांकि, ये पारंपरिक कानून डाउनस्ट्रीम कार्य प्रदर्शन को पकड़ नहीं सकते, जहां संदर्भ महत्वपूर्ण भूमिका निभाता है। यह पेपर एक सहज और व्याख्यायोग्य ढांचा प्रस्तावित करता है जो डाउनस्ट्रीम प्रदर्शन को प्रशिक्षण कम्प्यूटेशनल संसाधन और प्रदान किए गए संदर्भ के संयुक्त कार्य के रूप में मॉडल करता है। लेखकों ने Llama-2-7B और Llama-2-13B के विस्तारित संदर्भ वेरिएंट पर इस ढांचे को फिट करके, तीन कार्यों में 65,500 अद्वितीय उदाहरणों पर अनुभवजन्य सत्यापन किया: अंकगणितीय तर्क, सामान्य ज्ञान तर्क और मशीन अनुवाद। परिणाम दर्शाते हैं कि यह ढांचा वितरण-के-भीतर डाउनस्ट्रीम प्रदर्शन को सटीकता से मॉडल करता है, प्रशिक्षण कम्प्यूटेशनल संसाधन के तीन परिमाण पर सामान्यीकरण क्षमता रखता है, और संदर्भ मात्रा में वृद्धि के समय प्रदर्शन को विश्वसनीय रूप से एक्सट्रापोलेट कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक तंत्रिका नेटवर्क स्केलिंग कानून मुख्य रूप से अपस्ट्रीम मेट्रिक्स (जैसे क्रॉस-एंट्रॉपी हानि) पर ध्यान केंद्रित करते हैं, लेकिन व्यावहारिक अनुप्रयोगों में, डाउनस्ट्रीम कार्य प्रदर्शन अक्सर इन अपस्ट्रीम प्रवृत्तियों से विचलित होता है। डाउनस्ट्रीम प्रदर्शन की भविष्यवाणी करने के लिए मौजूदा कार्य आमतौर पर बहुत जटिल, कम व्याख्यायोग्य तरीकों पर निर्भर करते हैं।

अनुसंधान का महत्व

व्यावहारिक आवश्यकता: सटीक डाउनस्ट्रीम प्रदर्शन अनुमान मॉडल विकास को निर्देशित कर सकता है, कुछ कार्यों पर उद्भव या संतृप्ति घटनाओं को कम महंगे प्रयोगों के साथ पहचान सकता है
सैद्धांतिक अंतराल: मौजूदा स्केलिंग कानून डाउनस्ट्रीम कार्यों में संदर्भ लंबाई के महत्वपूर्ण कारक को नजरअंदाज करते हैं
डिज़ाइन मार्गदर्शन: कम्प्यूटेशनल संसाधन और संदर्भ उपयोग के बीच परस्पर क्रिया को समझना दक्ष लंबे संदर्भ LLM डिज़ाइन के लिए महत्वपूर्ण है

मौजूदा विधियों की सीमाएं

Chen et al. (2024): दो-चरणीय विधि का उपयोग करते हैं, अपस्ट्रीम हानि को मध्यस्थ के रूप में, बहुत जटिल
Ye et al. (2023): BIG-Bench प्रदर्शन की भविष्यवाणी के लिए बहु-परत परसेप्ट्रॉन का उपयोग करते हैं, व्याख्यायोग्यता की कमी
पारंपरिक स्केलिंग कानून: संदर्भ लंबाई के प्रभाव को पूरी तरह से नजरअंदाज करते हैं

मुख्य योगदान

संदर्भ-जागरूक स्केलिंग कानून ढांचा प्रस्तावित किया: पारंपरिक तंत्रिका स्केलिंग कानून को डाउनस्ट्रीम कार्यों तक विस्तारित किया, संदर्भ लंबाई और संदर्भ सीमाओं को संयोजित करके अधिक सटीक LLM प्रदर्शन मॉडलिंग प्रदान करता है
बड़े पैमाने पर अनुभवजन्य सत्यापन: Llama-2 मॉडल के विस्तारित संदर्भ विंडो पर 3 कार्यों में फिटिंग, स्केलिंग कानून की सार्वभौमिकता को 3 परिमाण प्रशिक्षण कम्प्यूटेशनल संसाधन, 4 परिमाण संदर्भ लंबाई, और विभिन्न संदर्भ विस्तार तकनीकों पर साबित करता है
व्याख्यायोग्य सैद्धांतिक उपकरण: कम्प्यूटेशनल संसाधन, संदर्भ और डाउनस्ट्रीम प्रदर्शन के बीच परस्पर क्रिया को समझने के लिए एक व्याख्यायोग्य ढांचा प्रदान करता है, भविष्य के लंबे संदर्भ LLM डिज़ाइन के लिए मार्गदर्शन प्रदान करता है

विधि विवरण

कार्य परिभाषा

डाउनस्ट्रीम कार्य प्रदर्शन P को प्रशिक्षण कम्प्यूटेशनल संसाधन C, इनपुट संदर्भ लंबाई n_pmt और मॉडल संदर्भ सीमा n_ctx के कार्य के रूप में भविष्यवाणी करना।

मॉडल आर्किटेक्चर

मुख्य सूत्र है:

P(C, n_pmt, n_ctx) = [1 - exp(-A(C/C_c)^α)] × [1 - exp(-B(n_pmt/n_c_pmt)^β)] × σ(n_pmt - n_ctx)

जहां:

पहला पद: प्रशिक्षण कम्प्यूटेशनल संसाधन C का संतृप्ति शक्ति कानून पद, पैरामीटर A, C_c, α के साथ
दूसरा पद: संदर्भ लंबाई n_pmt का संतृप्ति शक्ति कानून पद, पैरामीटर B, n_c_pmt, β के साथ
तीसरा पद: सिग्मॉइड दंड पद, जब n_pmt > n_ctx हो तो प्रदर्शन में गिरावट

डिज़ाइन सिद्धांत

गुणनात्मक रूप: कम्प्यूटेशनल संसाधन और संदर्भ पूरक हैं, योगात्मक नहीं, एक आयाम में महत्वपूर्ण कमी दूसरे आयाम से लाभ को सीमित करती है
संतृप्ति शक्ति कानून: घातांक के माध्यम से यह सुनिश्चित करता है कि भविष्यवाणी प्रदर्शन सैद्धांतिक अधिकतम 1.0 से नीचे रहता है
दंड तंत्र: जब संदर्भ मॉडल सीमा से अधिक हो जाता है, तो उत्पन्न टोकन मॉडल द्वारा विश्वसनीय रूप से भविष्यवाणी नहीं किए जा सकने वाली श्रेणी में गिरते हैं, जिससे प्रदर्शन में तीव्र गिरावट होती है

तकनीकी नवाचार

संयुक्त मॉडलिंग: पहली बार प्रशिक्षण कम्प्यूटेशनल संसाधन और संदर्भ लंबाई को एकीकृत रूप से मॉडल करना
व्याख्यायोग्यता: मौजूदा जटिल विधियों की तुलना में, सहज कार्य रूप प्रदान करना
सीमा प्रबंधन: सिग्मॉइड पद के माध्यम से संदर्भ सीमा सीमा शर्तों को प्रभावी ढंग से संभालना

प्रयोगात्मक सेटअप

डेटासेट

65,500 उदाहरणों पर 12 मॉडल (तालिका 1) का मूल्यांकन किया गया, 3 कार्यों को कवर करते हुए:

अंकगणितीय तर्क: 3,550 परीक्षण उदाहरण
- GSM8K, MATH, AQUA-RAT, DeepMind Math
- संदर्भ पैडिंग अधिकतम 511 प्रदर्शन
सामान्य ज्ञान तर्क: 1,750 परीक्षण उदाहरण
- PIQA, SIQA, OpenBookQA, HellaSwag, WinoGrande, ARC-Easy/Challenge, CommonSenseQA
- संदर्भ पैडिंग अधिकतम 511 प्रदर्शन
मशीन अनुवाद: 1,250 उदाहरण
- WMT-14 (जर्मन, फ्रेंच, हिंदी, चेक, रूसी → अंग्रेजी)
- BLEU-4 स्कोरिंग का उपयोग

मॉडल कॉन्फ़िगरेशन

Llama-2-7B और Llama-2-13B पर आधारित, YaRN तकनीक का उपयोग करके संदर्भ विंडो को 8k, 16k, 32k, 64k, 128k टोकन तक विस्तारित किया गया।

मूल्यांकन मेट्रिक्स

अंकगणितीय तर्क और सामान्य ज्ञान तर्क: सटीकता
मशीन अनुवाद: BLEU-4 स्कोर
भविष्यवाणी त्रुटि: औसत निरपेक्ष भविष्यवाणी त्रुटि |P - P̂|

फिटिंग प्रक्रिया

दो-चरणीय अनुकूलन का उपयोग किया गया:

वैश्विक खोज: SciPy के differential_evolution का उपयोग करना
स्थानीय अनुकूलन: सटीक फिटिंग के लिए curve_fit का उपयोग करना

प्रयोगात्मक परिणाम

मुख्य परिणाम

तीन कार्यों पर उत्कृष्ट फिटिंग प्रभाव प्राप्त किए गए:

अंकगणितीय तर्क: औसत भविष्यवाणी त्रुटि 0.010
सामान्य ज्ञान तर्क: औसत भविष्यवाणी त्रुटि 0.037
मशीन अनुवाद: औसत भविष्यवाणी त्रुटि 0.007

सामान्यीकरण क्षमता सत्यापन

1. प्रशिक्षण कम्प्यूटेशनल संसाधन सामान्यीकरण (4.1 अनुभाग)

5 परीक्षण मॉडल पर सत्यापित, 3 परिमाण कम्प्यूटेशनल संसाधन में फैला हुआ:

Qwen2.5-0.5B से Llama-2-70B तक
अधिकांश भविष्यवाणी त्रुटि 5 बिंदु के भीतर
अंकगणितीय तर्क और मशीन अनुवाद पर बेहतर सामान्यीकरण

2. संदर्भ लंबाई सामान्यीकरण (4.2 अनुभाग)

10,000 टोकन से अधिक के अवलोकन को सत्यापन के लिए रखा गया:

अंकगणितीय तर्क: भविष्यवाणी त्रुटि 0.017
सामान्य ज्ञान तर्क: भविष्यवाणी त्रुटि 0.067
मशीन अनुवाद: भविष्यवाणी त्रुटि 0.006

3. संदर्भ विस्तार तकनीक सामान्यीकरण (4.3 अनुभाग)

YaRN और स्थिति प्रक्षेप तकनीकों की तुलना, समान भविष्यवाणी त्रुटि, यह दर्शाता है कि विधि संदर्भ विस्तार तकनीकों के प्रति असंवेदनशील है।

विलोपन प्रयोग

सिग्मॉइड दंड पद की महत्ता को सत्यापित किया:

दंड पद के साथ: भविष्यवाणी त्रुटि 0.010
दंड पद के बिना: भविष्यवाणी त्रुटि 0.029

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

डाउनस्ट्रीम प्रदर्शन को प्रशिक्षण कम्प्यूटेशनल संसाधन और संदर्भ के संयुक्त कार्य के रूप में सटीकता से मॉडल किया जा सकता है
ढांचा कम्प्यूटेशनल संसाधन और संदर्भ लंबाई की बड़ी श्रेणी पर अच्छी सामान्यीकरण क्षमता रखता है
प्रदर्शन बढ़े हुए कम्प्यूटेशनल संसाधन और संबंधित संदर्भ से लाभान्वित होता है, लेकिन संतृप्ति बिंदु मौजूद हैं

सीमाएं

मान्यताएं: प्रशिक्षण कम्प्यूटेशनल संसाधन और संदर्भ के साथ प्रदर्शन स्केलिंग की मान्यता पर निर्भर करता है, चरम स्केलिंग स्थितियों में विफल हो सकता है
अविचारित कारक: प्रशिक्षण डेटा मिश्रण, पश्च-प्रशिक्षण संरेखण, आर्किटेक्चर चयन आदि कारकों को स्पष्ट रूप से नहीं माना गया
कम्प्यूटेशनल संसाधन श्रेणी: फिटिंग की गई कम्प्यूटेशनल संसाधन श्रेणी अपेक्षाकृत संकीर्ण है, इस श्रेणी से परे सामान्यीकरण क्षमता अज्ञात है

भविष्य की दिशाएं

अन्य कारकों (जैसे निर्देश ट्यूनिंग, संरेखण) का अनुमानित पैरामीटर पर प्रभाव अनुसंधान करना
प्रशिक्षण कम्प्यूटेशनल संसाधन की बड़ी श्रेणी तक विस्तार करना
विरोधी हमले परिदृश्यों में प्रयोज्यता की खोज करना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक नवाचार: पहली बार संदर्भ लंबाई को स्केलिंग कानून में शामिल करना, महत्वपूर्ण सैद्धांतिक अंतराल को भरना
व्यावहारिक मूल्य: लंबे संदर्भ LLM डिज़ाइन को निर्देशित करने के लिए व्याख्यायोग्य ढांचा प्रदान करना
पर्याप्त प्रयोग: 65,500 उदाहरणों का बड़े पैमाने पर सत्यापन, कई कार्यों और मॉडल में फैला हुआ
मजबूत सामान्यीकरण क्षमता: कई आयामों पर अच्छी सामान्यीकरण प्रदर्शन
सरल विधि: मौजूदा जटिल विधियों की तुलना में, सहज व्याख्यायोग्य कार्य रूप प्रदान करना

कमियां

मॉडल सीमाएं: केवल Llama-2 श्रृंखला मॉडल पर सत्यापित, व्यापक मॉडल परिवार सत्यापन की कमी
कार्य कवरेज: केवल 3 कार्य प्रकार शामिल, अन्य NLP कार्यों पर प्रयोज्यता अज्ञात
सैद्धांतिक आधार: विशिष्ट कार्य रूप क्यों अपनाया गया इसके गहरे सैद्धांतिक व्याख्या की कमी
पैरामीटर व्याख्या: विभिन्न पैरामीटर के भौतिक अर्थ और पारस्परिक संबंधों का विश्लेषण अपर्याप्त

प्रभाव

शैक्षणिक मूल्य: स्केलिंग कानून अनुसंधान के लिए नई दिशा खोलता है, व्यापक ध्यान आकर्षित करने की अपेक्षा
व्यावहारिक मार्गदर्शन: औद्योगिक क्षेत्र को लंबे संदर्भ मॉडल डिज़ाइन के लिए मात्रात्मक उपकरण प्रदान करता है
पुनरुत्पादनीयता: पूर्ण कोड और विस्तृत प्रयोगात्मक सेटअप प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

प्रयोज्य परिदृश्य

मॉडल डिज़ाइन: लंबे संदर्भ LLM के कम्प्यूटेशनल संसाधन आवंटन को निर्देशित करना
प्रदर्शन भविष्यवाणी: महंगे बड़े पैमाने पर प्रशिक्षण से पहले मॉडल प्रदर्शन का अनुमान लगाना
कार्य विश्लेषण: विभिन्न कार्यों की संदर्भ लंबाई के प्रति संवेदनशीलता को समझना
संसाधन अनुकूलन: दिए गए कम्प्यूटेशनल बजट के तहत संदर्भ विंडो आकार को अनुकूलित करना

संदर्भ

Kaplan, J., et al. (2020). तंत्रिका भाषा मॉडल के लिए स्केलिंग कानून। arXiv:2001.08361.
Chen, Y., et al. (2024). LLM में डाउनस्ट्रीम प्रदर्शन की भविष्यवाणी के लिए स्केलिंग कानून। arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: बड़े भाषा मॉडल की कुशल संदर्भ विंडो विस्तार। ICLR.
Wei, J., et al. (2022). बड़े भाषा मॉडल की उद्भव क्षमताएं। TMLR.
Touvron, H., et al. (2023). Llama 2: खुले आधार और सूक्ष्म-समायोजित चैट मॉडल। arXiv:2307.09288.

यह पेपर स्केलिंग कानून अनुसंधान क्षेत्र में महत्वपूर्ण योगदान देता है, पहली बार संदर्भ लंबाई को डाउनस्ट्रीम कार्य प्रदर्शन भविष्यवाणी में व्यवस्थित रूप से शामिल करता है, लंबे संदर्भ LLM के डिज़ाइन और अनुकूलन के लिए मूल्यवान सैद्धांतिक उपकरण और व्यावहारिक मार्गदर्शन प्रदान करता है।