2025-11-13T00:07:10.698624

Predicting Task Performance with Context-aware Scaling Laws

Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic

Predire le Prestazioni dei Compiti con Leggi di Scaling Consapevoli del Contesto

Informazioni Fondamentali

Riassunto

Le tradizionali leggi di scaling delle reti neurali hanno rivoluzionato la nostra comprensione dei grandi modelli linguistici collegando metriche upstream (come la perdita di entropia incrociata) a fattori di progettazione (come la dimensione del modello, i dati di addestramento e la potenza di calcolo). Tuttavia, queste leggi tradizionali non riescono a catturare le prestazioni dei compiti downstream, dove il contesto gioca un ruolo cruciale. Questo articolo propone un framework intuitivo e interpretabile che modella le prestazioni downstream come funzione congiunta della potenza di calcolo di addestramento e del contesto fornito. Gli autori hanno verificato empiricamente il framework adattandolo a varianti di contesto esteso di Llama-2-7B e Llama-2-13B, su 65.500 istanze uniche che coprono tre compiti: ragionamento aritmetico, ragionamento di senso comune e traduzione automatica. I risultati dimostrano che il framework modella accuratamente le prestazioni downstream in-distribution, generalizza su tre ordini di grandezza della potenza di calcolo di addestramento e può estrapolate in modo affidabile le prestazioni quando aumenta la quantità di contesto.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le tradizionali leggi di scaling delle reti neurali si concentrano principalmente su metriche upstream (come la perdita di entropia incrociata), ma nelle applicazioni pratiche le prestazioni dei compiti downstream spesso divergono da questi trend upstream. I lavori esistenti per predire le prestazioni downstream tipicamente si affidano a metodi eccessivamente complessi con scarsa interpretabilità.

Importanza della Ricerca

  1. Necessità Pratica: Stime accurate delle prestazioni downstream possono guidare lo sviluppo dei modelli, identificando fenomeni di emergenza o saturazione su determinati compiti con meno esperimenti costosi
  2. Lacuna Teorica: Le leggi di scaling esistenti trascurano la lunghezza del contesto, un fattore cruciale nel ruolo che gioca nei compiti downstream
  3. Guida alla Progettazione: Comprendere l'interazione tra potenza di calcolo e utilizzo del contesto è essenziale per progettare LLM efficienti con contesto lungo

Limitazioni dei Metodi Esistenti

  1. Chen et al. (2024): Utilizza un approccio a due fasi con la perdita upstream come intermediaria, eccessivamente complesso
  2. Ye et al. (2023): Utilizza reti neurali multistrato per predire le prestazioni di BIG-Bench, mancante di interpretabilità
  3. Leggi di Scaling Tradizionali: Ignorano completamente l'effetto della lunghezza del contesto

Contributi Principali

  1. Propone un framework di leggi di scaling consapevoli del contesto: Estende le tradizionali leggi di scaling neurale ai compiti downstream, combinando la lunghezza del contesto e i vincoli del contesto per una modellazione più accurata delle prestazioni degli LLM
  2. Verifica Empirica su Larga Scala: Adattamento su finestre di contesto esteso dei modelli Llama-2 attraverso 3 compiti, dimostrando l'universalità della legge di scaling su tre ordini di grandezza della potenza di calcolo di addestramento, quattro ordini di grandezza della lunghezza del contesto e diverse tecniche di estensione del contesto
  3. Strumento Teorico Interpretabile: Fornisce un framework interpretabile per comprendere l'interazione tra potenza di calcolo, contesto e prestazioni downstream, offrendo orientamenti per la progettazione futura di LLM con contesto lungo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Predire le prestazioni del compito downstream P come funzione della potenza di calcolo di addestramento C, della lunghezza del contesto di input n_pmt e del vincolo di contesto del modello n_ctx.

Architettura del Modello

La formula principale è:

P(C, n_pmt, n_ctx) = [1 - exp(-A(C/C_c)^α)] × [1 - exp(-B(n_pmt/n_c_pmt)^β)] × σ(n_pmt - n_ctx)

Dove:

  • Primo termine: Termine di legge di potenza saturo della potenza di calcolo di addestramento C, con parametri A, C_c, α
  • Secondo termine: Termine di legge di potenza saturo della lunghezza del contesto n_pmt, con parametri B, n_c_pmt, β
  • Terzo termine: Termine di penalità sigmoidale, le prestazioni diminuiscono quando n_pmt > n_ctx

Principi di Progettazione

  1. Forma Moltiplicativa: La potenza di calcolo e il contesto sono complementari piuttosto che additivi; una carenza significativa in una dimensione limita i benefici ottenibili dall'altra dimensione
  2. Legge di Potenza Saturo: L'esponenzializzazione garantisce che le prestazioni previste rimangono al di sotto del valore teorico massimo di 1,0
  3. Meccanismo di Penalità: Quando il contesto supera il limite del modello, i token generati cadono al di fuori dell'intervallo che il modello può prevedere in modo affidabile, causando un calo acuto delle prestazioni

Punti di Innovazione Tecnica

  1. Modellazione Congiunta: Prima volta che la potenza di calcolo di addestramento e la lunghezza del contesto sono modellate unitamente
  2. Interpretabilità: Fornisce una forma di funzione intuitiva rispetto ai metodi complessi esistenti
  3. Gestione dei Confini: Gestisce efficacemente le condizioni al contorno dei vincoli del contesto attraverso il termine sigmoidale

Configurazione Sperimentale

Dataset

Valutazione su 12 modelli (Tabella 1) su 65.500 istanze, coprendo 3 compiti:

  1. Ragionamento Aritmetico: 3.550 istanze di test
    • GSM8K, MATH, AQUA-RAT, DeepMind Math
    • Riempimento del contesto fino a 511 dimostrazioni
  2. Ragionamento di Senso Comune: 1.750 istanze di test
    • PIQA, SIQA, OpenBookQA, HellaSwag, WinoGrande, ARC-Easy/Challenge, CommonSenseQA
    • Riempimento del contesto fino a 511 dimostrazioni
  3. Traduzione Automatica: 1.250 istanze
    • WMT-14 (Tedesco, Francese, Hindi, Ceco, Russo → Inglese)
    • Utilizzo del punteggio BLEU-4

Configurazione del Modello

Basato su Llama-2-7B e Llama-2-13B, con tecnologia YaRN per estendere le finestre di contesto a 8k, 16k, 32k, 64k, 128k token.

Metriche di Valutazione

  • Ragionamento aritmetico e ragionamento di senso comune: Accuratezza
  • Traduzione automatica: Punteggio BLEU-4
  • Errore di Previsione: Errore assoluto medio di previsione |P - P̂|

Processo di Adattamento

Ottimizzazione a due fasi:

  1. Ricerca Globale: Utilizzo di differential_evolution di SciPy
  2. Ottimizzazione Locale: Utilizzo di curve_fit per adattamento preciso

Risultati Sperimentali

Risultati Principali

Ottenimento di eccellenti risultati di adattamento su tre compiti:

  • Ragionamento Aritmetico: Errore di previsione medio 0,010
  • Ragionamento di Senso Comune: Errore di previsione medio 0,037
  • Traduzione Automatica: Errore di previsione medio 0,007

Verifica della Capacità di Generalizzazione

1. Generalizzazione della Potenza di Calcolo di Addestramento (Sezione 4.1)

Verifica su 5 modelli di test, coprendo 3 ordini di grandezza della potenza di calcolo:

  • Da Qwen2.5-0.5B a Llama-2-70B
  • La maggior parte degli errori di previsione entro 5 punti
  • Migliore generalizzazione su ragionamento aritmetico e traduzione automatica

2. Generalizzazione della Lunghezza del Contesto (Sezione 4.2)

Conservazione di osservazioni superiori a 10.000 token per la verifica:

  • Ragionamento Aritmetico: Errore di previsione 0,017
  • Ragionamento di Senso Comune: Errore di previsione 0,067
  • Traduzione Automatica: Errore di previsione 0,006

3. Generalizzazione della Tecnica di Estensione del Contesto (Sezione 4.3)

Confronto tra tecniche YaRN e interpolazione di posizione, con errori di previsione simili, indicando che il metodo è insensibile alla tecnica di estensione del contesto.

Esperimenti di Ablazione

Verifica dell'importanza del termine di penalità sigmoidale:

  • Con termine di penalità: Errore di previsione 0,010
  • Senza termine di penalità: Errore di previsione 0,029

Lavori Correlati

Leggi di Scaling Tradizionali

  • Hestness et al. (2017), Kaplan et al. (2020): Stabiliscono la relazione tra prestazioni upstream e fattori di progettazione dei modelli
  • Hoffmann et al. (2022): Utilizzate per l'addestramento di LLM ottimali dal punto di vista computazionale

Previsione delle Prestazioni Downstream

  • Wei et al. (2022), Hu et al. (2024): Focalizzati sulle capacità "emergenti" negli LLM
  • Chen et al. (2024), Ruan et al. (2024): Adottano approcci a due fasi
  • Contributo di questo articolo: Introduce per la prima volta la dipendenza dalla lunghezza del contesto

Tecniche di Estensione del Contesto

  • Metodi senza addestramento: InfLLM, LM-Infinite, ecc.
  • Riscalamento della codifica di posizione: Interpolazione di posizione, YaRN, ecc.
  • Scelta di questo articolo: Utilizzo di YaRN per l'estensione del contesto

Conclusioni e Discussione

Conclusioni Principali

  1. Le prestazioni downstream possono essere modellate accuratamente come funzione congiunta della potenza di calcolo di addestramento e del contesto
  2. Il framework mostra buona capacità di generalizzazione su un ampio intervallo di potenza di calcolo e lunghezza del contesto
  3. Le prestazioni traggono beneficio dall'aumento della potenza di calcolo e dal contesto correlato, ma presentano punti di saturazione

Limitazioni

  1. Assunzioni: Si basa su assunzioni che le prestazioni si scalino con la potenza di calcolo di addestramento e il contesto, che potrebbero non valere in casi di scaling estremo
  2. Fattori Non Considerati: Miscela di dati di preaddestramento, allineamento post-addestramento, scelte architettoniche e altri fattori non sono esplicitamente considerati
  3. Intervallo di Potenza di Calcolo: L'intervallo di potenza di calcolo adattato è relativamente ristretto; la capacità di generalizzazione al di fuori di questo intervallo è sconosciuta

Direzioni Future

  1. Ricerca su come altri fattori (come l'ottimizzazione delle istruzioni e l'allineamento) influenzano i parametri identificati
  2. Estensione a intervalli più ampi di potenza di calcolo di addestramento
  3. Esplorazione dell'applicabilità in scenari di attacchi avversariali

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: Prima volta che la lunghezza del contesto è incorporata nelle leggi di scaling, colmando un'importante lacuna teorica
  2. Valore Pratico: Fornisce un framework interpretabile per guidare la progettazione di LLM con contesto lungo
  3. Esperimenti Completi: Verifica su larga scala di 65.500 istanze, coprendo più compiti e modelli
  4. Forte Capacità di Generalizzazione: Dimostra buone prestazioni di generalizzazione su più dimensioni
  5. Metodo Semplice: Fornisce una forma di funzione intuitiva e interpretabile rispetto ai metodi complessi esistenti

Insufficienze

  1. Limitazioni del Modello: Verifica solo su modelli della serie Llama-2, mancanza di verifica su famiglie di modelli più ampie
  2. Copertura dei Compiti: Coinvolge solo 3 tipi di compiti; l'applicabilità ad altri compiti NLP è sconosciuta
  3. Fondamenti Teorici: Mancanza di spiegazione teorica profonda del perché sia stata scelta la forma di funzione specifica
  4. Interpretazione dei Parametri: L'analisi del significato fisico dei parametri e delle loro relazioni reciproche è insufficiente

Impatto

  1. Valore Accademico: Apre una nuova direzione nella ricerca sulle leggi di scaling, previsto di attirare ampia attenzione
  2. Guida Pratica: Fornisce strumenti quantitativi all'industria per progettare modelli con contesto lungo
  3. Riproducibilità: Fornisce codice completo e impostazioni sperimentali dettagliate, facilitando la riproduzione e l'estensione

Scenari Applicabili

  1. Progettazione del Modello: Guida l'allocazione delle risorse di calcolo per LLM con contesto lungo
  2. Previsione delle Prestazioni: Stima le prestazioni del modello prima dell'addestramento costoso su larga scala
  3. Analisi dei Compiti: Comprensione della sensibilità di diversi compiti alla lunghezza del contesto
  4. Ottimizzazione delle Risorse: Ottimizzazione della dimensione della finestra di contesto dato un budget di calcolo

Riferimenti Bibliografici

  1. Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
  2. Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
  3. Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
  4. Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
  5. Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.

Questo articolo apporta contributi significativi nel campo della ricerca sulle leggi di scaling, incorporando sistematicamente per la prima volta la lunghezza del contesto nella previsione delle prestazioni dei compiti downstream, fornendo strumenti teorici e orientamenti pratici preziosi per la progettazione e l'ottimizzazione di LLM con contesto lungo.