Predicting Task Performance with Context-aware Scaling Laws
Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic
Predire le Prestazioni dei Compiti con Leggi di Scaling Consapevoli del Contesto
Le tradizionali leggi di scaling delle reti neurali hanno rivoluzionato la nostra comprensione dei grandi modelli linguistici collegando metriche upstream (come la perdita di entropia incrociata) a fattori di progettazione (come la dimensione del modello, i dati di addestramento e la potenza di calcolo). Tuttavia, queste leggi tradizionali non riescono a catturare le prestazioni dei compiti downstream, dove il contesto gioca un ruolo cruciale. Questo articolo propone un framework intuitivo e interpretabile che modella le prestazioni downstream come funzione congiunta della potenza di calcolo di addestramento e del contesto fornito. Gli autori hanno verificato empiricamente il framework adattandolo a varianti di contesto esteso di Llama-2-7B e Llama-2-13B, su 65.500 istanze uniche che coprono tre compiti: ragionamento aritmetico, ragionamento di senso comune e traduzione automatica. I risultati dimostrano che il framework modella accuratamente le prestazioni downstream in-distribution, generalizza su tre ordini di grandezza della potenza di calcolo di addestramento e può estrapolate in modo affidabile le prestazioni quando aumenta la quantità di contesto.
Le tradizionali leggi di scaling delle reti neurali si concentrano principalmente su metriche upstream (come la perdita di entropia incrociata), ma nelle applicazioni pratiche le prestazioni dei compiti downstream spesso divergono da questi trend upstream. I lavori esistenti per predire le prestazioni downstream tipicamente si affidano a metodi eccessivamente complessi con scarsa interpretabilità.
Necessità Pratica: Stime accurate delle prestazioni downstream possono guidare lo sviluppo dei modelli, identificando fenomeni di emergenza o saturazione su determinati compiti con meno esperimenti costosi
Lacuna Teorica: Le leggi di scaling esistenti trascurano la lunghezza del contesto, un fattore cruciale nel ruolo che gioca nei compiti downstream
Guida alla Progettazione: Comprendere l'interazione tra potenza di calcolo e utilizzo del contesto è essenziale per progettare LLM efficienti con contesto lungo
Propone un framework di leggi di scaling consapevoli del contesto: Estende le tradizionali leggi di scaling neurale ai compiti downstream, combinando la lunghezza del contesto e i vincoli del contesto per una modellazione più accurata delle prestazioni degli LLM
Verifica Empirica su Larga Scala: Adattamento su finestre di contesto esteso dei modelli Llama-2 attraverso 3 compiti, dimostrando l'universalità della legge di scaling su tre ordini di grandezza della potenza di calcolo di addestramento, quattro ordini di grandezza della lunghezza del contesto e diverse tecniche di estensione del contesto
Strumento Teorico Interpretabile: Fornisce un framework interpretabile per comprendere l'interazione tra potenza di calcolo, contesto e prestazioni downstream, offrendo orientamenti per la progettazione futura di LLM con contesto lungo
Predire le prestazioni del compito downstream P come funzione della potenza di calcolo di addestramento C, della lunghezza del contesto di input n_pmt e del vincolo di contesto del modello n_ctx.
Forma Moltiplicativa: La potenza di calcolo e il contesto sono complementari piuttosto che additivi; una carenza significativa in una dimensione limita i benefici ottenibili dall'altra dimensione
Legge di Potenza Saturo: L'esponenzializzazione garantisce che le prestazioni previste rimangono al di sotto del valore teorico massimo di 1,0
Meccanismo di Penalità: Quando il contesto supera il limite del modello, i token generati cadono al di fuori dell'intervallo che il modello può prevedere in modo affidabile, causando un calo acuto delle prestazioni
Confronto tra tecniche YaRN e interpolazione di posizione, con errori di previsione simili, indicando che il metodo è insensibile alla tecnica di estensione del contesto.
Assunzioni: Si basa su assunzioni che le prestazioni si scalino con la potenza di calcolo di addestramento e il contesto, che potrebbero non valere in casi di scaling estremo
Fattori Non Considerati: Miscela di dati di preaddestramento, allineamento post-addestramento, scelte architettoniche e altri fattori non sono esplicitamente considerati
Intervallo di Potenza di Calcolo: L'intervallo di potenza di calcolo adattato è relativamente ristretto; la capacità di generalizzazione al di fuori di questo intervallo è sconosciuta
Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.
Questo articolo apporta contributi significativi nel campo della ricerca sulle leggi di scaling, incorporando sistematicamente per la prima volta la lunghezza del contesto nella previsione delle prestazioni dei compiti downstream, fornendo strumenti teorici e orientamenti pratici preziosi per la progettazione e l'ottimizzazione di LLM con contesto lungo.