Predicting Task Performance with Context-aware Scaling Laws
Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
전통적인 신경망 스케일링 법칙은 교차 엔트로피 손실과 같은 상위 지표를 모델 크기, 훈련 데이터, 계산량과 같은 설계 요소와 연결함으로써 대규모 언어 모델에 대한 우리의 이해를 혁신했습니다. 그러나 이러한 전통적 법칙은 문맥이 중요한 역할을 하는 하위 작업 성능을 포착할 수 없습니다. 본 논문은 하위 성능을 훈련 계산량과 제공된 문맥의 결합 함수로 모델링하는 직관적이고 해석 가능한 프레임워크를 제시합니다. 저자들은 Llama-2-7B 및 Llama-2-13B의 확장 문맥 변형에서 이 프레임워크를 적용하여, 산술 추론, 상식 추론, 기계 번역의 세 가지 작업에 걸친 65,500개의 고유 인스턴스에 대해 경험적 검증을 수행했습니다. 결과는 이 프레임워크가 분포 내 하위 성능을 정확하게 모델링하고, 3개 수준의 훈련 계산량에 걸쳐 일반화 능력을 가지며, 문맥량 증가 시 성능을 안정적으로 외삽할 수 있음을 보여줍니다.
전통적인 신경망 스케일링 법칙은 주로 교차 엔트로피 손실과 같은 상위 지표에 초점을 맞추지만, 실제 응용에서는 하위 작업 성능이 종종 이러한 상위 추세와 불일치합니다. 하위 성능 예측에 관한 기존 연구는 일반적으로 지나치게 복잡하고 해석 가능성이 낮은 방법에 의존합니다.