2025-11-13T00:07:10.698624

Predicting Task Performance with Context-aware Scaling Laws

Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic

āĻĒā§āϰāϏāĻ™ā§āĻ—-āϏāĻšā§‡āϤāύ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽā§‡āϰ āϏāĻžāĻĨ⧇ āĻ•āĻžāĻœā§‡āϰ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ

āĻŽā§ŒāϞāĻŋāĻ• āϤāĻĨā§āϝ

  • āĻĒ⧇āĻĒāĻžāϰ āφāχāĻĄāĻŋ: 2510.14919
  • āĻļāĻŋāϰ⧋āύāĻžāĻŽ: āĻĒā§āϰāϏāĻ™ā§āĻ—-āϏāĻšā§‡āϤāύ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽā§‡āϰ āϏāĻžāĻĨ⧇ āĻ•āĻžāĻœā§‡āϰ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ
  • āϞ⧇āĻ–āĻ•: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
  • āĻļā§āϰ⧇āĻŖā§€āĻŦāĻŋāĻ­āĻžāĻ—: cs.CL cs.AI cs.LG
  • āĻĒā§āϰāĻ•āĻžāĻļāύāĻžāϰ āϏāĻŽāϝāĻŧ: ⧍ā§Ļ⧍ā§Ē āϏāĻžāϞ⧇āϰ ā§§ā§Ŧ āĻ…āĻ•ā§āĻŸā§‹āĻŦāϰ (arXiv āĻĒā§āϰāĻžāĻ•-āĻŽā§āĻĻā§āϰāĻŖ)
  • āĻĒ⧇āĻĒāĻžāϰ āϞāĻŋāĻ™ā§āĻ•: https://arxiv.org/abs/2510.14919
  • āϕ⧋āĻĄ āϞāĻŋāĻ™ā§āĻ•: https://github.com/wang-research-lab/context-scaling

āϏāĻžāϰāϏāĻ‚āĻ•ā§āώ⧇āĻĒ

āϐāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§€ āĻ¸ā§āύāĻžāϝāĻŧ⧁ āύ⧇āϟāĻ“āϝāĻŧāĻžāĻ°ā§āĻ• āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽāϗ⧁āϞāĻŋ āϊāĻ°ā§āĻ§ā§āĻŦāĻŽā§āĻ–ā§€ āĻŽā§‡āĻŸā§āϰāĻŋāĻ•ā§āϏ (āϝ⧇āĻŽāύ āĻ•ā§āϰāϏ-āĻāĻ¨ā§āĻŸā§āϰāĻĒāĻŋ āĻ•ā§āώāϤāĻŋ) āϕ⧇ āĻĄāĻŋāϜāĻžāχāύ āĻĢā§āϝāĻžāĻ•ā§āϟāϰāϗ⧁āϞāĻŋāϰ āϏāĻžāĻĨ⧇ āϏāĻ‚āϝ⧁āĻ•ā§āϤ āĻ•āϰ⧇ (āϝ⧇āĻŽāύ āĻŽāĻĄā§‡āϞ āφāĻ•āĻžāϰ, āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻāĻŦāĻ‚ āĻ—āĻŖāύāĻž), āϝāĻž āĻŦāĻĄāĻŧ āĻ­āĻžāώāĻž āĻŽāĻĄā§‡āϞāϗ⧁āϞāĻŋāϰ āĻĒā§āϰāϤāĻŋ āφāĻŽāĻžāĻĻ⧇āϰ āĻŦā§‹āĻāĻžāĻĒāĻĄāĻŧāĻžāϕ⧇ āϰ⧂āĻĒāĻžāĻ¨ā§āϤāϰāĻŋāϤ āĻ•āϰ⧇āϛ⧇āĨ¤ āϤāĻŦ⧇, āĻāχ āϐāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§€ āύāĻŋāϝāĻŧāĻŽāϗ⧁āϞāĻŋ āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻžāĻœā§‡āϰ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻ•ā§āϝāĻžāĻĒāϚāĻžāϰ āĻ•āϰāϤ⧇ āĻĒāĻžāϰ⧇ āύāĻž, āϝ⧇āĻ–āĻžāύ⧇ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻāĻ•āϟāĻŋ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻ­ā§‚āĻŽāĻŋāĻ•āĻž āĻĒāĻžāϞāύ āĻ•āϰ⧇āĨ¤ āĻāχ āĻĒ⧇āĻĒāĻžāϰāϟāĻŋ āĻāĻ•āϟāĻŋ āĻ¸ā§āĻŦāĻœā§āĻžāĻžāϤ āĻāĻŦāĻ‚ āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϝ⧋āĻ—ā§āϝ āĻ•āĻžāĻ āĻžāĻŽā§‹ āĻĒā§āϰāĻ¸ā§āϤāĻžāĻŦ āĻ•āϰ⧇ āϝāĻž āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻžāϕ⧇ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻĒā§āϰāĻĻāĻ¤ā§āϤ āĻĒā§āϰāϏāĻ™ā§āϗ⧇āϰ āϝ⧌āĻĨ āĻĢāĻžāĻ‚āĻļāύ āĻšāĻŋāϏāĻžāĻŦ⧇ āĻŽāĻĄā§‡āϞ āĻ•āϰ⧇āĨ¤ āϞ⧇āĻ–āĻ•āϰāĻž Llama-2-7B āĻāĻŦāĻ‚ Llama-2-13B āĻāϰ āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŋāϤ āĻĒā§āϰāϏāĻ™ā§āĻ— āϭ⧇āϰāĻŋāϝāĻŧ⧇āĻ¨ā§āϟāϗ⧁āϞāĻŋāϤ⧇ āĻāχ āĻ•āĻžāĻ āĻžāĻŽā§‹āϟāĻŋ āĻĢāĻŋāϟ āĻ•āϰ⧇, āϤāĻŋāύāϟāĻŋ āĻ•āĻžāϜ āϜ⧁āĻĄāĻŧ⧇ ā§Ŧā§Ģ,ā§Ģā§Ļā§ĻāϟāĻŋ āĻ…āύāĻ¨ā§āϝ āωāĻĻāĻžāĻšāϰāϪ⧇ āĻ…āĻ­āĻŋāĻœā§āĻžāϤāĻžāĻŽā§‚āϞāĻ• āϝāĻžāϚāĻžāχāĻ•āϰāĻŖ āĻĒāϰāĻŋāϚāĻžāϞāύāĻž āĻ•āϰ⧇: āĻĒāĻžāϟāĻŋāĻ—āĻŖāĻŋāϤ āϝ⧁āĻ•ā§āϤāĻŋ, āϏāĻžāϧāĻžāϰāĻŖ āĻœā§āĻžāĻžāύ āϝ⧁āĻ•ā§āϤāĻŋ āĻāĻŦāĻ‚ āϝāĻ¨ā§āĻ¤ā§āϰ āĻ…āύ⧁āĻŦāĻžāĻĻāĨ¤ āĻĢāϞāĻžāĻĢāϞāϗ⧁āϞāĻŋ āĻĻ⧇āĻ–āĻžāϝāĻŧ āϝ⧇ āĻ•āĻžāĻ āĻžāĻŽā§‹āϟāĻŋ āĻŦāĻŋāϤāϰāĻŖ-āĻŽāĻ§ā§āϝāĻ¸ā§āĻĨ āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āϏāĻ āĻŋāĻ•āĻ­āĻžāĻŦ⧇ āĻŽāĻĄā§‡āϞ āĻ•āϰ⧇, āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻžāϰ āϤāĻŋāύāϟāĻŋ āĻŽāĻžāĻ¤ā§āϰāĻž āϜ⧁āĻĄāĻŧ⧇ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ āĻ•ā§āώāĻŽāϤāĻž āϰāĻžāϖ⧇ āĻāĻŦāĻ‚ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĒāϰāĻŋāĻŽāĻžāĻŖ āĻŦ⧃āĻĻā§āϧāĻŋāϰ āϏāĻŽāϝāĻŧ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āύāĻŋāĻ°ā§āĻ­āϰāϝ⧋āĻ—ā§āϝāĻ­āĻžāĻŦ⧇ āĻŦāĻšāĻŋāσāĻĒā§āϰāĻ•ā§āώ⧇āĻĒ āĻ•āϰāϤ⧇ āĻĒāĻžāϰ⧇āĨ¤

āĻ—āĻŦ⧇āώāĻŖāĻž āĻĒāϟāĻ­ā§‚āĻŽāĻŋ āĻāĻŦāĻ‚ āĻĒā§āϰ⧇āϰāĻŖāĻž

āϏāĻŽāĻ¸ā§āϝāĻž āϏāĻ‚āĻœā§āĻžāĻž

āϐāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§€ āĻ¸ā§āύāĻžāϝāĻŧ⧁ āύ⧇āϟāĻ“āϝāĻŧāĻžāĻ°ā§āĻ• āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽāϗ⧁āϞāĻŋ āĻĒā§āϰāϧāĻžāύāϤ āϊāĻ°ā§āĻ§ā§āĻŦāĻŽā§āĻ–ā§€ āĻŽā§‡āĻŸā§āϰāĻŋāĻ•ā§āϏ⧇āϰ āωāĻĒāϰ āĻĻ⧃āĻˇā§āϟāĻŋ āύāĻŋāĻŦāĻĻā§āϧ āĻ•āϰ⧇ (āϝ⧇āĻŽāύ āĻ•ā§āϰāϏ-āĻāĻ¨ā§āĻŸā§āϰāĻĒāĻŋ āĻ•ā§āώāϤāĻŋ), āĻ•āĻŋāĻ¨ā§āϤ⧁ āĻŦāĻžāĻ¸ā§āϤāĻŦ āĻĒā§āϰāϝāĻŧā§‹āϗ⧇, āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻžāĻœā§‡āϰ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§āϰāĻžāϝāĻŧāĻļāχ āĻāχ āϊāĻ°ā§āĻ§ā§āĻŦāĻŽā§āĻ–ā§€ āĻĒā§āϰāĻŦāĻŖāϤāĻžāϰ āϏāĻžāĻĨ⧇ āĻŦāĻŋāĻšā§āϝ⧁āϤ āĻšāϝāĻŧāĨ¤ āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ⧇āϰ āϜāĻ¨ā§āϝ āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻ•āĻžāϜāϗ⧁āϞāĻŋ āϏāĻžāϧāĻžāϰāĻŖāϤ āĻ…āĻ¤ā§āϝāĻ¨ā§āϤ āϜāϟāĻŋāϞ āĻāĻŦāĻ‚ āĻ•āĻŽ āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϝ⧋āĻ—ā§āϝ āĻĒāĻĻā§āϧāϤāĻŋāϰ āωāĻĒāϰ āύāĻŋāĻ°ā§āĻ­āϰ āĻ•āϰ⧇āĨ¤

āĻ—āĻŦ⧇āώāĻŖāĻžāϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦ

ā§§. āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āϚāĻžāĻšāĻŋāĻĻāĻž: āύāĻŋāĻ°ā§āϭ⧁āϞ āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻ…āύ⧁āĻŽāĻžāύ āĻŽāĻĄā§‡āϞ āωāĻ¨ā§āύāϝāĻŧāύāϕ⧇ āĻ—āĻžāχāĻĄ āĻ•āϰāϤ⧇ āĻĒāĻžāϰ⧇, āĻ•āĻŋāϛ⧁ āĻ•āĻžāĻœā§‡ āωāĻĻā§€āϝāĻŧāĻŽāĻžāύ āĻŦāĻž āĻ¸ā§āϝāĻžāϚ⧁āϰ⧇āĻļāύ āϘāϟāύāĻž āϚāĻŋāĻšā§āύāĻŋāϤ āĻ•āϰāϤ⧇ āĻ•āĻŽ āĻŦā§āϝāϝāĻŧāĻŦāĻšā§āϞ āĻĒāϰ⧀āĻ•ā§āώāĻž āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇āĨ¤ ⧍. āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻĢāĻžāρāĻ•: āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽāϗ⧁āϞāĻŋ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝāϕ⧇ āωāĻĒ⧇āĻ•ā§āώāĻž āĻ•āϰ⧇, āϝāĻž āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻžāĻœā§‡ āĻāĻ•āϟāĻŋ āĻŽā§‚āϞ āĻĢā§āϝāĻžāĻ•ā§āϟāϰāĨ¤ āĨŠ. āĻĄāĻŋāϜāĻžāχāύ āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž: āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻŦā§āϝāĻŦāĻšāĻžāϰ⧇āϰ āĻŽāĻ§ā§āϝ⧇ āĻŽāĻŋāĻĨāĻ¸ā§āĻ•ā§āϰāĻŋāϝāĻŧāĻž āĻŦā§‹āĻāĻž āĻĻā§€āĻ°ā§āϘ āĻĒā§āϰāϏāĻ™ā§āĻ— LLM āĻĄāĻŋāϜāĻžāχāύ⧇āϰ āϜāĻ¨ā§āϝ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖāĨ¤

āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž

āĨ§. Chen et al. (2024): āĻĻ⧁āχ-āĻĒāĻ°ā§āϝāĻžāϝāĻŧ⧇āϰ āĻĒāĻĻā§āϧāϤāĻŋ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇, āĻŽāĻ§ā§āϝāĻ¸ā§āĻĨāϤāĻžāĻ•āĻžāϰ⧀ āĻšāĻŋāϏāĻžāĻŦ⧇ āϊāĻ°ā§āĻ§ā§āĻŦāĻŽā§āĻ–ā§€ āĻ•ā§āώāϤāĻŋ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇, āĻ…āĻ¤ā§āϝāĻ¨ā§āϤ āϜāϟāĻŋāϞāĨ¤ āĨ¨. Ye et al. (2023): BIG-Bench āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻĻāĻŋāϤ⧇ āĻŦāĻšā§-āĻ¸ā§āϤāϰ⧀āϝāĻŧ āĻĒāĻžāĻ°ā§āϏ⧇āĻĒā§āĻŸā§āϰāύ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇, āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϝ⧋āĻ—ā§āϝāϤāĻžāϰ āĻ…āĻ­āĻžāĻŦāĨ¤ āĨŠ. āϐāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§€ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽ: āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ⧇āϰ āĻĒā§āϰāĻ­āĻžāĻŦ āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖāĻ­āĻžāĻŦ⧇ āωāĻĒ⧇āĻ•ā§āώāĻž āĻ•āϰ⧇āĨ¤

āĻŽā§‚āϞ āĻ…āĻŦāĻĻāĻžāύ

āĨ§. āĻĒā§āϰāϏāĻ™ā§āĻ—-āϏāĻšā§‡āϤāύ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽ āĻ•āĻžāĻ āĻžāĻŽā§‹ āĻĒā§āϰāĻ¸ā§āϤāĻžāĻŦ: āϐāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§€ āĻ¸ā§āύāĻžāϝāĻŧ⧁ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽāϗ⧁āϞāĻŋāϕ⧇ āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻžāĻœā§‡ āĻĒā§āϰāϏāĻžāϰāĻŋāϤ āĻ•āϰ⧇, āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ āĻāĻŦāĻ‚ āĻĒā§āϰāϏāĻ™ā§āĻ— āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āĻāĻ•āĻ¤ā§āϰāĻŋāϤ āĻ•āϰ⧇ āφāϰāĻ“ āύāĻŋāĻ°ā§āϭ⧁āϞ LLM āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻŽāĻĄā§‡āϞāĻŋāĻ‚ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āĨ¤

āĨ¨. āĻŦ⧃āĻšā§Ž-āĻ¸ā§āϕ⧇āϞ āĻ…āĻ­āĻŋāĻœā§āĻžāϤāĻžāĻŽā§‚āϞāĻ• āϝāĻžāϚāĻžāχāĻ•āϰāĻŖ: Llama-2 āĻŽāĻĄā§‡āϞ⧇āϰ āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŋāϤ āĻĒā§āϰāϏāĻ™ā§āĻ— āωāχāĻ¨ā§āĻĄā§‹āϤ⧇ ā§ŠāϟāĻŋ āĻ•āĻžāϜ āϜ⧁āĻĄāĻŧ⧇ āĻĢāĻŋāϟ āĻ•āϰ⧇, āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽā§‡āϰ āϏāĻ°ā§āĻŦāϜāύ⧀āύāϤāĻž āĻĒā§āϰāĻŽāĻžāĻŖ āĻ•āϰ⧇ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻžāϰ ā§ŠāϟāĻŋ āĻŽāĻžāĻ¤ā§āϰāĻž, āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ⧇āϰ ā§ĒāϟāĻŋ āĻŽāĻžāĻ¤ā§āϰāĻž āĻāĻŦāĻ‚ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻĒā§āϰāϏāĻ™ā§āĻ— āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ āĻ•ā§ŒāĻļāϞ āϜ⧁āĻĄāĻŧ⧇āĨ¤

āĨŠ. āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϝ⧋āĻ—ā§āϝ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āϏāϰāĻžā§āϜāĻžāĻŽ: āĻ—āĻŖāύāĻž, āĻĒā§āϰāϏāĻ™ā§āĻ— āĻāĻŦāĻ‚ āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻžāϰ āĻŽāĻ§ā§āϝ⧇ āĻŽāĻŋāĻĨāĻ¸ā§āĻ•ā§āϰāĻŋāϝāĻŧāĻž āĻŦā§‹āĻāĻžāϰ āϜāĻ¨ā§āϝ āĻāĻ•āϟāĻŋ āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϝ⧋āĻ—ā§āϝ āĻ•āĻžāĻ āĻžāĻŽā§‹ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇, āĻ­āĻŦāĻŋāĻˇā§āϝāϤ āĻĻā§€āĻ°ā§āϘ āĻĒā§āϰāϏāĻ™ā§āĻ— LLM āĻĄāĻŋāϜāĻžāχāύ⧇āϰ āϜāĻ¨ā§āϝ āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āĨ¤

āĻĒāĻĻā§āϧāϤāĻŋāϰ āĻŦāĻŋāĻ¸ā§āϤāĻžāϰāĻŋāϤ āĻŦā§āϝāĻžāĻ–ā§āϝāĻž

āĻ•āĻžāĻœā§‡āϰ āϏāĻ‚āĻœā§āĻžāĻž

āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻžāĻœā§‡āϰ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž P āϕ⧇ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻž C, āχāύāĻĒ⧁āϟ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ n_pmt āĻāĻŦāĻ‚ āĻŽāĻĄā§‡āϞ āĻĒā§āϰāϏāĻ™ā§āĻ— āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž n_ctx āĻāϰ āĻĢāĻžāĻ‚āĻļāύ āĻšāĻŋāϏāĻžāĻŦ⧇ āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻĻ⧇āĻ“āϝāĻŧāĻžāĨ¤

āĻŽāĻĄā§‡āϞ āφāĻ°ā§āĻ•āĻŋāĻŸā§‡āĻ•āϚāĻžāϰ

āĻŽā§‚āϞ āϏ⧂āĻ¤ā§āϰ:

P(C, n_pmt, n_ctx) = [1 - exp(-A(C/C_c)^Îą)] × [1 - exp(-B(n_pmt/n_c_pmt)^β)] × ΃(n_pmt - n_ctx)

āϝ⧇āĻ–āĻžāύ⧇:

  • āĻĒā§āϰāĻĨāĻŽ āĻĒāĻĻ: āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻž C āĻāϰ āĻ¸ā§āϝāĻžāϚ⧁āϰ⧇āĻļāύ āĻĒāĻžāĻ“āϝāĻŧāĻžāϰ-āϞ āĻĒāĻĻ, āĻĒāϰāĻžāĻŽāĻŋāϤāĻŋ A, C_c, Îą āϏāĻšāĨ¤
  • āĻĻā§āĻŦāĻŋāϤ⧀āϝāĻŧ āĻĒāĻĻ: āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ n_pmt āĻāϰ āĻ¸ā§āϝāĻžāϚ⧁āϰ⧇āĻļāύ āĻĒāĻžāĻ“āϝāĻŧāĻžāϰ-āϞ āĻĒāĻĻ, āĻĒāϰāĻžāĻŽāĻŋāϤāĻŋ B, n_c_pmt, β āϏāĻšāĨ¤
  • āϤ⧃āϤ⧀āϝāĻŧ āĻĒāĻĻ: āϏāĻŋāĻ—āĻŽāϝāĻŧ⧇āĻĄ āĻļāĻžāĻ¸ā§āϤāĻŋ āĻĒāĻĻ, āϝāĻ–āύ n_pmt > n_ctx āĻšāϝāĻŧ āϤāĻ–āύ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻšā§āϰāĻžāϏ āĻĒāĻžāϝāĻŧāĨ¤

āĻĄāĻŋāϜāĻžāχāύ āύ⧀āϤāĻŋ

āĨ§. āϗ⧁āĻŖāύ⧀āϝāĻŧ āϰ⧂āĻĒ: āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĒāϰāĻŋāĻĒā§‚āϰāĻ• āĻ•āĻŋāĻ¨ā§āϤ⧁ āϏāĻ‚āϝ⧋āϜāύ⧀āϝāĻŧ āύāϝāĻŧ, āĻāĻ•āϟāĻŋ āĻŽāĻžāĻ¤ā§āϰāĻžāϝāĻŧ āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝ āϘāĻžāϟāϤāĻŋ āĻ…āĻ¨ā§āϝ āĻŽāĻžāĻ¤ā§āϰāĻž āĻĨ⧇āϕ⧇ āϞāĻžāĻ­ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧ āĻ•āϰ⧇āĨ¤

āĨ¨. āĻ¸ā§āϝāĻžāϚ⧁āϰ⧇āĻļāύ āĻĒāĻžāĻ“āϝāĻŧāĻžāϰ-āϞ: āϏ⧂āϚāĻ• āĻŽāĻžāĻ§ā§āϝāĻŽā§‡ āύāĻŋāĻļā§āϚāĻŋāϤ āĻ•āϰ⧇ āϝ⧇ āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏāĻŋāϤ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āϏāĻ°ā§āĻŦā§‹āĻšā§āϚ āĻŽāĻžāύ ā§§.ā§Ļ āĻāϰ āύāĻŋāĻšā§‡ āĻĨāĻžāϕ⧇āĨ¤

āĨŠ. āĻļāĻžāĻ¸ā§āϤāĻŋ āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻž: āϝāĻ–āύ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻŽāĻĄā§‡āϞ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āĻ…āϤāĻŋāĻ•ā§āϰāĻŽ āĻ•āϰ⧇, āĻ‰ā§ŽāĻĒāĻžāĻĻāĻŋāϤ āĻŸā§‹āϕ⧇āύ āĻŽāĻĄā§‡āϞ āύāĻŋāĻ°ā§āĻ­āϰāϝ⧋āĻ—ā§āϝāĻ­āĻžāĻŦ⧇ āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻĻāĻŋāϤ⧇ āĻĒāĻžāϰ⧇ āύāĻž āĻāĻŽāύ āĻĒāϰāĻŋāϏāϰ⧇ āĻĒāĻĄāĻŧ⧇, āϝāĻžāϰ āĻĢāϞ⧇ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āϤ⧀āĻŦā§āϰāĻ­āĻžāĻŦ⧇ āĻšā§āϰāĻžāϏ āĻĒāĻžāϝāĻŧāĨ¤

āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āωāĻĻā§āĻ­āĻžāĻŦāύ āĻĒāϝāĻŧ⧇āĻ¨ā§āϟ

āĨ§. āϝ⧌āĻĨ āĻŽāĻĄā§‡āϞāĻŋāĻ‚: āĻĒā§āϰāĻĨāĻŽāĻŦāĻžāϰ⧇āϰ āĻŽāϤ⧋ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ āĻāϕ⧀āĻ­ā§‚āϤ āĻŽāĻĄā§‡āϞāĻŋāĻ‚āĨ¤ āĨ¨. āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϝ⧋āĻ—ā§āϝāϤāĻž: āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āϜāϟāĻŋāϞ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϤ⧁āϞāύāĻžāϝāĻŧ, āĻ¸ā§āĻŦāĻœā§āĻžāĻžāϤ āĻĢāĻžāĻ‚āĻļāύ āĻĢāĻ°ā§āĻŽ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āĨ¤ āĨŠ. āϏ⧀āĻŽāĻžāύāĻž āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻžāĻ•āϰāĻŖ: āϏāĻŋāĻ—āĻŽāϝāĻŧ⧇āĻĄ āĻĒāĻĻ⧇āϰ āĻŽāĻžāĻ§ā§āϝāĻŽā§‡ āĻĒā§āϰāϏāĻ™ā§āĻ— āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āϏ⧀āĻŽāĻžāύāĻž āĻļāĻ°ā§āϤ āĻ•āĻžāĻ°ā§āϝāĻ•āϰāĻ­āĻžāĻŦ⧇ āĻĒāϰāĻŋāϚāĻžāϞāύāĻž āĻ•āϰ⧇āĨ¤

āĻĒāϰ⧀āĻ•ā§āώāĻžāĻŽā§‚āϞāĻ• āϏ⧇āϟāφāĻĒ

āĻĄā§‡āϟāĻžāϏ⧇āϟ

⧧⧍āϟāĻŋ āĻŽāĻĄā§‡āϞāϕ⧇ ā§Ŧā§Ģ,ā§Ģā§Ļā§ĻāϟāĻŋ āωāĻĻāĻžāĻšāϰāϪ⧇ āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇, ā§ŠāϟāĻŋ āĻ•āĻžāϜ āϜ⧁āĻĄāĻŧ⧇:

āĨ§. āĻĒāĻžāϟāĻŋāĻ—āĻŖāĻŋāϤ āϝ⧁āĻ•ā§āϤāĻŋ: ā§Š,ā§Ģā§Ģā§ĻāϟāĻŋ āĻĒāϰ⧀āĻ•ā§āώāĻž āωāĻĻāĻžāĻšāϰāĻŖ

  • GSM8K, MATH, AQUA-RAT, DeepMind Math
  • āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĒā§‚āϰāĻŖ āϏāĻ°ā§āĻŦā§‹āĻšā§āϚ ā§ĢāĨ§āĨ§āϟāĻŋ āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ

āĨ¨. āϏāĻžāϧāĻžāϰāĻŖ āĻœā§āĻžāĻžāύ āϝ⧁āĻ•ā§āϤāĻŋ: ā§§,ā§­ā§ĢāĨĻāϟāĻŋ āĻĒāϰ⧀āĻ•ā§āώāĻž āωāĻĻāĻžāĻšāϰāĻŖ

  • PIQA, SIQA, OpenBookQA, HellaSwag, WinoGrande, ARC-Easy/Challenge, CommonSenseQA
  • āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĒā§‚āϰāĻŖ āϏāĻ°ā§āĻŦā§‹āĻšā§āϚ ā§ĢāĨ§āĨ§āϟāĻŋ āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ

āĨŠ. āϝāĻ¨ā§āĻ¤ā§āϰ āĻ…āύ⧁āĻŦāĻžāĻĻ: ā§§,āĨ¨āĨĢāĨĻāϟāĻŋ āωāĻĻāĻžāĻšāϰāĻŖ

  • WMT-14 (āϜāĻžāĻ°ā§āĻŽāĻžāύ, āĻĢāϰāĻžāϏāĻŋ, āĻšāĻŋāĻ¨ā§āĻĻāĻŋ, āĻšā§‡āĻ•, āϰāĻžāĻļāĻŋāϝāĻŧāĻžāύ → āχāĻ‚āϰ⧇āϜāĻŋ)
  • BLEU-4 āĻ¸ā§āϕ⧋āϰ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇

āĻŽāĻĄā§‡āϞ āĻ•āύāĻĢāĻŋāĻ—āĻžāϰ⧇āĻļāύ

Llama-2-7B āĻāĻŦāĻ‚ Llama-2-13B āĻāϰ āωāĻĒāϰ āĻ­āĻŋāĻ¤ā§āϤāĻŋ āĻ•āϰ⧇, YaRN āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇ āĻĒā§āϰāϏāĻ™ā§āĻ— āωāχāĻ¨ā§āĻĄā§‹ ā§Žk, āĨ§āĨŦk, āĨŠāĨ¨k, āĨŦāĨĒk, āĨ§āĨ¨āĨŽk āĻŸā§‹āϕ⧇āύ⧇ āĻĒā§āϰāϏāĻžāϰāĻŋāϤ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇āĨ¤

āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ āĻŽā§‡āĻŸā§āϰāĻŋāĻ•ā§āϏ

  • āĻĒāĻžāϟāĻŋāĻ—āĻŖāĻŋāϤ āϝ⧁āĻ•ā§āϤāĻŋ āĻāĻŦāĻ‚ āϏāĻžāϧāĻžāϰāĻŖ āĻœā§āĻžāĻžāύ āϝ⧁āĻ•ā§āϤāĻŋ: āύāĻŋāĻ°ā§āϭ⧁āϞāϤāĻž
  • āϝāĻ¨ā§āĻ¤ā§āϰ āĻ…āύ⧁āĻŦāĻžāĻĻ: BLEU-4 āĻ¸ā§āϕ⧋āϰ
  • āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ: āĻ—āĻĄāĻŧ āĻĒāϰāĻŽ āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ |P - PĖ‚|

āĻĢāĻŋāϟāĻŋāĻ‚ āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻž

āĻĻ⧁āχ-āĻĒāĻ°ā§āϝāĻžāϝāĻŧ⧇āϰ āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāĻœā§‡āĻļāύ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇: āĨ§. āĻŦ⧈āĻļā§āĻŦāĻŋāĻ• āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ: SciPy āĻāϰ differential_evolution āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇āĨ¤ āĨ¨. āĻ¸ā§āĻĨāĻžāύ⧀āϝāĻŧ āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāĻœā§‡āĻļāύ: curve_fit āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇ āύāĻŋāĻ°ā§āϭ⧁āϞ āĻĢāĻŋāϟāĻŋāĻ‚āĨ¤

āĻĒāϰ⧀āĻ•ā§āώāĻžāĻŽā§‚āϞāĻ• āĻĢāϞāĻžāĻĢāϞ

āĻĒā§āϰāϧāĻžāύ āĻĢāϞāĻžāĻĢāϞ

āϤāĻŋāύāϟāĻŋ āĻ•āĻžāĻœā§‡ āĻ‰ā§ŽāĻ•ā§ƒāĻˇā§āϟ āĻĢāĻŋāϟāĻŋāĻ‚ āĻĒā§āϰāĻ­āĻžāĻŦ āĻ…āĻ°ā§āϜāύ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇:

  • āĻĒāĻžāϟāĻŋāĻ—āĻŖāĻŋāϤ āϝ⧁āĻ•ā§āϤāĻŋ: āĻ—āĻĄāĻŧ āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ ā§Ļ.āĨĻāĨ§āĨĻ
  • āϏāĻžāϧāĻžāϰāĻŖ āĻœā§āĻžāĻžāύ āϝ⧁āĻ•ā§āϤāĻŋ: āĻ—āĻĄāĻŧ āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ āĨĻ.āĨĻāĨŠāĨ­
  • āϝāĻ¨ā§āĻ¤ā§āϰ āĻ…āύ⧁āĻŦāĻžāĻĻ: āĻ—āĻĄāĻŧ āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ āĨĻ.āĨĻāĨĻāĨ­

āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ āĻ•ā§āώāĻŽāϤāĻž āϝāĻžāϚāĻžāχāĻ•āϰāĻŖ

āĨ§. āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻž āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ (ā§Ē.āĨ§ āĻŦāĻŋāĻ­āĻžāĻ—)

ā§ĢāϟāĻŋ āĻĒāϰ⧀āĻ•ā§āώāĻž āĻŽāĻĄā§‡āϞ⧇ āϝāĻžāϚāĻžāχ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇, āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻžāϰ āĨŠāϟāĻŋ āĻŽāĻžāĻ¤ā§āϰāĻž āϜ⧁āĻĄāĻŧ⧇:

  • Qwen2.5-0.5B āĻĨ⧇āϕ⧇ Llama-2-70B
  • āĻŦ⧇āĻļāĻŋāϰāĻ­āĻžāĻ— āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ ā§Ģ āĻĒāϝāĻŧ⧇āĻ¨ā§āĻŸā§‡āϰ āĻŽāĻ§ā§āϝ⧇
  • āĻĒāĻžāϟāĻŋāĻ—āĻŖāĻŋāϤ āϝ⧁āĻ•ā§āϤāĻŋ āĻāĻŦāĻ‚ āϝāĻ¨ā§āĻ¤ā§āϰ āĻ…āύ⧁āĻŦāĻžāĻĻ⧇ āφāϰāĻ“ āĻ­āĻžāϞ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ

āĨ¨. āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ (āĨĒ.āĨ¨ āĻŦāĻŋāĻ­āĻžāĻ—)

āĨ§āĨĻ,āĨĻāĨĻāĨĻ āĻŸā§‹āϕ⧇āύ⧇āϰ āĻŦ⧇āĻļāĻŋ āĻĒāĻ°ā§āϝāĻŦ⧇āĻ•ā§āώāĻŖ āϧāϰ⧇ āϰ⧇āϖ⧇ āϝāĻžāϚāĻžāχ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇:

  • āĻĒāĻžāϟāĻŋāĻ—āĻŖāĻŋāϤ āϝ⧁āĻ•ā§āϤāĻŋ: āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ āĨĻ.āĨĻāĨ§āĨ­
  • āϏāĻžāϧāĻžāϰāĻŖ āĻœā§āĻžāĻžāύ āϝ⧁āĻ•ā§āϤāĻŋ: āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ āĨĻ.āĨĻāĨŦāĨ­
  • āϝāĻ¨ā§āĻ¤ā§āϰ āĻ…āύ⧁āĻŦāĻžāĻĻ: āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ āĨĻ.āĨĻāĨĻāĨŦ

āĨŠ. āĻĒā§āϰāϏāĻ™ā§āĻ— āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ (āĨĒ.āĨŠ āĻŦāĻŋāĻ­āĻžāĻ—)

YaRN āĻāĻŦāĻ‚ āĻ…āĻŦāĻ¸ā§āĻĨāĻžāύ āχāĻ¨ā§āϟāĻžāϰāĻĒā§‹āϞ⧇āĻļāύ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāϰ āϤ⧁āϞāύāĻž, āĻ…āύ⧁āϰ⧂āĻĒ āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ, āĻĒāĻĻā§āϧāϤāĻŋ āĻĒā§āϰāϏāĻ™ā§āĻ— āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāϰ āĻĒā§āϰāϤāĻŋ āĻ…āϏāĻ‚āĻŦ⧇āĻĻāύāĻļā§€āϞ āϤāĻž āύāĻŋāĻ°ā§āĻĻ⧇āĻļ āĻ•āϰ⧇āĨ¤

āĻ…āĻĒāϏāĻžāϰāĻŖ āĻĒāϰ⧀āĻ•ā§āώāĻž

āϏāĻŋāĻ—āĻŽāϝāĻŧ⧇āĻĄ āĻļāĻžāĻ¸ā§āϤāĻŋ āĻĒāĻĻ⧇āϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦ āϝāĻžāϚāĻžāχ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇:

  • āĻļāĻžāĻ¸ā§āϤāĻŋ āĻĒāĻĻ āϏāĻš: āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ āĨĻ.āĨĻāĨ§āĨĻ
  • āĻļāĻžāĻ¸ā§āϤāĻŋ āĻĒāĻĻ āĻ›āĻžāĻĄāĻŧāĻž: āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ āĻ¤ā§āϰ⧁āϟāĻŋ āĨĻ.āĨĻāĨ¨āĨ¯

āϏāĻŽā§āĻĒāĻ°ā§āĻ•āĻŋāϤ āĻ•āĻžāϜ

āϐāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§€ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽ

  • Hestness et al. (2017), Kaplan et al. (2020): āϊāĻ°ā§āĻ§ā§āĻŦāĻŽā§āĻ–ā§€ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻāĻŦāĻ‚ āĻŽāĻĄā§‡āϞ āĻĄāĻŋāϜāĻžāχāύ āĻĢā§āϝāĻžāĻ•ā§āϟāϰāϗ⧁āϞāĻŋāϰ āĻŽāĻ§ā§āϝ⧇ āϏāĻŽā§āĻĒāĻ°ā§āĻ• āĻ¸ā§āĻĨāĻžāĻĒāύ āĻ•āϰ⧇āϛ⧇āĨ¤
  • Hoffmann et al. (2022): āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻž-āϏāĻ°ā§āĻŦā§‹āĻ¤ā§āϤāĻŽ LLM āĻāϰ āϜāĻ¨ā§āϝ āĻŦā§āϝāĻŦāĻšā§ƒāϤāĨ¤

āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ

  • Wei et al. (2022), Hu et al. (2024): LLM āĻ "āωāĻĻā§€āϝāĻŧāĻŽāĻžāύ" āĻ•ā§āώāĻŽāϤāĻžāϰ āωāĻĒāϰ āĻĻ⧃āĻˇā§āϟāĻŋ āύāĻŋāĻŦāĻĻā§āϧ āĻ•āϰ⧇āϛ⧇āĨ¤
  • Chen et al. (2024), Ruan et al. (2024): āĻĻ⧁āχ-āĻĒāĻ°ā§āϝāĻžāϝāĻŧ⧇āϰ āĻĒāĻĻā§āϧāϤāĻŋ āĻ—ā§āϰāĻšāĻŖ āĻ•āϰ⧇āϛ⧇āĨ¤
  • āĻāχ āĻĒ⧇āĻĒāĻžāϰ āĻ…āĻŦāĻĻāĻžāύ: āĻĒā§āϰāĻĨāĻŽāĻŦāĻžāϰ⧇āϰ āĻŽāϤ⧋ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ āύāĻŋāĻ°ā§āĻ­āϰāĻļā§€āϞāϤāĻž āĻĒā§āϰāĻŦāĻ°ā§āϤāύ āĻ•āϰ⧇āϛ⧇āĨ¤

āĻĒā§āϰāϏāĻ™ā§āĻ— āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋ

  • āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ-āĻŽā§āĻ•ā§āϤ āĻĒāĻĻā§āϧāϤāĻŋ: InfLLM, LM-Infinite āχāĻ¤ā§āϝāĻžāĻĻāĻŋāĨ¤
  • āĻ…āĻŦāĻ¸ā§āĻĨāĻžāύ āĻāύāϕ⧋āĻĄāĻŋāĻ‚ āĻĒ⧁āύāσāĻ¸ā§āϕ⧇āϞāĻŋāĻ‚: āĻ…āĻŦāĻ¸ā§āĻĨāĻžāύ āχāĻ¨ā§āϟāĻžāϰāĻĒā§‹āϞ⧇āĻļāύ, YaRN āχāĻ¤ā§āϝāĻžāĻĻāĻŋāĨ¤
  • āĻāχ āĻĒ⧇āĻĒāĻžāϰ āĻĒāĻ›āĻ¨ā§āĻĻ: āĻĒā§āϰāϏāĻ™ā§āĻ— āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāϪ⧇āϰ āϜāĻ¨ā§āϝ YaRN āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇āϛ⧇āĨ¤

āωāĻĒāϏāĻ‚āĻšāĻžāϰ āĻāĻŦāĻ‚ āφāϞ⧋āϚāύāĻž

āĻĒā§āϰāϧāĻžāύ āωāĻĒāϏāĻ‚āĻšāĻžāϰ

āĨ§. āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻĒā§āϰāϏāĻ™ā§āϗ⧇āϰ āϝ⧌āĻĨ āĻĢāĻžāĻ‚āĻļāύ āĻšāĻŋāϏāĻžāĻŦ⧇ āύāĻŋāĻ°ā§āϭ⧁āϞāĻ­āĻžāĻŦ⧇ āĻŽāĻĄā§‡āϞ āĻ•āϰāĻž āϝāĻžāϝāĻŧāĨ¤ āĨ¨. āĻ•āĻžāĻ āĻžāĻŽā§‹āϟāĻŋ āĻŦ⧃āĻšā§Ž āĻĒāϰāĻŋāϏāϰ⧇āϰ āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ⧇ āĻ­āĻžāϞ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ āĻ•ā§āώāĻŽāϤāĻž āϰāĻžāϖ⧇āĨ¤ āĨŠ. āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻŦāĻ°ā§āϧāĻŋāϤ āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻĒā§āϰāĻžāϏāĻ™ā§āĻ—āĻŋāĻ• āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĨ⧇āϕ⧇ āωāĻĒāĻ•ā§ƒāϤ āĻšāϝāĻŧ, āĻ•āĻŋāĻ¨ā§āϤ⧁ āĻ¸ā§āϝāĻžāϚ⧁āϰ⧇āĻļāύ āĻĒāϝāĻŧ⧇āĻ¨ā§āϟ āϰāϝāĻŧ⧇āϛ⧇āĨ¤

āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž

āĨ§. āĻ…āύ⧁āĻŽāĻžāύ āĻļāĻ°ā§āϤ: āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āϏāĻš āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āĻ…āύ⧁āĻŽāĻžāύ⧇āϰ āωāĻĒāϰ āύāĻŋāĻ°ā§āĻ­āϰ āĻ•āϰ⧇, āϚāϰāĻŽ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āĻĒāϰāĻŋāĻ¸ā§āĻĨāĻŋāϤāĻŋāϤ⧇ āĻĒā§āϰāϝ⧋āĻœā§āϝ āύāĻžāĻ“ āĻšāϤ⧇ āĻĒāĻžāϰ⧇āĨ¤ āĨ¨. āĻŦāĻŋāĻŦ⧇āϚāύāĻž āĻ•āϰāĻž āĻšāϝāĻŧāύāĻŋ āĻāĻŽāύ āĻĢā§āϝāĻžāĻ•ā§āϟāϰ: āĻĒā§āϰāĻžāĻ•-āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻŽāĻŋāĻļā§āϰāĻŖ, āĻĒāϰāĻŦāĻ°ā§āϤ⧀-āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āϏāĻžāϰāĻŋāĻŦāĻĻā§āϧāϤāĻž, āφāĻ°ā§āĻ•āĻŋāĻŸā§‡āĻ•āϚāĻžāϰ āĻĒāĻ›āĻ¨ā§āĻĻ āχāĻ¤ā§āϝāĻžāĻĻāĻŋ āĻ¸ā§āĻĒāĻˇā§āϟāĻ­āĻžāĻŦ⧇ āĻŦāĻŋāĻŦ⧇āϚāύāĻž āĻ•āϰāĻž āĻšāϝāĻŧāύāĻŋāĨ¤ āĨŠ. āĻ—āĻŖāύāĻž āĻĒāϰāĻŋāϏāϰ: āĻĢāĻŋāϟāĻŋāĻ‚ āĻ•āϰāĻž āĻ—āĻŖāύāĻž āĻĒāϰāĻŋāϏāϰ āϤ⧁āϞāύāĻžāĻŽā§‚āϞāĻ•āĻ­āĻžāĻŦ⧇ āϏāĻ‚āϕ⧀āĻ°ā§āĻŖ, āĻāχ āĻĒāϰāĻŋāϏāϰ⧇āϰ āĻŦāĻžāχāϰ⧇ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ āĻ•ā§āώāĻŽāϤāĻž āĻ…āϜāĻžāύāĻžāĨ¤

āĻ­āĻŦāĻŋāĻˇā§āϝāϤ āĻĻāĻŋāĻ•āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž

āĨ§. āĻ…āĻ¨ā§āϝāĻžāĻ¨ā§āϝ āĻĢā§āϝāĻžāĻ•ā§āϟāϰ (āϝ⧇āĻŽāύ āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž āϟāĻŋāωāύāĻŋāĻ‚, āϏāĻžāϰāĻŋāĻŦāĻĻā§āϧāϤāĻž) āϕ⧀āĻ­āĻžāĻŦ⧇ āϚāĻŋāĻšā§āύāĻŋāϤ āĻĒāϰāĻžāĻŽāĻŋāϤāĻŋāϗ⧁āϞāĻŋāϕ⧇ āĻĒā§āϰāĻ­āĻžāĻŦāĻŋāϤ āĻ•āϰ⧇ āϤāĻž āĻ—āĻŦ⧇āώāĻŖāĻž āĻ•āϰ⧁āύāĨ¤ āĨ¨. āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻ—āĻŖāύāĻžāϰ āĻŦ⧃āĻšāĻ¤ā§āϤāϰ āĻĒāϰāĻŋāϏāϰ⧇ āĻĒā§āϰāϏāĻžāϰāĻŋāϤ āĻ•āϰ⧁āύāĨ¤ āĨŠ. āĻĒā§āϰāϤāĻŋāϕ⧂āϞ āφāĻ•ā§āϰāĻŽāĻŖ āĻĒāϰāĻŋāĻ¸ā§āĻĨāĻŋāϤāĻŋāϤ⧇ āĻĒā§āϰāϝ⧋āĻœā§āϝāϤāĻž āĻ…āĻ¨ā§āĻŦ⧇āώāĻŖ āĻ•āϰ⧁āύāĨ¤

āĻ—āĻ­ā§€āϰ āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ

āϏ⧁āĻŦāĻŋāϧāĻž

āĨ§. āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āωāĻĻā§āĻ­āĻžāĻŦāύ: āĻĒā§āϰāĻĨāĻŽāĻŦāĻžāϰ⧇āϰ āĻŽāϤ⧋ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽā§‡ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ āĻ…āĻ¨ā§āϤāĻ°ā§āϭ⧁āĻ•ā§āϤ āĻ•āϰ⧇āϛ⧇, āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻĢāĻžāρāĻ• āĻĒā§‚āϰāĻŖ āĻ•āϰ⧇āϛ⧇āĨ¤ āĨ¨. āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝ: āĻĻā§€āĻ°ā§āϘ āĻĒā§āϰāϏāĻ™ā§āĻ— LLM āĻĄāĻŋāϜāĻžāχāύ āĻ—āĻžāχāĻĄ āĻ•āϰāĻžāϰ āϜāĻ¨ā§āϝ āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϝ⧋āĻ—ā§āϝ āĻ•āĻžāĻ āĻžāĻŽā§‹ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āϛ⧇āĨ¤ āĨŠ. āĻĒāĻ°ā§āϝāĻžāĻĒā§āϤ āĻĒāϰ⧀āĻ•ā§āώāĻž: ā§Ŧā§Ģ,ā§ĢāĨĻāĨĻāϟāĻŋ āωāĻĻāĻžāĻšāϰāϪ⧇āϰ āĻŦ⧃āĻšā§Ž-āĻ¸ā§āϕ⧇āϞ āϝāĻžāϚāĻžāχāĻ•āϰāĻŖ, āĻāĻ•āĻžāϧāĻŋāĻ• āĻ•āĻžāϜ āĻāĻŦāĻ‚ āĻŽāĻĄā§‡āϞ āϜ⧁āĻĄāĻŧ⧇āĨ¤ āĨĒ. āĻļāĻ•ā§āϤāĻŋāĻļāĻžāϞ⧀ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ āĻ•ā§āώāĻŽāϤāĻž: āĻāĻ•āĻžāϧāĻŋāĻ• āĻŽāĻžāĻ¤ā§āϰāĻžāϝāĻŧ āĻ­āĻžāϞ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ āĻ•āϰ⧇āϛ⧇āĨ¤ āĨĢ. āϏāϰāϞ āĻĒāĻĻā§āϧāϤāĻŋ: āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āϜāϟāĻŋāϞ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϤ⧁āϞāύāĻžāϝāĻŧ, āĻ¸ā§āĻŦāĻœā§āĻžāĻžāϤ āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϝ⧋āĻ—ā§āϝ āĻĢāĻžāĻ‚āĻļāύ āĻĢāĻ°ā§āĻŽ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āϛ⧇āĨ¤

āĻ…āĻĒā§‚āĻ°ā§āĻŖāϤāĻž

āĨ§. āĻŽāĻĄā§‡āϞ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž: āĻļ⧁āϧ⧁āĻŽāĻžāĻ¤ā§āϰ Llama-2 āϏāĻŋāϰāĻŋāϜ āĻŽāĻĄā§‡āϞ⧇ āϝāĻžāϚāĻžāχ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇, āĻŦāĻŋāĻ¸ā§āϤ⧃āϤ āĻŽāĻĄā§‡āϞ āĻĒāϰāĻŋāĻŦāĻžāϰ āϝāĻžāϚāĻžāχāĻ•āϰāϪ⧇āϰ āĻ…āĻ­āĻžāĻŦāĨ¤ āĨ¨. āĻ•āĻžāϜ āĻ•āĻ­āĻžāϰ⧇āϜ: āĻļ⧁āϧ⧁āĻŽāĻžāĻ¤ā§āϰ āĨŠāϟāĻŋ āĻ•āĻžāĻœā§‡āϰ āϧāϰāύ āϜāĻĄāĻŧāĻŋāϤ, āĻ…āĻ¨ā§āϝāĻžāĻ¨ā§āϝ NLP āĻ•āĻžāĻœā§‡ āĻĒā§āϰāϝ⧋āĻœā§āϝāϤāĻž āĻ…āϜāĻžāύāĻžāĨ¤ āĨŠ. āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻ­āĻŋāĻ¤ā§āϤāĻŋ: āύāĻŋāĻ°ā§āĻĻāĻŋāĻˇā§āϟ āĻĢāĻžāĻ‚āĻļāύ āĻĢāĻ°ā§āĻŽ āϕ⧇āύ āĻ—ā§āϰāĻšāĻŖ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇ āϤāĻžāϰ āĻ—āĻ­ā§€āϰ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻŦā§āϝāĻžāĻ–ā§āϝāĻžāϰ āĻ…āĻ­āĻžāĻŦāĨ¤ āĨĒ. āĻĒāϰāĻžāĻŽāĻŋāϤāĻŋ āĻŦā§āϝāĻžāĻ–ā§āϝāĻž: āĻĒā§āϰāϤāĻŋāϟāĻŋ āĻĒāϰāĻžāĻŽāĻŋāϤāĻŋāϰ āϭ⧌āϤ āĻ…āĻ°ā§āĻĨ āĻāĻŦāĻ‚ āĻĒāĻžāϰāĻ¸ā§āĻĒāϰāĻŋāĻ• āϏāĻŽā§āĻĒāĻ°ā§āĻ• āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āϝāĻĨ⧇āĻˇā§āϟ āύāϝāĻŧāĨ¤

āĻĒā§āϰāĻ­āĻžāĻŦ

āĨ§. āĻāĻ•āĻžāĻĄā§‡āĻŽāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝ: āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽ āĻ—āĻŦ⧇āώāĻŖāĻžāϰ āϜāĻ¨ā§āϝ āύāϤ⧁āύ āĻĻāĻŋāĻ•āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž āϖ⧁āϞ⧇āϛ⧇, āĻŦā§āϝāĻžāĻĒāĻ• āĻŽāύ⧋āϝ⧋āĻ— āφāĻ•āĻ°ā§āώāĻŖ āĻ•āϰāĻžāϰ āĻĒā§āϰāĻ¤ā§āϝāĻžāĻļāĻžāĨ¤ āĨ¨. āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž: āĻļāĻŋāĻ˛ā§āĻĒāϕ⧇ āĻĻā§€āĻ°ā§āϘ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻŽāĻĄā§‡āϞ āĻĄāĻŋāϜāĻžāχāύ⧇āϰ āϜāĻ¨ā§āϝ āĻĒāϰāĻŋāĻŽāĻžāĻŖāĻ—āϤ āϏāϰāĻžā§āϜāĻžāĻŽ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āϛ⧇āĨ¤ āĨŠ. āĻĒ⧁āύāĻ°ā§ā§ŽāĻĒāĻžāĻĻāύāϝ⧋āĻ—ā§āϝāϤāĻž: āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ āϕ⧋āĻĄ āĻāĻŦāĻ‚ āĻŦāĻŋāĻ¸ā§āϤāĻžāϰāĻŋāϤ āĻĒāϰ⧀āĻ•ā§āώāĻžāĻŽā§‚āϞāĻ• āϏ⧇āϟāφāĻĒ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āϛ⧇, āĻĒ⧁āύāĻ°ā§ā§ŽāĻĒāĻžāĻĻāύ āĻāĻŦāĻ‚ āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ āϏāĻšāϜāϤāϰ āĻ•āϰ⧇āϛ⧇āĨ¤

āĻĒā§āϰāϝ⧋āĻœā§āϝ āĻĒāϰāĻŋāĻ¸ā§āĻĨāĻŋāϤāĻŋ

āĨ§. āĻŽāĻĄā§‡āϞ āĻĄāĻŋāϜāĻžāχāύ: āĻĻā§€āĻ°ā§āϘ āĻĒā§āϰāϏāĻ™ā§āĻ— LLM āĻāϰ āĻ—āĻŖāύāĻž āϏāĻŽā§āĻĒāĻĻ āĻŦāϰāĻžāĻĻā§āĻĻ āĻ—āĻžāχāĻĄ āĻ•āϰ⧇āϛ⧇āĨ¤ āĨ¨. āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ: āĻŦā§āϝāϝāĻŧāĻŦāĻšā§āϞ āĻŦ⧃āĻšā§Ž-āĻ¸ā§āϕ⧇āϞ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāϪ⧇āϰ āφāϗ⧇ āĻŽāĻĄā§‡āϞ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻ…āύ⧁āĻŽāĻžāύ āĻ•āϰ⧇āϛ⧇āĨ¤ āĨŠ. āĻ•āĻžāϜ āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ: āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻ•āĻžāĻœā§‡āϰ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ⧇āϰ āĻĒā§āϰāϤāĻŋ āϏāĻ‚āĻŦ⧇āĻĻāύāĻļā§€āϞāϤāĻž āĻŦā§‹āĻāĻžāĨ¤ āĨĒ. āϏāĻŽā§āĻĒāĻĻ āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāĻœā§‡āĻļāύ: āĻĒā§āϰāĻĻāĻ¤ā§āϤ āĻ—āĻŖāύāĻž āĻŦāĻžāĻœā§‡āĻŸā§‡ āĻĒā§āϰāϏāĻ™ā§āĻ— āωāχāĻ¨ā§āĻĄā§‹ āφāĻ•āĻžāϰ āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāϜ āĻ•āϰ⧇āϛ⧇āĨ¤

āϏāĻ‚āĻĻāĻ°ā§āĻ­

āĨ§. Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361. āĨ¨. Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527. āĨŠ. Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR. āĨĒ. Wei, J., et al. (2022). Emergent abilities of large language models. TMLR. āĨĢ. Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.


āĻāχ āĻĒ⧇āĻĒāĻžāϰāϟāĻŋ āĻ¸ā§āϕ⧇āϞāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽ āĻ—āĻŦ⧇āώāĻŖāĻž āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻ…āĻŦāĻĻāĻžāύ āϰ⧇āϖ⧇āϛ⧇, āĻĒā§āϰāĻĨāĻŽāĻŦāĻžāϰ⧇āϰ āĻŽāϤ⧋ āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽā§‡āϟāĻŋāĻ•āĻ­āĻžāĻŦ⧇ āĻĒā§āϰāϏāĻ™ā§āĻ— āĻĻ⧈āĻ°ā§āĻ˜ā§āϝāϕ⧇ āĻ…āύ⧁āĻĒā§āϰāĻŦāĻžāĻš āĻ•āĻžāĻœā§‡āϰ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĒā§‚āĻ°ā§āĻŦāĻžāĻ­āĻžāϏ⧇ āĻ…āĻ¨ā§āϤāĻ°ā§āϭ⧁āĻ•ā§āϤ āĻ•āϰ⧇āϛ⧇, āĻĻā§€āĻ°ā§āϘ āĻĒā§āϰāϏāĻ™ā§āĻ— LLM āĻāϰ āĻĄāĻŋāϜāĻžāχāύ āĻāĻŦāĻ‚ āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāĻœā§‡āĻļāύ⧇āϰ āϜāĻ¨ā§āϝ āĻŽā§‚āĻ˛ā§āϝāĻŦāĻžāύ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āϏāϰāĻžā§āϜāĻžāĻŽ āĻāĻŦāĻ‚ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āϛ⧇āĨ¤