2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff
Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
academic

TRIM: āϞāĻ•ā§āĻˇā§āϝāĻŦāĻ¸ā§āϤ⧁ āϏāĻžāϰāĻŋ-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋāĻŽā§‚āϞāĻ• āĻŽā§‡āĻŸā§āϰāĻŋāĻ•-āϚāĻžāϞāĻŋāϤ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻāϰ āĻŽāĻžāĻ§ā§āϝāĻŽā§‡ āϚāϰāĻŽ āĻŦāĻŋāϰāϞāϤāĻž āĻ…āĻ°ā§āϜāύ

āĻŽā§ŒāϞāĻŋāĻ• āϤāĻĨā§āϝ

  • āĻĒ⧇āĻĒāĻžāϰ āφāχāĻĄāĻŋ: 2505.16743
  • āĻļāĻŋāϰ⧋āύāĻžāĻŽ: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
  • āϞ⧇āĻ–āĻ•: āĻĢā§āϞ⧋āϰ⧇āĻ¨ā§āϟāĻŋāύ āĻŦ⧇āĻ• (āϟāĻŋāωāĻŦāĻŋāύāĻœā§‡āύ āĻŦāĻŋāĻļā§āĻŦāĻŦāĻŋāĻĻā§āϝāĻžāϞāϝāĻŧ), āωāχāϞāĻŋāϝāĻŧāĻžāĻŽ āϰ⧁āĻĄāĻŽā§āϝāĻžāύ (āĻŸā§‡āĻ•ā§āϏāĻžāϏ āĻ…āĻ¸ā§āϟāĻŋāύ āĻŦāĻŋāĻļā§āĻŦāĻŦāĻŋāĻĻā§āϝāĻžāϞāϝāĻŧ), āĻ•āĻžāĻ°ā§āĻ¸ā§āĻŸā§‡āύ āφāχāĻ•āĻšāĻĢ (āϟāĻŋāωāĻŦāĻŋāύāĻœā§‡āύ āĻŦāĻŋāĻļā§āĻŦāĻŦāĻŋāĻĻā§āϝāĻžāϞāϝāĻŧ)
  • āĻļā§āϰ⧇āĻŖā§€āĻŦāĻŋāĻ­āĻžāĻ—: cs.CL cs.AI cs.LG
  • āĻĒā§āϰāĻ•āĻžāĻļāύāĻžāϰ āϏāĻŽāϝāĻŧ: ⧍ā§Ļ⧍ā§Ģ āϏāĻžāϞ⧇āϰ ā§§ā§§ āĻ…āĻ•ā§āĻŸā§‹āĻŦāϰ (arXiv v2)
  • āĻĒ⧇āĻĒāĻžāϰ āϞāĻŋāĻ‚āĻ•: https://arxiv.org/abs/2505.16743
  • āϕ⧋āĻĄ āϞāĻŋāĻ‚āĻ•: https://github.com/flobk/TRIM

āϏāĻžāϰāϏāĻ‚āĻ•ā§āώ⧇āĻĒ

āĻŦ⧃āĻšā§Ž āĻ­āĻžāώāĻž āĻŽāĻĄā§‡āϞ (LLM) āϗ⧁āϞāĻŋ āϤāĻžāĻĻ⧇āϰ āĻŦāĻŋāĻļāĻžāϞ āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ āĻ¸ā§āϕ⧇āϞ⧇āϰ āĻ•āĻžāϰāϪ⧇ āĻ—āĻŖāύāĻž āĻāĻŦāĻ‚ āĻŽā§‡āĻŽāϰāĻŋ āĻšā§āϝāĻžāϞ⧇āĻžā§āϜ āϏ⧃āĻˇā§āϟāĻŋ āĻ•āϰ⧇, āϝāĻž āĻĻāĻ•ā§āώ āĻ¸ā§āĻĨāĻžāĻĒāύāĻžāϰ āϜāĻ¨ā§āϝ āĻŽāĻĄā§‡āϞ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻ…āĻĒāϰāĻŋāĻšāĻžāĻ°ā§āϝ āĻ•āϰ⧇ āϤ⧋āϞ⧇āĨ¤ āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻāĻ•āĻ•āĻžāϞ⧀āύ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻĒāĻĻā§āϧāϤāĻŋāϗ⧁āϞāĻŋ āϏāĻžāϧāĻžāϰāĻŖāϤ āĻ¸ā§āϤāϰ āϜ⧁āĻĄāĻŧ⧇ āĻŦāĻž āĻ¸ā§āϤāϰ⧇āϰ āĻŽāĻ§ā§āϝ⧇ āĻāϕ⧀āĻ­ā§‚āϤ āĻŦāĻŋāϰāϞāϤāĻž āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āĻĒā§āϰāϝāĻŧā§‹āĻ— āĻ•āϰ⧇, āωāĻšā§āϚ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ⧇ āĻĻ⧁āĻ°ā§āĻŦāϞ āĻĒāĻžāϰāĻĢāϰāĻŽā§āϝāĻžāĻ¨ā§āϏ āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ āĻ•āϰ⧇āĨ¤ āĻāχ āĻĒ⧇āĻĒāĻžāϰāϟāĻŋ TRIM (āϞāĻ•ā§āĻˇā§āϝāĻŦāĻ¸ā§āϤ⧁ āϏāĻžāϰāĻŋ-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋāĻŽā§‚āϞāĻ• āĻŽā§‡āĻŸā§āϰāĻŋāĻ•-āϚāĻžāϞāĻŋāϤ āĻĒā§āϰ⧁āύāĻŋāĻ‚) āĻĒā§āϰāĻ¸ā§āϤāĻžāĻŦ āĻ•āϰ⧇, āϝāĻž āĻĒā§āϰāϤāĻŋāϟāĻŋ āĻ¸ā§āϤāϰ⧇āϰ āĻŽāĻ§ā§āϝ⧇ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻž (āϏāĻžāϰāĻŋ) āϤ⧇ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āĻĒā§āϰāϝāĻŧā§‹āĻ— āĻ•āϰāĻžāϰ āĻāĻ•āϟāĻŋ āύāϤ⧁āύ āĻĒāĻĻā§āϧāϤāĻŋāĨ¤ TRIM āϗ⧁āĻŖāĻŽāĻžāύ āĻŽā§‡āĻŸā§āϰāĻŋāĻ• āĻĻā§āĻŦāĻžāϰāĻž āĻĒāϰāĻŋāϚāĻžāϞāĻŋāϤ āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋāĻŽā§‚āϞāĻ• āϏāĻŽāĻ¨ā§āĻŦāϝāĻŧ āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻž āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇ āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāϜ āĻ•āϰ⧇, āφāωāϟāĻĒ⧁āϟ āϜ⧁āĻĄāĻŧ⧇ āϗ⧁āĻŖāĻŽāĻžāύ āϏāĻ‚āϰāĻ•ā§āώāϪ⧇āϰ āĻŦ⧈āϚāĻŋāĻ¤ā§āĻ°ā§āϝ āĻšā§āϰāĻžāϏ āĻ•āϰ⧇ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āϤāĻĨā§āϝ āϧāϰ⧇ āϰāĻžāĻ–āĻžāϰ āωāĻĒāϰ āĻĻ⧃āĻˇā§āϟāĻŋ āύāĻŋāĻŦāĻĻā§āϧ āĻ•āϰ⧇āĨ¤ TRIM āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻ¸ā§āϤāϰ-āĻ¸ā§āϤāϰ⧇āϰ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻ•ā§ŒāĻļāϞāϗ⧁āϞāĻŋāϰ āϏāĻžāĻĨ⧇ āύāĻŋāĻ°ā§āĻŦāĻŋāĻ˜ā§āύ⧇ āĻāϕ⧀āĻ­ā§‚āϤ āĻšāϤ⧇ āĻĒāĻžāϰ⧇āĨ¤ āĻāĻ•āĻžāϧāĻŋāĻ• LLM āĻĒāϰāĻŋāĻŦāĻžāϰ (Qwen2.5, LLaMA-2 āĻāĻŦāĻ‚ OPT) āĻāĻŦāĻ‚ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻ¸ā§āϤāϰāϗ⧁āϞāĻŋāϤ⧇ āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ āĻāĻŦāĻ‚ āĻļā§‚āĻ¨ā§āϝ-āĻļāϟ āĻ•āĻžāĻœā§‡āϰ āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ āĻĻ⧇āĻ–āĻžāϝāĻŧ āϝ⧇ TRIM āύāϤ⧁āύ āĻ…āĻ¤ā§āϝāĻžāϧ⧁āύāĻŋāĻ• āĻĢāϞāĻžāĻĢāϞ āĻ…āĻ°ā§āϜāύ āĻ•āϰ⧇āϛ⧇ āĻāĻŦāĻ‚ āĻ¸ā§āĻĨāĻŋāϤāĻŋāĻļā§€āϞāϤāĻž āĻŦ⧃āĻĻā§āϧāĻŋ āĻ•āϰ⧇āϛ⧇āĨ¤ āωāĻĻāĻžāĻšāϰāĻŖāĻ¸ā§āĻŦāϰ⧂āĻĒ, ā§Žā§Ļ% āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ⧇, TRIM āĻŦ⧇āϏāϞāĻžāχāύ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϤ⧁āϞāύāĻžāϝāĻŧ Qwen2.5-14B āĻāϰ āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ ā§Ēā§Ž% āĻšā§āϰāĻžāϏ āĻ•āϰ⧇āϛ⧇ āĻāĻŦāĻ‚ OPT-13B āĻāϰ āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ ⧝ā§Ļ% āĻāϰ āĻŦ⧇āĻļāĻŋ āĻšā§āϰāĻžāϏ āĻ•āϰ⧇āϛ⧇āĨ¤

āĻ—āĻŦ⧇āώāĻŖāĻž āĻĒāϟāĻ­ā§‚āĻŽāĻŋ āĻāĻŦāĻ‚ āĻĒā§āϰ⧇āϰāĻŖāĻž

āϏāĻŽāĻ¸ā§āϝāĻž āϏāĻ‚āĻœā§āĻžāĻž

āĻŦ⧃āĻšā§Ž āĻ­āĻžāώāĻž āĻŽāĻĄā§‡āϞ⧇āϰ āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ āĻ¸ā§āϕ⧇āϞ⧇āϰ āϏ⧂āϚāϕ⧀āϝāĻŧ āĻŦ⧃āĻĻā§āϧāĻŋāϰ āϏāĻžāĻĨ⧇, āĻŽāĻĄā§‡āϞ āĻ¸ā§āĻĨāĻžāĻĒāύāĻž āϗ⧁āϰ⧁āϤāϰ āĻŽā§‡āĻŽāϰāĻŋ āĻāĻŦāĻ‚ āĻ—āĻŖāύāĻž āϏāĻŽā§āĻĒāĻĻ āĻšā§āϝāĻžāϞ⧇āĻžā§āĻœā§‡āϰ āϏāĻŽā§āĻŽā§āĻ–ā§€āύ āĻšāϝāĻŧāĨ¤ āϝāĻĻāĻŋāĻ“ āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ āĻŦ⧃āĻĻā§āϧāĻŋ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āωāĻ¨ā§āύāϤāĻŋ āĻāĻŦāĻ‚ āωāĻĻā§€āϝāĻŧāĻŽāĻžāύ āĻ•ā§āώāĻŽāϤāĻž āύāĻŋāϝāĻŧ⧇ āφāϏ⧇, āĻāϟāĻŋ āϏāĻŽā§āĻĒāĻĻ-āϏ⧀āĻŽāĻŋāϤ āĻĒāϰāĻŋāĻŦ⧇āĻļ⧇ āĻ…āύ⧁āĻŽāĻžāύ āĻ•āϰāĻž āĻ•āĻ āĻŋāύ āĻ•āϰ⧇ āϤ⧋āϞ⧇āĨ¤

āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž

  1. āĻāϕ⧀āĻ­ā§‚āϤ āĻŦāĻŋāϰāϞāϤāĻž āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž: āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻāĻ•āĻ•āĻžāϞ⧀āύ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻĒāĻĻā§āϧāϤāĻŋ (āϝ⧇āĻŽāύ Wanda, OWL, AlphaPruning) āϏāĻžāϧāĻžāϰāĻŖāϤ āϏāĻŽāĻ¸ā§āϤ āĻ¸ā§āϤāϰ āĻŦāĻž āĻ¸ā§āϤāϰ⧇āϰ āĻŽāĻ§ā§āϝ⧇ āϏāĻŽāĻ¸ā§āϤ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻžāϝāĻŧ āĻāĻ•āχ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āĻĒā§āϰāϝāĻŧā§‹āĻ— āĻ•āϰ⧇
  2. āωāĻšā§āϚ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ⧇ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āϤ⧀āĻŦā§āϰ āĻšā§āϰāĻžāϏ: āϚāϰāĻŽ āĻŦāĻŋāϰāϞāϤāĻžāϝāĻŧ (>70%), āĻāϕ⧀āĻ­ā§‚āϤ āĻ•ā§ŒāĻļāϞ āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻ…āĻŦāύāϤāĻŋ āϘāϟāĻžāϝāĻŧ
  3. āĻŽāĻžāĻ¤ā§āϰāĻž āĻŦ⧈āώāĻŽā§āϝ āωāĻĒ⧇āĻ•ā§āώāĻž āĻ•āϰāĻž: āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻž āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻāϰ āĻĒā§āϰāϤāĻŋ āϏāĻ‚āĻŦ⧇āĻĻāύāĻļā§€āϞāϤāĻž āĻāĻŦāĻ‚ āϗ⧁āϰ⧁āĻ¤ā§āĻŦ⧇ āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝ āĻĒāĻžāĻ°ā§āĻĨāĻ•ā§āϝ āϰāϝāĻŧ⧇āϛ⧇

āĻ—āĻŦ⧇āώāĻŖāĻž āĻĒā§āϰ⧇āϰāĻŖāĻž

āĻĒ⧇āĻĒāĻžāϰāϟāĻŋ āĻĒāĻ°ā§āϝāĻŦ⧇āĻ•ā§āώāĻŖ āĻ•āϰ⧇ āϝ⧇ LLM āϗ⧁āϞāĻŋ āĻ…āύāĻ¨ā§āϝ āĻ“āϜāύ āĻāĻŦāĻ‚ āϏāĻ•ā§āϰāĻŋāϝāĻŧāĻ•āϰāĻŖ āĻŦ⧈āĻļāĻŋāĻˇā§āĻŸā§āϝ āϰāĻžāϖ⧇, āϝ⧇āĻŽāύ āĻŦāĻŋāĻļāĻŋāĻˇā§āϟ āĻŦāĻšāĻŋāϰāĻžāĻ—āϤ āĻŦ⧈āĻļāĻŋāĻˇā§āĻŸā§āϝ āĻāĻŦāĻ‚ āĻ…āĻ¤ā§āϝāĻ¨ā§āϤ āϤāĻŋāĻ°ā§āϝāĻ• āϏāĻ•ā§āϰāĻŋāϝāĻŧāĻ•āϰāĻŖ āĻŦāĻŋāϤāϰāĻŖāĨ¤ āĻāχ āĻŦ⧈āĻļāĻŋāĻˇā§āĻŸā§āϝāϗ⧁āϞāĻŋ āύāĻŋāĻ°ā§āĻĻ⧇āĻļ āĻ•āϰ⧇ āϝ⧇ āĻ¸ā§āϤāϰ⧇āϰ āĻŽāĻ§ā§āϝ⧇ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻž āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āϏāĻ‚āĻŦ⧇āĻĻāύāĻļā§€āϞāϤāĻž āϰāĻžāϖ⧇, āϤāĻžāχ āφāϰāĻ“ āϏ⧂āĻ•ā§āĻˇā§āĻŽ-āĻĻāĻžāύāĻžāĻĻāĻžāϰ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ āĻ•ā§ŒāĻļāϞ āĻĒā§āϰāϝāĻŧā§‹āϜāύāĨ¤

āĻŽā§‚āϞ āĻ…āĻŦāĻĻāĻžāύ

  1. āĻĒā§āϰāĻĨāĻŽ āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ: āĻĒā§āϰāϤāĻŋāϟāĻŋ āĻ¸ā§āϤāϰ⧇āϰ āĻŽāĻ§ā§āϝ⧇ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻžāϰ āϜāĻ¨ā§āϝ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āĻ—āĻŖāύāĻž āĻ•āϰāĻžāϰ āĻĒā§āϰāĻĨāĻŽ āĻ…ā§āϝāĻžāϞāĻ—āϰāĻŋāĻĻāĻŽ āĻĒā§āϰāĻ¸ā§āϤāĻžāĻŦ āĻ•āϰ⧇
  2. āϚāϰāĻŽ āĻŦāĻŋāϰāϞāϤāĻžāϝāĻŧ SOTA āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž: ā§Žā§Ļ% āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ⧇, āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϤ⧁āϞāύāĻžāϝāĻŧ āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝāĻ­āĻžāĻŦ⧇ āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ āĻšā§āϰāĻžāϏ āĻ•āϰ⧇ (Qwen2.5-14B ā§Ēā§Ž% āĻšā§āϰāĻžāϏ, OPT-13B ⧝ā§Ļ%+ āĻšā§āϰāĻžāϏ)
  3. āĻ—āĻ­ā§€āϰ āĻ…āĻ­āĻŋāĻœā§āĻžāϤāĻžāĻŽā§‚āϞāĻ• āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ: āĻĒā§āϰ⧁āύāĻŋāĻ‚ āϏāĻ‚āĻŦ⧇āĻĻāύāĻļā§€āϞāϤāĻž āĻāĻŦāĻ‚ āĻĄāĻžāωāύāĻ¸ā§āĻŸā§āϰāĻŋāĻŽ āĻ•āĻžāĻœā§‡āϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦ⧇ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻžāϰ āĻŦ⧈āώāĻŽā§āϝ āĻĒā§āϰāĻ•āĻžāĻļ āĻ•āϰ⧇
  4. āĻĒā§āϞāĻžāĻ—-āĻāĻ¨ā§āĻĄ-āĻĒā§āϞ⧇ āĻĄāĻŋāϜāĻžāχāύ: TRIM āϝ⧇āϕ⧋āύ⧋ āϗ⧁āϰ⧁āĻ¤ā§āĻŦ-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• āĻ¸ā§āϕ⧋āϰāĻŋāĻ‚ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻ…ā§āϝāĻžāϞāĻ—āϰāĻŋāĻĻāĻŽā§‡āϰ āϏāĻžāĻĨ⧇ āĻāϕ⧀āĻ­ā§‚āϤ āĻšāϤ⧇ āĻĒāĻžāϰ⧇, āĻ­āĻžāϞ āϏāĻžāĻ°ā§āĻŦāϜāύ⧀āύāϤāĻž āϏāĻš

āĻĒāĻĻā§āϧāϤāĻŋ āĻŦāĻŋāĻ¸ā§āϤāĻžāϰāĻŋāϤ

āĻ•āĻžāĻœā§‡āϰ āϏāĻ‚āĻœā§āĻžāĻž

āĻ“āϜāύ āĻŽā§āϝāĻžāĻŸā§āϰāĻŋāĻ•ā§āϏ W ∈ R^(D×N) āĻĻ⧇āĻ“āϝāĻŧāĻž, āϝ⧇āĻ–āĻžāύ⧇ D āĻšāϞ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻžāϰ āϏāĻ‚āĻ–ā§āϝāĻž, N āĻšāϞ āχāύāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻžāϰ āϏāĻ‚āĻ–ā§āϝāĻž, āϞāĻ•ā§āĻˇā§āϝ āĻšāϞ āĻĒā§āϰāϤāĻŋāϟāĻŋ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻž Wi,: āĻāϰ āϜāĻ¨ā§āϝ āϏāĻ°ā§āĻŦā§‹āĻ¤ā§āϤāĻŽ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ Si āύāĻŋāĻ°ā§āϧāĻžāϰāĻŖ āĻ•āϰāĻž, āϝāĻžāϤ⧇ āĻ—āĻĄāĻŧ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āĻĒā§‚āϰāĻŖ āĻ•āϰāĻžāϰ āϏāĻŽāϝāĻŧ āĻ¸ā§āϤāϰ⧇āϰ āϏāĻžāĻŽāĻ—ā§āϰāĻŋāĻ• āϗ⧁āĻŖāĻŽāĻžāύ āϏāĻ°ā§āĻŦāĻžāϧāĻŋāĻ• āĻ•āϰāĻž āϝāĻžāϝāĻŧāĨ¤

āĻŽā§‚āϞ āĻ…ā§āϝāĻžāϞāĻ—āϰāĻŋāĻĻāĻŽ: TRIM

āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āĻŦāĻŋāϰāϞāϤāĻž āϭ⧇āĻ•ā§āϟāϰ

TRIM āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āĻŦāĻŋāϰāϞāϤāĻž āϭ⧇āĻ•ā§āϟāϰ S = S1, S2, ..., SD āϏāĻ‚āĻœā§āĻžāĻžāϝāĻŧāĻŋāϤ āĻ•āϰ⧇, āϝ⧇āĻ–āĻžāύ⧇ Si ∈ 0,1 i-āϤāĻŽ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻžāϰ āϞāĻ•ā§āĻˇā§āϝ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āύāĻŋāĻ°ā§āĻĻāĻŋāĻˇā§āϟ āĻ•āϰ⧇āĨ¤ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āĻšāϞ:

1/D * ÎŖ(i=1 to D) Si = T

āϝ⧇āĻ–āĻžāύ⧇ T āĻšāϞ āĻ¸ā§āϤāϰ⧇āϰ āϞāĻ•ā§āĻˇā§āϝ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰāĨ¤

āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋāĻŽā§‚āϞāĻ• āϏāĻŽāĻ¨ā§āĻŦāϝāĻŧ āĻ…ā§āϝāĻžāϞāĻ—āϰāĻŋāĻĻāĻŽ

āĻ…ā§āϝāĻžāϞāĻ—āϰāĻŋāĻĻāĻŽ 1: āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋāĻŽā§‚āϞāĻ• āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• āĻŦāĻŋāϰāϞāϤāĻž āϏāĻŽāĻ¨ā§āĻŦāϝāĻŧ

  1. āφāϰāĻŽā§āĻ­ā§€āĻ•āϰāĻŖ: āĻ…āĻĒā§āϰ⧁āύāĻĄ āφāωāϟāĻĒ⧁āϟ Y ← WX āĻ—āĻŖāύāĻž āĻ•āϰ⧁āύ, Si = T āφāϰāĻŽā§āĻ­ āĻ•āϰ⧁āύ (āĻāϕ⧀āĻ­ā§‚āϤ āĻŦāĻŋāϤāϰāĻŖ)
  2. āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋāĻŽā§‚āϞāĻ• āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāĻœā§‡āĻļāύ (K āĻŦāĻžāϰ):
    • āĻŦāĻ°ā§āϤāĻŽāĻžāύ S āĻāϰ āωāĻĒāϰ āĻ­āĻŋāĻ¤ā§āϤāĻŋ āĻ•āϰ⧇ āĻĒā§āϰ⧁āύ āĻ•āϰ⧁āύ Wpruned āĻĒāĻžāύ
    • āĻĒā§āϰ⧁āύāĻĄ āφāωāϟāĻĒ⧁āϟ Åļ ← WprunedX āĻ—āĻŖāύāĻž āĻ•āϰ⧁āύ
    • āϏāĻžāĻŽāĻ—ā§āϰāĻŋāĻ• āϗ⧁āĻŖāĻŽāĻžāύ āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ āĻ•āϰ⧁āύ qk ← Qmetric(Y, Åļ)
    • āϏāĻ°ā§āĻŦā§‹āĻ¤ā§āϤāĻŽ āĻ•āύāĻĢāĻŋāĻ—āĻžāϰ⧇āĻļāύ āφāĻĒāĻĄā§‡āϟ āĻ•āϰ⧁āύ (āϝāĻĻāĻŋ qk > qbest)
    • āĻĒā§āϰāϤāĻŋāϟāĻŋ āĻŽāĻžāĻ¤ā§āϰāĻžāϰ āϗ⧁āĻŖāĻŽāĻžāύ āĻ—āĻŖāύāĻž āĻ•āϰ⧁āύ ci ← QmetricDimwise(Yi,:, Åļi,:)
    • āϗ⧁āĻŖāĻŽāĻžāύ āĻ¸ā§āϕ⧋āϰ 0,1 āĻĒāϰāĻŋāϏāϰ⧇ āĻ¸ā§āĻŦāĻžāĻ­āĻžāĻŦāĻŋāĻ• āĻ•āϰ⧁āύ
    • āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ Îą āĻĻāĻŋāϝāĻŧ⧇ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āϏāĻŽāĻ¨ā§āĻŦāϝāĻŧ āĻ•āϰ⧁āύ: δi ← Îąc'i
    • āĻ—āĻĄāĻŧ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āĻŦāϜāĻžāϝāĻŧ āϰāĻžāĻ–āϤ⧇ āĻĒ⧁āύāϰāĻžāϝāĻŧ āϕ⧇āĻ¨ā§āĻĻā§āϰ⧀āĻ­ā§‚āϤ āĻ•āϰ⧁āύ: Si ← δi - (1/D)ÎŖÎ´j + T
  3. āϰāĻŋāϟāĻžāĻ°ā§āύ: āϏāĻ°ā§āĻŦā§‹āĻ¤ā§āϤāĻŽ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ Sbest

āϗ⧁āĻŖāĻŽāĻžāύ āĻŽā§‡āĻŸā§āϰāĻŋāĻ•ā§āϏ

  • āĻ¸ā§āϤāϰ-āĻ¸ā§āϤāϰ⧇āϰ āϗ⧁āĻŖāĻŽāĻžāύ: āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ āĻ¸ā§āϤāϰ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āϗ⧁āĻŖāĻŽāĻžāύ āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ āĻ•āϰāϤ⧇ āϕ⧋āϏāĻžāχāύ āϏāĻžāĻĻ⧃āĻļā§āϝ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧁āύ
  • āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āϗ⧁āĻŖāĻŽāĻžāύ: āĻĒā§āϰāϤāĻŋāϟāĻŋ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻžāϰ āϕ⧋āϏāĻžāχāύ āϏāĻžāĻĻ⧃āĻļā§āϝ āĻ—āĻŖāύāĻž āĻ•āϰ⧁āύ, āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āϏāĻŽāĻ¨ā§āĻŦāϝāĻŧ āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž āĻĻāĻŋāύ

āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āωāĻĻā§āĻ­āĻžāĻŦāύ āĻĒāϝāĻŧ⧇āĻ¨ā§āϟ

  1. āĻ…āĻ­āĻŋāϝ⧋āϜāĻŋāϤ āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ: āχāϤāĻŋāĻŦāĻžāϚāĻ• āĻāĻŦāĻ‚ āύ⧇āϤāĻŋāĻŦāĻžāϚāĻ• āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰ⧇, āχāϤāĻŋāĻŦāĻžāϚāĻ• āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ āϗ⧁āĻŖāĻŽāĻžāύ āĻŦ⧈āϚāĻŋāĻ¤ā§āĻ°ā§āϝ āĻšā§āϰāĻžāϏ āĻ•āϰ⧇, āύ⧇āϤāĻŋāĻŦāĻžāϚāĻ• āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ āĻŦāĻšāĻŋāϰāĻžāĻ—āϤ-āϕ⧇āĻ¨ā§āĻĻā§āϰ⧀āĻ­ā§‚āϤ āĻ¸ā§āϤāϰ⧇āϰ āϜāĻ¨ā§āϝ āĻĒā§āϰāϝ⧋āĻœā§āϝ
  2. āϗ⧁āĻŖāĻŽāĻžāύ āĻŦ⧈āϚāĻŋāĻ¤ā§āĻ°ā§āϝ āĻ¨ā§āϝ⧂āύāϤāĻŽāĻ•āϰāĻŖ: āĻŽāĻžāĻ¤ā§āϰāĻž āϜ⧁āĻĄāĻŧ⧇ āϗ⧁āĻŖāĻŽāĻžāύ āĻ…āĻŦāύāϤāĻŋāϰ āĻŦ⧈āϚāĻŋāĻ¤ā§āĻ°ā§āϝ āĻšā§āϰāĻžāϏ āĻ•āϰ⧇ āϏāĻžāĻŽāĻ—ā§āϰāĻŋāĻ• āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āωāĻ¨ā§āύāϤ āĻ•āϰ⧁āύ
  3. āϏāĻžāĻŽāĻžā§āϜāĻ¸ā§āϝāĻĒā§‚āĻ°ā§āĻŖ āĻĄāĻŋāϜāĻžāχāύ: āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻ¸ā§āϕ⧋āϰāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽ (Wanda, Magnitude, SparseGPT, GBLM) āĻāϰ āϏāĻžāĻĨ⧇ āĻāϕ⧀āĻ­ā§‚āϤ āĻšāϤ⧇ āĻĒāĻžāϰ⧇

āĻĒāϰ⧀āĻ•ā§āώāĻžāĻŽā§‚āϞāĻ• āϏ⧇āϟāφāĻĒ

āĻĄā§‡āϟāĻžāϏ⧇āϟ

  • āĻŽāĻĄā§‡āϞ: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
  • āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ āĻĄā§‡āϟāĻž: WikiText āϝāĻžāϚāĻžāχāĻ•āϰāĻŖ āϏ⧇āϟ (āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ), C4 āĻāĻŦāĻ‚ Pile (āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ āϝāĻžāϚāĻžāχāĻ•āϰāĻŖ)
  • āĻĄāĻžāωāύāĻ¸ā§āĻŸā§āϰāĻŋāĻŽ āĻ•āĻžāϜ: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ āĻŽā§‡āĻŸā§āϰāĻŋāĻ•ā§āϏ

  • āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ: WikiText āϝāĻžāϚāĻžāχāĻ•āϰāĻŖ āϏ⧇āĻŸā§‡ āĻ­āĻžāώāĻž āĻŽāĻĄā§‡āϞāĻŋāĻ‚ āĻ•ā§āώāĻŽāϤāĻž āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ āĻ•āϰ⧁āύ
  • āĻļā§‚āĻ¨ā§āϝ-āĻļāϟ āύāĻŋāĻ°ā§āϭ⧁āϞāϤāĻž: ā§­āϟāĻŋ āĻĄāĻžāωāύāĻ¸ā§āĻŸā§āϰāĻŋāĻŽ āĻ•āĻžāĻœā§‡ āĻ—āĻĄāĻŧ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž

āϤ⧁āϞāύāĻž āĻĒāĻĻā§āϧāϤāĻŋ

  • āĻŦ⧇āϏāϞāĻžāχāύ āĻĒāĻĻā§āϧāϤāĻŋ: OWL, AlphaPruning (Wanda-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ•)
  • āĻ…ā§āϝāĻžāĻŦāϞ⧇āĻļāύ āĻ…āĻ§ā§āϝāϝāĻŧāύ: āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āϗ⧁āĻŖāĻŽāĻžāύ āĻŽā§‡āĻŸā§āϰāĻŋāĻ•ā§āϏ, āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ āϏ⧇āϟāĻŋāĻ‚āϏ, āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋ āϏāĻ‚āĻ–ā§āϝāĻžāϰ āĻĒā§āϰāĻ­āĻžāĻŦ

āĻŦāĻžāĻ¸ā§āϤāĻŦāĻžāϝāĻŧāύ āĻŦāĻŋāĻŦāϰāĻŖ

  • āĻ•ā§āϝāĻžāϞāĻŋāĻŦā§āϰ⧇āĻļāύ āύāĻŽā§āύāĻž: C4 āĻĄā§‡āϟāĻžāϏ⧇āϟ āĻĨ⧇āϕ⧇ āĻāϞ⧋āĻŽā§‡āϞ⧋āĻ­āĻžāĻŦ⧇ āύāĻŋāĻ°ā§āĻŦāĻžāϚāĻŋāϤ, āϏāĻŋāϕ⧋āϝāĻŧ⧇āĻ¨ā§āϏ āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ 2048
  • āĻŦāĻŋāϰāϞāϤāĻžāϰ āϏ⧀āĻŽāĻž: āĻāĻ•āĻ• āĻŽāĻžāĻ¤ā§āϰāĻž āϏāĻ°ā§āĻŦāĻžāϧāĻŋāĻ• 95% āĻ…āϤāĻŋāĻĢāĻŋāϟāĻŋāĻ‚ āĻĒā§āϰāϤāĻŋāϰ⧋āϧ āĻ•āϰāϤ⧇
  • āĻšāĻžāχāĻĒāĻžāϰāĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ: K=10 āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋ, āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ Îą āĻ—ā§āϰāĻŋāĻĄ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ⧇āϰ āĻŽāĻžāĻ§ā§āϝāĻŽā§‡ āύāĻŋāĻ°ā§āϧāĻžāϰāĻŋāϤ

āĻĒāϰ⧀āĻ•ā§āώāĻžāĻŽā§‚āϞāĻ• āĻĢāϞāĻžāĻĢāϞ

āĻĒā§āϰāϧāĻžāύ āĻĢāϞāĻžāĻĢāϞ

āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž (ā§Žā§Ļ% āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ)

āĻŽāĻĄā§‡āϞOWL āĻŦ⧇āϏāϞāĻžāχāύOWL+TRIMāωāĻ¨ā§āύāϤāĻŋāϰ āĻĒāϰāĻŋāĻŽāĻžāĻŖ
Qwen2.5-14B348.48180.67-48%
OPT-13B6461.43324.14-95%
LLaMA-2-13B225.04154.83-31%

āĻļā§‚āĻ¨ā§āϝ-āĻļāϟ āĻ•āĻžāĻœā§‡āϰ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž

TRIM āϏāĻŽāĻ¸ā§āϤ āĻĒāϰ⧀āĻ•ā§āώāĻŋāϤ āĻŽāĻĄā§‡āϞ āĻāĻŦāĻ‚ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻ¸ā§āϤāϰ⧇ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āωāĻ¨ā§āύāϤāĻŋ āĻ…āĻ°ā§āϜāύ āĻ•āϰ⧇, ā§Žā§Ļ% āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ⧇ āĻ—āĻĄāĻŧ 0.46-0.65 āĻļāϤāĻžāĻ‚āĻļ āĻĒāϝāĻŧ⧇āĻ¨ā§āϟ āωāĻ¨ā§āύāϤāĻŋāĨ¤

āĻ…ā§āϝāĻžāĻŦāϞ⧇āĻļāύ āĻĒāϰ⧀āĻ•ā§āώāĻž

āϗ⧁āĻŖāĻŽāĻžāύ āĻŽā§‡āĻŸā§āϰāĻŋāĻ•ā§āϏ āϤ⧁āϞāύāĻž

  • āĻ¸ā§āϤāϰ-āĻ¸ā§āϤāϰ⧇āϰ āϗ⧁āĻŖāĻŽāĻžāύ: āϕ⧋āϏāĻžāχāύ āϏāĻžāĻĻ⧃āĻļā§āϝ āϏāĻŦāĻšā§‡āϝāĻŧ⧇ āĻ¸ā§āĻĨāĻŋāϤāĻŋāĻļā§€āϞ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻĻ⧇āĻ–āĻžāϝāĻŧ
  • āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āϗ⧁āĻŖāĻŽāĻžāύ: āϕ⧋āϏāĻžāχāύ āϏāĻžāĻĻ⧃āĻļā§āϝ MSE āĻāĻŦāĻ‚ PSNR āĻāϰ āϤ⧁āϞāύāĻžāϝāĻŧ āφāϰāĻ“ āύāĻŋāĻ°ā§āĻ­āϰāϝ⧋āĻ—ā§āϝ

āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āϏ⧂āϚāϕ⧇āϰ āϏāĻžāϧāĻžāϰāĻŖā§€āĻ•āϰāĻŖ

TRIM Magnitude, SparseGPT, GBLM āχāĻ¤ā§āϝāĻžāĻĻāĻŋ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻ¸ā§āϕ⧋āϰāĻŋāĻ‚ āύāĻŋāϝāĻŧāĻŽā§‡ āωāĻ¨ā§āύāϤāĻŋ āĻĻ⧇āĻ–āĻžāϝāĻŧ, āĻĒāĻĻā§āϧāϤāĻŋāϰ āϏāĻžāĻ°ā§āĻŦāϜāύ⧀āύāϤāĻž āϝāĻžāϚāĻžāχ āĻ•āϰ⧇āĨ¤

āĻŽā§‚āϞ āφāĻŦāĻŋāĻˇā§āĻ•āĻžāϰ

āĻĒāĻ°ā§āϝāĻŦ⧇āĻ•ā§āώāĻŖ 1: āĻŽāĻžāĻ¤ā§āϰāĻž āĻŦ⧈āώāĻŽā§āϝ

Gini āϏāĻšāĻ— āĻŦāĻŋāĻļā§āϞ⧇āώāϪ⧇āϰ āĻŽāĻžāĻ§ā§āϝāĻŽā§‡ āφāĻŦāĻŋāĻˇā§āĻ•āĻžāϰ āĻ•āϰāĻž āϝāĻžāϝāĻŧ āϝ⧇ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āφāωāϟāĻĒ⧁āϟ āĻŽāĻžāĻ¤ā§āϰāĻžāϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦ āĻ¸ā§āϕ⧋āϰ⧇āϰ āϘāύāĻ¤ā§āĻŦ⧇ āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝ āĻĒāĻžāĻ°ā§āĻĨāĻ•ā§āϝ āϰāϝāĻŧ⧇āϛ⧇, āϝāĻž āĻĒā§āϰ⧁āύāĻŋāĻ‚ āϏāĻ‚āĻŦ⧇āĻĻāύāĻļā§€āϞāϤāĻžāϰ āĻĻāĻŋāϕ⧇ āĻĒāϰāĻŋāϚāĻžāϞāĻŋāϤ āĻ•āϰ⧇āĨ¤

āĻĒāĻ°ā§āϝāĻŦ⧇āĻ•ā§āώāĻŖ 2: āĻ…-āϰ⧈āĻ–āĻŋāĻ• āϗ⧁āĻŖāĻŽāĻžāύ āĻ…āĻŦāύāϤāĻŋ

āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āĻŦ⧃āĻĻā§āϧāĻŋāϰ āϏāĻžāĻĨ⧇ āϏāĻžāĻĨ⧇, āϗ⧁āĻŖāĻŽāĻžāύ āĻ…āĻŦāύāϤāĻŋ āĻ¤ā§āĻŦāϰāĻžāĻ¨ā§āĻŦāĻŋāϤ āĻĒā§āϰāĻŦāĻŖāϤāĻž āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ āĻ•āϰ⧇, āϏ⧂āĻ•ā§āĻˇā§āĻŽ āĻŦāϰāĻžāĻĻā§āĻĻ āφāϰāĻ“ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻ•āϰ⧇ āϤ⧋āϞ⧇āĨ¤

āĻĒāĻ°ā§āϝāĻŦ⧇āĻ•ā§āώāĻŖ 3: āĻŽāĻžāĻ¤ā§āϰāĻž āϗ⧁āϰ⧁āĻ¤ā§āĻŦ āĻĒāĻžāĻ°ā§āĻĨāĻ•ā§āϝ

āĻĒāϰ⧀āĻ•ā§āώāĻž āĻĻ⧇āĻ–āĻžāϝāĻŧ āϝ⧇ āĻāĻ•āĻ• āĻŽāĻžāĻ¤ā§āϰāĻž āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖāĻ­āĻžāĻŦ⧇ āϏāϰāĻžāύ⧋āϰ āĻĒā§āϰāĻ­āĻžāĻŦ āĻŦāĻŋāĻļāĻžāϞ:

  • āĻ¨ā§āϝ⧂āύāϤāĻŽ L2 āύāĻ°ā§āĻŽ āĻŽāĻžāĻ¤ā§āϰāĻž: āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ āĻŽāĻžāĻ¤ā§āϰ 0.16 āĻŦ⧃āĻĻā§āϧāĻŋ āĻĒāĻžāϝāĻŧ
  • āϏāĻ°ā§āĻŦāĻžāϧāĻŋāĻ• L2 āύāĻ°ā§āĻŽ āĻŽāĻžāĻ¤ā§āϰāĻž: āĻŦāĻŋāĻ­ā§āϰāĻžāĻ¨ā§āϤāĻŋ 273.10 āĻ āĻŦ⧃āĻĻā§āϧāĻŋ āĻĒāĻžāϝāĻŧ

āϏāĻŽā§āĻĒāĻ°ā§āĻ•āĻŋāϤ āĻ•āĻžāϜ

āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻĒāĻĻā§āϧāϤāĻŋ āĻļā§āϰ⧇āĻŖā§€āĻŦāĻŋāĻ­āĻžāĻ—

  1. āĻ—ā§āϰ⧇āĻĄāĻŋāϝāĻŧ⧇āĻ¨ā§āϟ-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• āĻĒāĻĻā§āϧāϤāĻŋ: SNIP, GraSP, SynFlow āχāĻ¤ā§āϝāĻžāĻĻāĻŋ, āĻ—ā§āϰ⧇āĻĄāĻŋāϝāĻŧ⧇āĻ¨ā§āϟ āϤāĻĨā§āϝ āĻāĻŦāĻ‚ āĻĒ⧁āύāϰāĻžāϝāĻŧ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĒā§āϰāϝāĻŧā§‹āϜāύ
  2. āĻāĻ•āĻ•āĻžāϞ⧀āύ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻĒāĻĻā§āϧāϤāĻŋ: SparseGPT, Wanda āχāĻ¤ā§āϝāĻžāĻĻāĻŋ, āĻĒ⧁āύāϰāĻžāϝāĻŧ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāϪ⧇āϰ āĻĒā§āϰāϝāĻŧā§‹āϜāύ āύ⧇āχ āĻ•āĻŋāĻ¨ā§āϤ⧁ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āϏ⧀āĻŽāĻŋāϤ
  3. āĻ¸ā§āϤāϰ-āĻ¸ā§āϤāϰ⧇āϰ āĻ…āĻ­āĻŋāϝ⧋āϜāĻŋāϤ āĻĒāĻĻā§āϧāϤāĻŋ: OWL, AlphaPruning āχāĻ¤ā§āϝāĻžāĻĻāĻŋ, āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻ¸ā§āϤāϰ⧇ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āĻŦāϰāĻžāĻĻā§āĻĻ āĻ•āϰ⧇

TRIM āĻāϰ āĻ…āĻŦāĻ¸ā§āĻĨāĻžāύ

TRIM āĻ¸ā§āϤāϰ⧇āϰ āĻŽāĻ§ā§āϝ⧇ āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ āĻ•āϰāĻžāϰ āĻĒā§āϰāĻĨāĻŽ āĻĒāĻĻā§āϧāϤāĻŋ, āϏ⧂āĻ•ā§āĻˇā§āĻŽ-āĻĻāĻžāύāĻžāĻĻāĻžāϰ āύāĻŋāϝāĻŧāĻ¨ā§āĻ¤ā§āϰāϪ⧇ āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻĒāĻĻā§āϧāϤāĻŋāϰ āĻĢāĻžāρāĻ• āĻĒā§‚āϰāĻŖ āĻ•āϰ⧇āĨ¤

āωāĻĒāϏāĻ‚āĻšāĻžāϰ āĻāĻŦāĻ‚ āφāϞ⧋āϚāύāĻž

āĻĒā§āϰāϧāĻžāύ āωāĻĒāϏāĻ‚āĻšāĻžāϰ

  1. āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ⧇āϰ āĻĒā§āϰāϝāĻŧā§‹āϜāύ⧀āϝāĻŧāϤāĻž: āϚāϰāĻŽ āĻŦāĻŋāϰāϞāϤāĻžāϝāĻŧ, āϏ⧂āĻ•ā§āĻˇā§āĻŽ-āĻĻāĻžāύāĻžāĻĻāĻžāϰ āύāĻŋāϝāĻŧāĻ¨ā§āĻ¤ā§āϰāĻŖ āĻŽāĻĄā§‡āϞ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻŦāϜāĻžāϝāĻŧ āϰāĻžāĻ–āĻžāϰ āϜāĻ¨ā§āϝ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ
  2. āϗ⧁āĻŖāĻŽāĻžāύ āĻŦ⧈āϚāĻŋāĻ¤ā§āĻ°ā§āϝ āĻ¨ā§āϝ⧂āύāϤāĻŽāĻ•āϰāϪ⧇āϰ āĻ•āĻžāĻ°ā§āϝāĻ•āĻžāϰāĻŋāϤāĻž: āĻŽāĻžāĻ¤ā§āϰāĻž āϜ⧁āĻĄāĻŧ⧇ āϗ⧁āĻŖāĻŽāĻžāύ āĻ…āĻŦāύāϤāĻŋ āĻ­āĻžāϰāϏāĻžāĻŽā§āϝ āϰ⧇āϖ⧇ āϏāĻžāĻŽāĻ—ā§āϰāĻŋāĻ• āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝāĻ­āĻžāĻŦ⧇ āωāĻ¨ā§āύāϤ āĻ•āϰāĻž āϝāĻžāϝāĻŧ
  3. āĻĒāĻĻā§āϧāϤāĻŋāϰ āϏāĻžāĻ°ā§āĻŦāϜāύ⧀āύāϤāĻž: TRIM āĻāĻ•āĻžāϧāĻŋāĻ• āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻ…ā§āϝāĻžāϞāĻ—āϰāĻŋāĻĻāĻŽā§‡āϰ āϏāĻžāĻĨ⧇ āĻāϕ⧀āĻ­ā§‚āϤ āĻšāϤ⧇ āĻĒāĻžāϰ⧇, āĻ­āĻžāϞ āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖāϝ⧋āĻ—ā§āϝāϤāĻž āϏāĻš

āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž

  1. āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ āύāĻŋāĻ°ā§āĻŦāĻžāϚāύ⧇āϰ āϜāϟāĻŋāϞāϤāĻž: āĻŦāĻšāĻŋāϰāĻžāĻ—āϤ-āϕ⧇āĻ¨ā§āĻĻā§āϰ⧀āĻ­ā§‚āϤ āĻ¸ā§āϤāϰ⧇āϰ āϜāĻ¨ā§āϝ āύ⧇āϤāĻŋāĻŦāĻžāϚāĻ• āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ āĻĒā§āϰāϝāĻŧā§‹āϜāύ, āĻšāĻžāχāĻĒāĻžāϰāĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ āϟāĻŋāωāύāĻŋāĻ‚ āϜāϟāĻŋāϞāϤāĻž āĻŦ⧃āĻĻā§āϧāĻŋ āĻ•āϰ⧇
  2. āĻ…-āĻ•āĻžāĻ āĻžāĻŽā§‹āĻ—āϤ āĻŦāĻŋāϰāϞāϤāĻž: āĻŦāĻ°ā§āϤāĻŽāĻžāύ āĻĒāĻĻā§āϧāϤāĻŋ āϏāϰāĻžāϏāϰāĻŋ n:m āĻāϰ āĻŽāϤ⧋ āĻ•āĻžāĻ āĻžāĻŽā§‹āĻ—āϤ āĻŦāĻŋāϰāϞāϤāĻž āĻĒā§āϝāĻžāϟāĻžāĻ°ā§āύ āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰ⧇ āύāĻž
  3. āĻ—āĻŖāύāĻž āĻ“āĻ­āĻžāϰāĻšā§‡āĻĄ: āĻĒ⧁āύāϰāĻžāĻŦ⧃āĻ¤ā§āϤāĻŋāĻŽā§‚āϞāĻ• āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻž āĻĒā§āϰāĻžāϝāĻŧ 8% āϚāĻžāϞ⧁ āϏāĻŽāϝāĻŧ āĻŦ⧃āĻĻā§āϧāĻŋ āĻ•āϰ⧇

āĻ­āĻŦāĻŋāĻˇā§āϝāϤ āĻĻāĻŋāĻ•āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž

  1. āĻ•āĻžāĻ āĻžāĻŽā§‹āĻ—āϤ āĻŦāĻŋāϰāϞāϤāĻž āϏāĻŽāĻ°ā§āĻĨāύ: TRIM āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ āĻ•āϰ⧁āύ āĻšāĻžāĻ°ā§āĻĄāĻ“āϝāĻŧā§āϝāĻžāϰ-āĻŦāĻžāĻ¨ā§āϧāĻŦ āĻŦāĻŋāϰāϞāϤāĻž āĻĒā§āϝāĻžāϟāĻžāĻ°ā§āύ āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰāϤ⧇
  2. āĻ¸ā§āĻŦāϝāĻŧāĻ‚āĻ•ā§āϰāĻŋāϝāĻŧ āĻļ⧇āĻ–āĻžāϰ āĻšāĻžāϰ āύāĻŋāĻ°ā§āĻŦāĻžāϚāύ: āĻšāĻžāχāĻĒāĻžāϰāĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ āϟāĻŋāωāύāĻŋāĻ‚ āĻĒā§āϰāϝāĻŧā§‹āϜāύ āĻšā§āϰāĻžāϏ āĻ•āϰāϤ⧇ āĻ…āĻ­āĻŋāϝ⧋āϜāĻŋāϤ āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻž āĻŦāĻŋāĻ•āĻžāĻļ āĻ•āϰ⧁āύ
  3. āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ: āĻŽāĻžāĻ¤ā§āϰāĻž āϗ⧁āϰ⧁āĻ¤ā§āĻŦ āĻāĻŦāĻ‚ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āϏāĻ‚āĻŦ⧇āĻĻāύāĻļā§€āϞāϤāĻžāϰ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻ•āĻžāĻ āĻžāĻŽā§‹ āĻĒā§āϰāϤāĻŋāĻˇā§āĻ āĻž āĻ•āϰ⧁āύ

āĻ—āĻ­ā§€āϰ āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ

āϏ⧁āĻŦāĻŋāϧāĻž

  1. āĻļāĻ•ā§āϤāĻŋāĻļāĻžāϞ⧀ āωāĻĻā§āĻ­āĻžāĻŦāύ⧀: āĻĒā§āϰāĻĨāĻŽāĻŦāĻžāϰ āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ āĻĒā§āϰāĻ¸ā§āϤāĻžāĻŦ āĻ•āϰ⧇, āύāϤ⧁āύ āϚāĻŋāĻ¨ā§āϤāĻžāĻ­āĻžāĻŦāύāĻž
  2. āĻĒāĻ°ā§āϝāĻžāĻĒā§āϤ āĻĒāϰ⧀āĻ•ā§āώāĻž: āĻāĻ•āĻžāϧāĻŋāĻ• āĻŽāĻĄā§‡āϞ āĻĒāϰāĻŋāĻŦāĻžāϰ āĻāĻŦāĻ‚ āĻ•āĻžāĻœā§‡ āĻĒāĻĻā§āϧāϤāĻŋāϰ āĻ•āĻžāĻ°ā§āϝāĻ•āĻžāϰāĻŋāϤāĻž āϝāĻžāϚāĻžāχ āĻ•āϰ⧇
  3. āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āϏāĻŽāĻ°ā§āĻĨāύ: āĻ—āĻ­ā§€āϰ āĻŦāĻŋāĻļā§āϞ⧇āώāϪ⧇āϰ āĻŽāĻžāĻ§ā§āϝāĻŽā§‡ āĻĒāĻĻā§āϧāϤāĻŋ āĻ•āĻžāĻ°ā§āϝāĻ•āĻžāϰāĻŋāϤāĻžāϰ āĻŽā§‚āϞ āĻ•āĻžāϰāĻŖ āĻĒā§āϰāĻ•āĻžāĻļ āĻ•āϰ⧇
  4. āωāĻšā§āϚ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝ: āĻĒā§āϞāĻžāĻ—-āĻāĻ¨ā§āĻĄ-āĻĒā§āϞ⧇ āĻĄāĻŋāϜāĻžāχāύ āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽā§‡ āϏāĻšāϜ āĻāϕ⧀āĻ•āϰāĻŖ āĻ•āϰ⧇

āĻ…āĻĒā§‚āĻ°ā§āĻŖāϤāĻž

  1. āĻĒāĻĻā§āϧāϤāĻŋ āϜāϟāĻŋāϞāϤāĻž: āĻŦ⧇āϏāϞāĻžāχāύ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϤ⧁āϞāύāĻžāϝāĻŧ āĻ…ā§āϝāĻžāϞāĻ—āϰāĻŋāĻĻāĻŽ āϜāϟāĻŋāϞāϤāĻž āĻāĻŦāĻ‚ āĻšāĻžāχāĻĒāĻžāϰāĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ āĻŦ⧃āĻĻā§āϧāĻŋ āĻ•āϰ⧇
  2. āĻšāĻžāĻ°ā§āĻĄāĻ“āϝāĻŧā§āϝāĻžāϰ āĻ…āĻ­āĻŋāϝ⧋āϜāύāϝ⧋āĻ—ā§āϝāϤāĻž: āĻ…-āĻ•āĻžāĻ āĻžāĻŽā§‹āĻ—āϤ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāĻŋāĻļ⧇āώāĻžāϝāĻŧāĻŋāϤ āĻšāĻžāĻ°ā§āĻĄāĻ“āϝāĻŧā§āϝāĻžāϰ⧇ āĻ¤ā§āĻŦāϰāĻŖ āϏ⧀āĻŽāĻŋāϤ āĻ•āϰ⧇
  3. āĻ…āĻĒāĻ°ā§āϝāĻžāĻĒā§āϤ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ: āϏāĻ°ā§āĻŦā§‹āĻ¤ā§āϤāĻŽ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ⧇āϰ āϜāĻ¨ā§āϝ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻ—ā§āϝāĻžāϰāĻžāĻ¨ā§āϟāĻŋ āĻ…āĻ­āĻžāĻŦ

āĻĒā§āϰāĻ­āĻžāĻŦ

  1. āĻāĻ•āĻžāĻĄā§‡āĻŽāĻŋāĻ• āĻ…āĻŦāĻĻāĻžāύ: LLM āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇ āύāϤ⧁āύ āĻ—āĻŦ⧇āώāĻŖāĻž āĻĻāĻŋāĻ•āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇
  2. āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝ: āϏāĻŽā§āĻĒāĻĻ-āϏ⧀āĻŽāĻŋāϤ āĻĒāϰāĻŋāĻŦ⧇āĻļ⧇ āĻŦāĻĄāĻŧ āĻŽāĻĄā§‡āϞ āĻ¸ā§āĻĨāĻžāĻĒāύ⧇ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻ…āĻ°ā§āĻĨ āϰāĻžāϖ⧇
  3. āĻĒ⧁āύāĻ°ā§ā§ŽāĻĒāĻžāĻĻāύāϝ⧋āĻ—ā§āϝāϤāĻž: āĻ“āĻĒ⧇āύ āϏ⧋āĻ°ā§āϏ āϕ⧋āĻĄ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇, āĻĒāϰāĻŦāĻ°ā§āϤ⧀ āĻ—āĻŦ⧇āώāĻŖāĻž āϏāĻšāϜāϤāϰ āĻ•āϰ⧇

āĻĒā§āϰāϝ⧋āĻœā§āϝ āĻĻ⧃āĻļā§āϝāĻ•āĻ˛ā§āĻĒ

  1. āϚāϰāĻŽ āĻŦāĻŋāϰāϞāϤāĻž āĻĒā§āϰāϝāĻŧā§‹āϜāύ: āĻŦāĻŋāĻļ⧇āώāĻ­āĻžāĻŦ⧇ >70% āĻŦāĻŋāϰāϞāϤāĻžāϰ āĻšāĻžāϰ āĻĒā§āϰāϝāĻŧā§‹āϜāύ⧀āϝāĻŧ āĻĻ⧃āĻļā§āϝāĻ•āĻ˛ā§āĻĒ⧇āϰ āϜāĻ¨ā§āϝ āωāĻĒāϝ⧁āĻ•ā§āϤ
  2. āϏāĻŽā§āĻĒāĻĻ-āϏ⧀āĻŽāĻŋāϤ āĻĒāϰāĻŋāĻŦ⧇āĻļ: āĻĒā§āϰāĻžāĻ¨ā§āϤ āĻĄāĻŋāĻ­āĻžāχāϏ, āĻŽā§‹āĻŦāĻžāχāϞ āχāĻ¤ā§āϝāĻžāĻĻāĻŋ āĻ—āĻŖāύāĻž āϏāĻŽā§āĻĒāĻĻ āϏ⧀āĻŽāĻŋāϤ āĻĻ⧃āĻļā§āϝāĻ•āĻ˛ā§āĻĒ⧇
  3. āĻ—āĻŦ⧇āώāĻŖāĻž āωāĻĻā§āĻĻ⧇āĻļā§āϝ: āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻ…ā§āϝāĻžāϞāĻ—āϰāĻŋāĻĻāĻŽ āĻ—āĻŦ⧇āώāĻŖāĻžāϰ āϜāĻ¨ā§āϝ āύāϤ⧁āύ āĻŦ⧇āĻžā§āϚāĻŽāĻžāĻ°ā§āĻ• āĻāĻŦāĻ‚ āϚāĻŋāĻ¨ā§āϤāĻžāĻ­āĻžāĻŦāύāĻž āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇

āϏāĻ‚āĻĻāĻ°ā§āĻ­

āĻĒ⧇āĻĒāĻžāϰāϟāĻŋ āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇āϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻ•āĻžāϜ āωāĻĻā§āϧ⧃āϤ āĻ•āϰ⧇, āϝāĻžāϰ āĻŽāĻ§ā§āϝ⧇ āϰāϝāĻŧ⧇āϛ⧇:

  • āĻ•ā§āϞāĻžāϏāĻŋāĻ• āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻĒāĻĻā§āϧāϤāĻŋ: Le Cun et al. (1989), Han et al. (2015)
  • āφāϧ⧁āύāĻŋāĻ• LLM āĻĒā§āϰ⧁āύāĻŋāĻ‚: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
  • āĻ¸ā§āϤāϰ-āĻ¸ā§āϤāϰ⧇āϰ āĻ…āĻ­āĻŋāϝ⧋āϜāĻŋāϤ āĻĒāĻĻā§āϧāϤāĻŋ: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

āϏāĻžāϰāϏāĻ‚āĻ•ā§āώ⧇āĻĒ: TRIM āĻŽāĻžāĻ¤ā§āϰāĻž-āĻ¸ā§āϤāϰ⧇āϰ āĻŦāĻŋāϰāϞāϤāĻž āĻŦāϰāĻžāĻĻā§āĻĻ āĻĒā§āϰāĻŦāĻ°ā§āϤāύ āĻ•āϰ⧇, āϚāϰāĻŽ āĻŦāĻŋāϰāϞāϤāĻžāϝāĻŧ LLM āĻĒā§āϰ⧁āύāĻŋāĻ‚ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝāĻ­āĻžāĻŦ⧇ āωāĻ¨ā§āύāϤ āĻ•āϰ⧇āĨ¤ āĻāχ āĻĒāĻĻā§āϧāϤāĻŋ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝ āĻāĻŦāĻ‚ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āĻ…āĻ°ā§āĻĨ āϰāĻžāϖ⧇, āĻŦāĻĄāĻŧ āĻŽāĻĄā§‡āϞ āϏāĻ‚āϕ⧋āϚāύ āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇ āύāϤ⧁āύ āĻ—āĻŦ⧇āώāĻŖāĻž āĻĻāĻŋāĻ•āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž āϖ⧁āϞ⧇ āĻĻ⧇āϝāĻŧāĨ¤ āĻ•āĻŋāϛ⧁ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āĻĨāĻžāĻ•āϞ⧇āĻ“, āĻāϰ āωāĻĻā§āĻ­āĻžāĻŦāύ⧀ āĻāĻŦāĻ‚ āĻ•āĻžāĻ°ā§āϝāĻ•āĻžāϰāĻŋāϤāĻž āĻāϟāĻŋāϕ⧇ āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇āϰ āĻāĻ•āϟāĻŋ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻ…āĻŦāĻĻāĻžāύ āĻ•āϰ⧇ āϤ⧋āϞ⧇āĨ¤