2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic

āφāĻĒāύāĻžāϰ āϏ⧂āϚāĻ•āϗ⧁āϞāĻŋ āϏāĻžāϰāĻŋāĻŦāĻĻā§āϧ āĻ•āϰāĻž: āĻŦāĻžāĻ¸ā§āϤāĻŦ āĻŦāĻŋāĻļā§āĻŦ⧇āϰ āϜāĻ¨ā§āϝ LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϰ āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ-āĻĒāĻžāĻ ā§āϝ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ

āĻŽā§ŒāϞāĻŋāĻ• āϤāĻĨā§āϝ

  • āĻĒ⧇āĻĒāĻžāϰ āφāχāĻĄāĻŋ: 2510.09471
  • āĻļāĻŋāϰ⧋āύāĻžāĻŽ: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
  • āϞ⧇āĻ–āĻ•: InÊs Altemir MariÃąas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
  • āĻļā§āϰ⧇āĻŖā§€āĻŦāĻŋāĻ­āĻžāĻ—: cs.CL (āĻ•āĻŽā§āĻĒāĻŋāωāĻŸā§‡āĻļāύāĻžāϞ āĻ­āĻžāώāĻžāĻŦāĻŋāĻœā§āĻžāĻžāύ)
  • āĻĒā§āϰāĻ•āĻžāĻļāύāĻž āϏāĻŽā§āĻŽā§‡āϞāύ: WWW '26 (The Web Conference 2026)
  • āĻĒ⧇āĻĒāĻžāϰ āϞāĻŋāĻ™ā§āĻ•: https://arxiv.org/abs/2510.09471

āϏāĻžāϰāϏāĻ‚āĻ•ā§āώ⧇āĻĒ

āĻŦ⧃āĻšā§Ž āĻ­āĻžāώāĻž āĻŽāĻĄā§‡āϞ (LLM) āĻāϰ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻāϰ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϰ āωāĻĒāϰ āύāĻŋāĻ°ā§āĻ­āϰ āĻ•āϰ⧇āĨ¤ āϝāĻĻāĻŋāĻ“ āĻ–ā§‹āϞāĻž āĻ“āϜāύ⧇āϰ LLM āĻ•ā§āϰāĻŽāĻŦāĻ°ā§āϧāĻŽāĻžāύ āĻŦ⧃āĻĻā§āϧāĻŋ āĻĒāĻžāĻšā§āϛ⧇, āϤāĻŦ⧇ LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϰ āĻ…ā§āϝāĻžāĻ•ā§āϏ⧇āϏ āϏ⧀āĻŽāĻŋāϤ āĻĨāĻžāϕ⧇āĨ¤ āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ āĻ–ā§‹āϞāĻž LLM āĻāϰ āϜāĻ¨ā§āϝāĻ“, āĻĄā§‡āϟāĻžāϰ āφāĻ•āĻžāϰ āϏāĻžāϧāĻžāϰāĻŖ āĻŦ⧈āĻœā§āĻžāĻžāύāĻŋāĻ• āϏāĻŽā§āĻĒā§āϰāĻĻāĻžāϝāĻŧ⧇āϰ āϜāĻ¨ā§āϝ āĻ—āĻ­ā§€āϰ āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āĻ•āĻ āĻŋāύ āĻ•āϰ⧇ āϤ⧋āϞ⧇, āϝāĻĻāĻŋāĻ“ āĻāϤ⧇ āχāĻ¨ā§āϟāĻžāϰāύ⧇āϟ āĻĨ⧇āϕ⧇ āĻ¸ā§āĻ•ā§āĻ°ā§āϝāĻžāĻĒ āĻ•āϰāĻž āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻĄā§‡āϟāĻž āĻĨāĻžāĻ•āϤ⧇ āĻĒāĻžāϰ⧇āĨ¤ āĻāχ āĻĒ⧇āĻĒāĻžāϰāϟāĻŋ Apertus LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϰ āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ-āĻĒāĻžāĻ ā§āϝ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻĒāĻžāχāĻĒāϞāĻžāχāύ āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ āĻ•āϰ⧇āĨ¤ Elasticsearch āϏāĻŽāĻžāĻ¨ā§āϤāϰāĻžāϞ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻāĻŦāĻ‚ Alps āĻ…āĻŦāĻ•āĻžāĻ āĻžāĻŽā§‹ (āĻāĻ•āϟāĻŋ āĻ…āĻ¤ā§āϝāĻžāϧ⧁āύāĻŋāĻ• āωāĻšā§āϚ-āĻļāĻ•ā§āϤāĻŋ-āĻĻāĻ•ā§āώ arm64 āϏ⧁āĻĒāĻžāϰāĻ•ā§āϞāĻžāĻ¸ā§āϟāĻžāϰ) āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇, Apertus LLM āĻĒāϰāĻŋāĻŦāĻžāϰ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāϪ⧇āϰ āϜāĻ¨ā§āϝ āĻŦā§āϝāĻŦāĻšā§ƒāϤ 15.2T āĻŸā§‹āϕ⧇āύ⧇āϰ āĻŽāĻ§ā§āϝ⧇ 8.6T āĻŸā§‹āϕ⧇āύ āϏāĻĢāϞāĻ­āĻžāĻŦ⧇ āϏ⧂āĻšā§€āϭ⧁āĻ•ā§āϤ āĻ•āϰāĻž āĻšāϝāĻŧ⧇āϛ⧇, āĻāĻ•āϟāĻŋ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ LLM āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āϏāϰāĻžā§āϜāĻžāĻŽ āĻāĻŦāĻ‚ āĻ…āĻĢāϞāĻžāχāύ, āĻ•āĻŋāωāϰ⧇āĻŸā§‡āĻĄ āĻ–ā§‹āϞāĻž āĻ“āϝāĻŧ⧇āĻŦ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āχāĻžā§āϜāĻŋāύ āϤ⧈āϰāĻŋ āĻ•āϰ⧇āϛ⧇āĨ¤

āĻ—āĻŦ⧇āώāĻŖāĻž āĻĒāϟāĻ­ā§‚āĻŽāĻŋ āĻāĻŦāĻ‚ āĻĒā§āϰ⧇āϰāĻŖāĻž

āĻŽā§‚āϞ āϏāĻŽāĻ¸ā§āϝāĻž

  1. āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻ¸ā§āĻŦāĻšā§āĻ›āϤāĻžāϰ āĻ…āĻ­āĻžāĻŦ: āϝāĻĻāĻŋāĻ“ āĻ–ā§‹āϞāĻž āĻ“āϜāύ⧇āϰ LLM āĻ•ā§āϰāĻŽāĻŦāĻ°ā§āϧāĻŽāĻžāύ āϜāύāĻĒā§āϰāĻŋāϝāĻŧ, āϤāĻŦ⧇ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻ…ā§āϝāĻžāĻ•ā§āϏ⧇āϏ āĻāĻŦāĻ‚ āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āĻ•āϰāĻž āĻ•āĻ āĻŋāύ āĻĨāĻžāϕ⧇
  2. āĻĄā§‡āϟāĻž āĻ¸ā§āϕ⧇āϞ āĻšā§āϝāĻžāϞ⧇āĻžā§āϜ: āφāϧ⧁āύāĻŋāĻ• LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻŦāĻŋāĻļāĻžāϞ āφāĻ•āĻžāϰ⧇āϰ (āĻŸā§āϰāĻŋāϞāĻŋāϝāĻŧāύ-āĻ¸ā§āϤāϰ⧇āϰ āĻŸā§‹āϕ⧇āύ), āϝāĻž āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽā§‡āϟāĻŋāĻ• āĻĒāϰ⧀āĻ•ā§āώāĻž āĻĒā§āϰāĻžāϝāĻŧ āĻ…āϏāĻŽā§āĻ­āĻŦ āĻ•āϰ⧇ āϤ⧋āϞ⧇
  3. āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻā§āρāĻ•āĻŋ: āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϝāĻŧ āĻ•ā§āώāϤāĻŋāĻ•āĻžāϰāĻ• āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁ āĻĨāĻžāĻ•āϤ⧇ āĻĒāĻžāϰ⧇, āϝ⧇āĻŽāύ āĻŦā§āϝāĻ•ā§āϤāĻŋāĻ—āϤ āϤāĻĨā§āϝ, āĻ•āĻĒāĻŋāϰāĻžāχāϟ āωāĻĒāĻžāĻĻāĻžāύ, āĻŦāĻŋāώāĻžāĻ•ā§āϤ āĻ­āĻžāώāĻž, āĻāĻŽāύāĻ•āĻŋ āĻŦāĻŋāĻĒāĻœā§āϜāύāĻ• āϤāĻĨā§āϝ

āĻ—āĻŦ⧇āώāĻŖāĻžāϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦ

  • LLM āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž: āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϰ āϏāĻŽāĻ¸ā§āϝāĻžāϝ⧁āĻ•ā§āϤ āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁ āϏāϰāĻžāϏāϰāĻŋ āĻŽāĻĄā§‡āϞ āφāϚāϰāĻŖāϕ⧇ āĻĒā§āϰāĻ­āĻžāĻŦāĻŋāϤ āĻ•āϰ⧇, āĻ•ā§āώāϤāĻŋāĻ•āĻžāϰāĻ• āφāωāϟāĻĒ⧁āϟ āϤ⧈āϰāĻŋ āĻ•āϰ⧇
  • āĻ¸ā§āĻŦāĻšā§āĻ›āϤāĻžāϰ āĻĒā§āϰāϝāĻŧā§‹āϜāύ⧀āϝāĻŧāϤāĻž: āĻŦ⧈āĻœā§āĻžāĻžāύāĻŋāĻ• āϏāĻŽā§āĻĒā§āϰāĻĻāĻžāϝāĻŧ āĻāĻŦāĻ‚ āύāĻŋāϝāĻŧāĻ¨ā§āĻ¤ā§āϰāĻ• āϏāĻ‚āĻ¸ā§āĻĨāĻžāϗ⧁āϞāĻŋ LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻĒāĻ°ā§āϝāĻžāϞ⧋āϚāύāĻž āĻ•āϰāϤ⧇ āϏāĻ•ā§āώāĻŽ āĻšāϤ⧇ āĻĒā§āϰāϝāĻŧā§‹āϜāύ
  • āϏāĻŽā§āĻŽāϤāĻŋāϰ āĻĒā§āϰāϝāĻŧā§‹āϜāύ⧀āϝāĻŧāϤāĻž: āĻ•āĻĒāĻŋāϰāĻžāχāϟ āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁, āĻŦā§āϝāĻ•ā§āϤāĻŋāĻ—āϤ āϤāĻĨā§āϝ āχāĻ¤ā§āϝāĻžāĻĻāĻŋ āϚāĻŋāĻšā§āύāĻŋāϤ āĻāĻŦāĻ‚ āϏāϰāĻžāύ⧋āϰ āĻĒā§āϰāϝāĻŧā§‹āϜāύ

āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž

  • āύāĻŽā§āύāĻž āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ: āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ āϏāϰāĻžā§āϜāĻžāĻŽāϗ⧁āϞāĻŋ āĻĒā§āϰāϧāĻžāύāϤ āϛ⧋āϟ āύāĻŽā§āύāĻžāϰ āωāĻĒāϰ āĻ­āĻŋāĻ¤ā§āϤāĻŋ āĻ•āϰ⧇ (āϝ⧇āĻŽāύ Common Crawl āĻāϰ 1%), āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ āĻ•āĻ­āĻžāϰ⧇āϜ āύāĻŋāĻļā§āϚāĻŋāϤ āĻ•āϰāϤ⧇ āĻĒāĻžāϰ⧇ āύāĻž
  • āĻ¸ā§āϕ⧇āϞ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž: āφāϗ⧇āϰ āϏāĻŦāĻšā§‡āϝāĻŧ⧇ āĻŦāĻĄāĻŧ āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ-āĻĒāĻžāĻ ā§āϝ āϏ⧂āϚāĻ• (Infinigram) āĻļ⧁āϧ⧁āĻŽāĻžāĻ¤ā§āϰ 4.6T āĻŸā§‹āϕ⧇āύ āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰ⧇ āĻāĻŦāĻ‚ āĻļ⧁āϧ⧁āĻŽāĻžāĻ¤ā§āϰ āϏāĻ āĻŋāĻ• āĻŽā§āϝāĻžāϚāĻŋāĻ‚ āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰ⧇
  • āĻ•āĻžāĻ°ā§āϝāĻ•āĻžāϰāĻŋāϤāĻž āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž: āĻ…āĻ¸ā§āĻĒāĻˇā§āϟ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āĻāĻŦāĻ‚ āϝ⧁āĻ•ā§āϤāĻŋāϏāĻ™ā§āĻ—āϤ āĻ…āĻĒāĻžāϰ⧇āĻļāύ āĻ•ā§āώāĻŽāϤāĻžāϰ āĻ…āĻ­āĻžāĻŦ

āĻŽā§‚āϞ āĻ…āĻŦāĻĻāĻžāύ

  1. ARM64 āφāĻ°ā§āĻ•āĻŋāĻŸā§‡āĻ•āϚāĻžāϰ āĻŽāĻžāχāĻ—ā§āϰ⧇āĻļāύ: ARM64-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• GH200 HPC āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽā§‡ Elasticsearch āĻāϰ āϏāĻĢāϞ āĻ¸ā§āĻĨāĻžāĻĒāύāĻž āĻĒā§āϰāĻĨāĻŽāĻŦāĻžāϰ āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ āĻ•āϰāĻž
  2. āĻŦāĻĄāĻŧ āφāĻ•āĻžāϰ⧇āϰ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻŦāĻžāĻ¸ā§āϤāĻŦāĻžāϝāĻŧāύ: 8.6T āĻŸā§‹āϕ⧇āύ āĻĄā§‡āϟāĻžāϏ⧇āϟ āϏ⧂āĻšā§€āϭ⧁āĻ•ā§āϤ āĻ•āϰāĻž, āϝāĻž āφāϗ⧇āϰ Elasticsearch-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• āϏ⧂āϚāϕ⧇āϰ 4 āϗ⧁āĻŖ āĻāĻŦāĻ‚ āϏāĻžāĻŽāĻ—ā§āϰāĻŋāĻ• āφāĻ•āĻžāϰ⧇āϰ 2 āϗ⧁āĻŖ
  3. LLM āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻĒā§āϰāϝāĻŧā§‹āĻ—: āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ-āĻĒāĻžāĻ ā§āϝ āϏ⧂āϚāϕ⧀āĻ•āϰāϪ⧇āϰ LLM āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻāĻŦāĻ‚ āϏ⧁āϰāĻ•ā§āώāĻž āĻŦā§āϝāĻŦāĻšāĻžāϰ⧇āϰ āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇ āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ, āĻœā§‡āχāϞāĻŦā§āϰ⧇āĻ• āĻ›āĻžāĻĄāĻŧāĻžāχ āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰāĻž
  4. āĻ“āĻĒ⧇āύ āϏ⧋āĻ°ā§āϏ āĻ…āĻŦāĻĻāĻžāύ: āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ āĻ“āĻĒ⧇āύ āϏ⧋āĻ°ā§āϏ āϕ⧋āĻĄ āĻāĻŦāĻ‚ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻŦ⧇āĻžā§āϚāĻŽāĻžāĻ°ā§āĻ• āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰāĻž, āĻ­āĻŦāĻŋāĻˇā§āϝāϤ āĻ—āĻŦ⧇āώāĻŖāĻž āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰāĻž

āĻĒāĻĻā§āϧāϤāĻŋāϰ āĻŦāĻŋāĻ¸ā§āϤāĻžāϰāĻŋāϤ āĻŦāĻŋāĻŦāϰāĻŖ

āĻ•āĻžāĻœā§‡āϰ āϏāĻ‚āĻœā§āĻžāĻž

āĻŸā§āϰāĻŋāϞāĻŋāϝāĻŧāύ-āĻ¸ā§āϤāϰ⧇āϰ āĻŸā§‹āϕ⧇āύ⧇āϰ LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϝāĻŧ āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ-āĻĒāĻžāĻ ā§āϝ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āϏāĻ•ā§āώāĻŽ āĻāĻ•āϟāĻŋ āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽ āϤ⧈āϰāĻŋ āĻ•āϰāĻž, āϝāĻž āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰ⧇:

  • āϏāĻ āĻŋāĻ• āĻāĻŦāĻ‚ āĻ…āĻ¸ā§āĻĒāĻˇā§āϟ āĻŽā§āϝāĻžāϚāĻŋāĻ‚
  • āĻŦāĻšā§āĻ­āĻžāώāĻŋāĻ• āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ
  • āϝ⧁āĻ•ā§āϤāĻŋāϏāĻ™ā§āĻ—āϤ āĻ…āĻĒāĻžāϰ⧇āĻļāύ āĻāĻŦāĻ‚ āϜāϟāĻŋāϞ āĻĒā§āϰāĻļā§āύ
  • āϰāĻŋāϝāĻŧ⧇āϞ-āϟāĻžāχāĻŽ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āĻĒā§āϰāϤāĻŋāĻ•ā§āϰāĻŋāϝāĻŧāĻž

āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽ āφāĻ°ā§āĻ•āĻŋāĻŸā§‡āĻ•āϚāĻžāϰ

1. āĻĄā§‡āϟāĻž āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻžāĻ•āϰāĻŖ āĻĒāĻžāχāĻĒāϞāĻžāχāύ

āĻ•āĻžāρāϚāĻž Parquet āĻĢāĻžāχāϞ → āĻ¸ā§āĻŸā§āϰāĻŋāĻŽ āĻĒā§āϰāϏ⧇āϏāĻŋāĻ‚ → āĻĒāĻžāĻ ā§āϝ āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ → Elasticsearch āϏ⧂āϚāĻ•

2. āĻŽā§‚āϞ āωāĻĒāĻžāĻĻāĻžāύ

  • Elasticsearch āχāĻžā§āϜāĻŋāύ: āĻŦāĻŋāϤāϰāĻŖāĻ•ā§ƒāϤ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āĻāĻŦāĻ‚ āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āχāĻžā§āϜāĻŋāύ
  • āϏāĻŽāĻžāĻ¨ā§āϤāϰāĻžāϞ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ: elasticsearch.helpers.parallel_bulk āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇ āĻŽāĻžāĻ˛ā§āϟāĻŋ-āĻĨā§āϰ⧇āĻĄ āϏāĻŽāϏāĻžāĻŽāϝāĻŧāĻŋāĻ• āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻžāĻ•āϰāĻŖ āĻŦāĻžāĻ¸ā§āϤāĻŦāĻžāϝāĻŧāύ
  • āĻĒāĻžāĻ ā§āϝ āĻŦāĻŋāĻļā§āϞ⧇āώāĻ•: web_content_analyzer HTML āĻĒāϰāĻŋāĻˇā§āĻ•āĻžāϰ, āĻŽāĻžāύ āĻŸā§‹āϕ⧇āύāĻžāχāĻœā§‡āĻļāύ, āϛ⧋āϟ āĻšāĻžāϤ⧇āϰ āĻ…āĻ•ā§āώāϰ, ASCII āĻĢā§‹āĻ˛ā§āĻĄāĻŋāĻ‚ āϏāĻŽā§āĻĒāĻžāĻĻāύ āĻ•āϰ⧇

3. āĻŽā§‚āϞ āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ āϟāĻŋāωāύāĻŋāĻ‚

  • āĻĨā§āϰ⧇āĻĄ āϏāĻ‚āĻ–ā§āϝāĻž: CPU āϕ⧋āϰ āϏāĻ‚āĻ–ā§āϝāĻž āĻ…āϤāĻŋāĻ•ā§āϰāĻŽ āĻ•āϰāĻŦ⧇āύ āύāĻž, āϏāĻŽāϏāĻžāĻŽāϝāĻŧāĻŋāĻ•āϤāĻž āĻāĻŦāĻ‚ āĻŽā§‡āĻŽāϰāĻŋ āϚāĻžāĻĒ⧇āϰ āĻ­āĻžāϰāϏāĻžāĻŽā§āϝ āϰāĻžāϖ⧁āύ
  • āĻ–āĻŖā§āĻĄ āφāĻ•āĻžāϰ: āϏ⧂āĻ¤ā§āϰ āĻĻā§āĻŦāĻžāϰāĻž āύāĻŋāĻ°ā§āϧāĻžāϰāĻŋāϤ chunk_size ≤ max_chunk_size / avg_doc_size
  • āϏāĻ°ā§āĻŦāĻžāϧāĻŋāĻ• āĻ–āĻŖā§āĻĄ āĻŦāĻžāχāϟ: āĻŦāĻžāĻ˛ā§āĻ• āĻ…āύ⧁āϰ⧋āϧ⧇āϰ āϏāĻ°ā§āĻŦāĻžāϧāĻŋāĻ• āĻĒ⧇āϞ⧋āĻĄ āύāĻŋāϝāĻŧāĻ¨ā§āĻ¤ā§āϰāĻŖ āĻ•āϰ⧁āύ
  • āϏāĻžāϰāĻŋ āφāĻ•āĻžāϰ: āĻĒā§āϰāϝ⧋āϜāĻ• āĻāĻŦāĻ‚ āĻ­ā§‹āĻ•ā§āϤāĻž āĻĨā§āϰ⧇āĻĄā§‡āϰ āĻŽāĻ§ā§āϝ⧇ āĻ…āϏāĻžāĻŽāĻžā§āϜāĻ¸ā§āϝ āĻŦāĻžāĻĢāĻžāϰ āĻ•āϰ⧁āύ

āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āωāĻĻā§āĻ­āĻžāĻŦāύ āĻĒāϝāĻŧ⧇āĻ¨ā§āϟ

1. ARM64 āĻ…āĻ­āĻŋāϝ⧋āϜāύ

  • OCI-āϏāĻžāĻŽāĻžā§āϜāĻ¸ā§āϝāĻĒā§‚āĻ°ā§āĻŖ āĻ•āĻžāĻ¸ā§āϟāĻŽ āĻ•āĻ¨ā§āĻŸā§‡āχāύāĻžāϰ āχāĻŽā§‡āϜ āϤ⧈āϰāĻŋ āĻ•āϰāĻž
  • Docker āϏāĻžāĻŽāĻžā§āϜāĻ¸ā§āϝ āϏāĻŽāĻ¸ā§āϝāĻž āϏāĻŽāĻžāϧāĻžāύ āĻ•āϰāĻž, Podman āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰāĻž
  • SLURM āĻ•āĻžāĻœā§‡āϰ āϏāĻ‚āĻœā§āĻžāĻžāϰ āĻŽāĻžāĻ§ā§āϝāĻŽā§‡ āĻ…āĻ°ā§āϕ⧇āĻ¸ā§āĻŸā§āϰ⧇āĻļāύ āĻĒ⧁āύāϰāĻžāϝāĻŧ āĻŦāĻžāĻ¸ā§āϤāĻŦāĻžāϝāĻŧāύ āĻ•āϰāĻž

2. HPC āĻĒāϰāĻŋāĻŦ⧇āĻļ āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāĻœā§‡āĻļāύ

  • āĻ•āĻžāĻ°ā§āύ⧇āϞ āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻžāϰ āϏāĻžāĻĨ⧇ āĻ–āĻžāĻĒ āĻ–āĻžāχāϝāĻŧ⧇ āύāĻŋāϤ⧇ āĻŽā§‡āĻŽāϰāĻŋ āĻŽā§āϝāĻžāĻĒāĻŋāĻ‚ āĻ…āĻ•ā§āώāĻŽ āĻ•āϰāĻž
  • āĻĒā§āϰāĻ•ā§āϏāĻŋ āĻŦāĻžāχāĻĒāĻžāϏ āĻ•āϰ⧇ āύ⧇āϟāĻ“āϝāĻŧāĻžāĻ°ā§āĻ• āĻ•āύāĻĢāĻŋāĻ—āĻžāϰ āĻ•āϰāĻž, 127.0.0.1 āĻ āĻŦāĻžāρāϧāĻž
  • SLURM āĻ•āĻžāĻœā§‡āϰ āĻŦāĻŋāĻšā§āĻ›āĻŋāĻ¨ā§āύāϤāĻžāϰ āϏāĻžāĻĨ⧇ āĻ–āĻžāĻĒ āĻ–āĻžāχāϝāĻŧ⧇ āύāĻŋāϤ⧇ āĻāĻ•āĻ•-āύ⧋āĻĄ āĻ…āĻĒāĻžāϰ⧇āĻļāύ āĻŽā§‹āĻĄ

3. āĻĒā§āϰāĻļā§āύ āĻ…āĻĒā§āϟāĻŋāĻŽāĻžāχāĻœā§‡āĻļāύ

  • match_phrase_query: āĻ•āύāĻĢāĻŋāĻ—āĻžāϰāϝ⧋āĻ—ā§āϝ āĻļāĻŦā§āĻĻ āĻĻā§‚āϰāĻ¤ā§āĻŦ āϏāĻšāύāĻļā§€āϞāϤāĻž āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰāĻž (SLOP āĻĒā§āϝāĻžāϰāĻžāĻŽāĻŋāϟāĻžāϰ)
  • āĻŦāĻšā§-āĻ¸ā§āϤāϰ⧇āϰ āĻĒāĻžāĻ ā§āϝ āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻžāĻ•āϰāĻŖ: HTML āĻĒāϰāĻŋāĻˇā§āĻ•āĻžāϰ → āĻŽāĻžāύ āĻŸā§‹āϕ⧇āύāĻžāχāĻœā§‡āĻļāύ → āύāĻŋāϝāĻŧāĻŽāĻŋāϤāĻ•āϰāĻŖ → ASCII āĻĢā§‹āĻ˛ā§āĻĄāĻŋāĻ‚

āĻĒāϰ⧀āĻ•ā§āώāĻžāĻŽā§‚āϞāĻ• āϏ⧇āϟāφāĻĒ

āĻĄā§‡āϟāĻžāϏ⧇āϟ

Apertus āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āϏāĻžāĻŦāϏ⧇āϟ (8.6T āĻŸā§‹āϕ⧇āύ, āĻŽā§‹āϟ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϰ 58%):

āĻĄā§‡āϟāĻžāϏ⧇āϟāĻŸā§‹āϕ⧇āύ (B)
FineWeb-Edu (Score-2)4815
FineWeb-2-HQ (33% āϏāĻ°ā§āĻŦā§‹āĻšā§āϚ āϗ⧁āĻŖāĻŽāĻžāύ)3557
StarCoder235
FineMath CommonCrawl āϏāĻžāĻŦāϏ⧇āϟ32
Gutenberg āĻāĻŦāĻ‚ Poison2

āĻĒā§āϰāĻļā§āύ āĻĄā§‡āϟāĻžāϏ⧇āϟ

  1. Weaponized Words āĻ…āĻ­āĻŋāϧāĻžāύ: 137āϟāĻŋ āĻ­āĻžāώāĻžāϝāĻŧ āĻ•ā§āώāϤāĻŋāĻ•āĻžāϰāĻ• āĻļāĻŦā§āĻĻ
  2. LDNOOBW āϤāĻžāϞāĻŋāĻ•āĻž: 28āϟāĻŋ āĻ­āĻžāώāĻžāϝāĻŧ āĻ…āĻļā§āϞ⧀āϞ āĻļāĻŦā§āĻĻ
  3. āϰāĻžāϏāĻžāϝāĻŧāύāĻŋāĻ• āĻ…āĻ¸ā§āĻ¤ā§āϰ āĻĄā§‡āϟāĻžāϏ⧇āϟ: 17āϟāĻŋ āĻŦāĻŋāĻĒāĻœā§āϜāύāĻ• āϰāĻžāϏāĻžāϝāĻŧāύāĻŋāĻ• āĻĒā§āϰāϤāĻŋāĻ•āĻžāϰāĻ• āĻĒāĻĻ

āĻ•āĻŽā§āĻĒāĻŋāωāϟāĻŋāĻ‚ āĻĒāϰāĻŋāĻŦ⧇āĻļ

  • Alps āϏ⧁āĻĒāĻžāϰāĻ•āĻŽā§āĻĒāĻŋāωāϟāĻžāϰ: HPE Cray EX āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽ, 434 PFlops āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž
  • āύ⧋āĻĄ āĻ•āύāĻĢāĻŋāĻ—āĻžāϰ⧇āĻļāύ: ARM64-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• NVIDIA Grace Hopper GH200
  • āĻ¸ā§āĻŸā§‹āϰ⧇āϜ āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽ: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

āĻĒāϰ⧀āĻ•ā§āώāĻžāĻŽā§‚āϞāĻ• āĻĢāϞāĻžāĻĢāϞ

āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž

āĻĄā§‡āϟāĻžāϏ⧇āϟāĻĄā§‡āϟāĻž āφāĻ•āĻžāϰ (GB)āϏāĻŽāϝāĻŧ (h)āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻšāĻžāϰ (doc/s)āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻ“āĻ­āĻžāϰāĻšā§‡āĻĄ āĻ…āύ⧁āĻĒāĻžāϤāĻļāĻŋāĻ–āϰ āĻŽā§‡āĻŽāϰāĻŋ (GB)
FineWeb-2 Edu (EN)12,737143.710,2961.34.9
FineWeb-2 Europe HQ2,660408.35891.17.5
StarCoder2294.210,9191.412.7

āĻŽā§‚āϞ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ:

  • āχāĻ‚āϰ⧇āϜāĻŋ āĻĒāĻžāĻ ā§āϝ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻ—āϤāĻŋ āĻŦāĻšā§āĻ­āĻžāώāĻŋāĻ• āĻĄā§‡āϟāĻžāϏ⧇āĻŸā§‡āϰ āĻšā§‡āϝāĻŧ⧇ āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝāĻ­āĻžāĻŦ⧇ āĻĻā§āϰ⧁āϤ (10,297 āĻŦāύāĻžāĻŽ 589 doc/s)
  • āϕ⧋āĻĄ āĻĄā§‡āϟāĻž āφāϰāĻ“ āĻŽā§‡āĻŽāϰāĻŋ āϏāĻŽā§āĻĒāĻĻ āĻĒā§āϰāϝāĻŧā§‹āϜāύ (12.7GB āĻŦāύāĻžāĻŽ 4.9GB)
  • āĻŦāĻšā§āĻ­āĻžāώāĻŋāĻ• āĻĄā§‡āϟāĻžāϏ⧇āϟ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻ“āĻ­āĻžāϰāĻšā§‡āĻĄ āĻŦ⧇āĻļāĻŋ

āĻĒā§āϰāĻļā§āύ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž

  • āĻĒā§āϰāĻļā§āύ āϏāĻŽāϝāĻŧ āĻĒā§āϰāĻļā§āύ āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ āĻŦ⧃āĻĻā§āϧāĻŋāϰ āϏāĻžāĻĨ⧇ āϰ⧈āĻ–āĻŋāĻ•āĻ­āĻžāĻŦ⧇ āĻŦ⧃āĻĻā§āϧāĻŋ āĻĒāĻžāϝāĻŧ
  • āĻāĻ•āĻ• āĻļāĻŦā§āĻĻ āĻĒā§āϰāĻļā§āύ: <100ms
  • 300 āĻļāĻŦā§āĻĻ āĻĒā§āϰāĻļā§āύ: ~1000ms
  • āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āύ āĻĒā§āϰāĻļā§āύ āĻĻ⧈āĻ°ā§āĻ˜ā§āϝ⧇ āĻ¸ā§āĻĨāĻŋāϤāĻŋāĻļā§€āϞ āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻŦāϜāĻžāϝāĻŧ āϰāĻžāϖ⧇

āĻ•ā§āώāϤāĻŋāĻ•āĻžāϰāĻ• āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁ āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ

āĻŦāĻšā§āĻ­āĻžāώāĻŋāĻ• āĻ•ā§āώāϤāĻŋāĻ•āĻžāϰāĻ• āĻļāĻŦā§āĻĻ āĻĒāϰāĻŋāϏāĻ‚āĻ–ā§āϝāĻžāύ

āĻ­āĻžāώāĻžWeaponized Words (āĻŽāĻŋāϞāĻŋāϝāĻŧāύ)LDNOOBW (āĻŽāĻŋāϞāĻŋāϝāĻŧāύ)
āχāĻ‚āϰ⧇āϜāĻŋ1,245.8661.6
āĻĢāϰāĻžāϏāĻŋ16.8202.5
āϜāĻžāĻ°ā§āĻŽāĻžāύ9.914.9
āχāϤāĻžāϞāĻŋāϝāĻŧāĻžāύ1.618.5

āϰāĻžāϏāĻžāϝāĻŧāύāĻŋāĻ• āĻ…āĻ¸ā§āĻ¤ā§āϰ āϏāĻŽā§āĻĒāĻ°ā§āĻ•āĻŋāϤ āĻĒāĻĻ

āϏāĻžāϧāĻžāϰāĻŖ āϰāĻžāϏāĻžāϝāĻŧāύāĻŋāĻ• āĻĒāĻĻāĻžāĻ°ā§āĻĨ (āϝ⧇āĻŽāύ āĻ—ā§āϞāĻŋāϏāĻžāϰāĻŋāύ, āύāĻžāχāĻŸā§āϰāĻŋāĻ• āĻ…ā§āϝāĻžāϏāĻŋāĻĄ) āĻ…āĻ¤ā§āϝāĻ¨ā§āϤ āωāĻšā§āϚ āĻĢā§āϰāĻŋāϕ⧋āϝāĻŧ⧇āĻ¨ā§āϏāĻŋāϤ⧇ āωāĻĒāĻ¸ā§āĻĨāĻŋāϤ, āϝāĻ–āύ āĻŦāĻŋāĻļ⧇āώāĻžāϝāĻŧāĻŋāϤ āϰāĻžāϏāĻžāϝāĻŧāύāĻŋāĻ• āĻ…āĻ¸ā§āĻ¤ā§āϰ āϏāĻ‚āĻļā§āϞ⧇āώāĻŖ āĻĒāĻĻ āĻ…-āχāĻ‚āϰ⧇āϜāĻŋ āĻ­āĻžāώāĻžāϝāĻŧāĻ“ āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝ āωāĻĒāĻ¸ā§āĻĨāĻŋāϤāĻŋ āĻĻ⧇āĻ–āĻžāϝāĻŧ, āĻŦāĻšā§āĻ­āĻžāώāĻŋāĻ• āĻĄā§‡āϟāĻž āĻ•āĻŋāωāϰ⧇āĻļāύ⧇āϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦ āύāĻŋāĻ°ā§āĻĻ⧇āĻļ āĻ•āϰ⧇āĨ¤

āϏāĻŽā§āĻĒāĻ°ā§āĻ•āĻŋāϤ āĻ•āĻžāϜ

āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ LLM āĻĄā§‡āϟāĻž āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āϏāϰāĻžā§āϜāĻžāĻŽ

  1. Data Portraits: āĻ—āĻŖāύāĻž āĻ–āϰāϚ āĻ•āĻŽāĻžāϤ⧇ āφāύ⧁āĻŽāĻžāύāĻŋāĻ• āϏāĻĻāĻ¸ā§āϝāĻĒāĻĻ āĻ…āύ⧁āĻŽāĻžāύ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰāĻž
  2. āĻĒāϰāĻŋāϏāĻ‚āĻ–ā§āϝāĻžāύāĻ—āϤ āύāĻŽā§āύāĻž āĻĒāĻĻā§āϧāϤāĻŋ: āϝ⧇āĻŽāύ Luccioni āχāĻ¤ā§āϝāĻžāĻĻāĻŋ Common Crawl āĻāϰ 1% āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āĻ•āϰāĻž
  3. āϛ⧋āϟ āφāĻ•āĻžāϰ⧇āϰ āĻĄā§‡āϟāĻžāϏ⧇āϟ āϏāϰāĻžā§āϜāĻžāĻŽ: HuggingFace āĻāϰ Data Measurements, Google āĻāϰ Know Your Data

āĻŦāĻĄāĻŧ āφāĻ•āĻžāϰ⧇āϰ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽ

  1. WhatIsInMyBigData: āϏāĻ°ā§āĻŦāĻžāϧāĻŋāĻ• 1.4T āĻŸā§‹āϕ⧇āύ āϏ⧂āϚāĻ• (RedPajama)
  2. Infinigram: āĻĒā§āϰāĻ¤ā§āϝāϝāĻŧ āĻ…ā§āϝāĻžāϰ⧇ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰ⧇, 4.6T āĻŸā§‹āϕ⧇āύ āϏāĻ āĻŋāĻ• āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰ⧇
  3. ROOTS āϏāϰāĻžā§āϜāĻžāĻŽ: 1.6TB āĻŦāĻšā§āĻ­āĻžāώāĻŋāĻ• āĻ•āĻ°ā§āĻĒāĻžāϏ⧇āϰ āĻ…āĻ¸ā§āĻĒāĻˇā§āϟ āĻāĻŦāĻ‚ āϏāĻ āĻŋāĻ• āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ

āĻāχ āĻĒ⧇āĻĒāĻžāϰ⧇āϰ āϏ⧁āĻŦāĻŋāϧāĻž

  • āĻ¸ā§āϕ⧇āϞ: 8.6T āĻŸā§‹āϕ⧇āύ, āĻŦāĻŋāĻĻā§āϝāĻŽāĻžāύ Elasticsearch-āĻ­āĻŋāĻ¤ā§āϤāĻŋāĻ• āϏāĻŋāĻ¸ā§āĻŸā§‡āĻŽāϕ⧇ āĻ…āϤāĻŋāĻ•ā§āϰāĻŽ āĻ•āϰ⧇ 4 āϗ⧁āĻŖ
  • āĻ•āĻžāĻ°ā§āϝāĻ•āĻžāϰāĻŋāϤāĻž: āĻ…āĻ¸ā§āĻĒāĻˇā§āϟ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āĻāĻŦāĻ‚ āϝ⧁āĻ•ā§āϤāĻŋāϏāĻ™ā§āĻ—āϤ āĻ…āĻĒāĻžāϰ⧇āĻļāύ āϏāĻŽāĻ°ā§āĻĨāύ āĻ•āϰ⧇
  • āĻŦāĻšā§āĻ­āĻžāώāĻŋāĻ•āϤāĻž: āĻāĻ•āĻžāϧāĻŋāĻ• āĻ­āĻžāώāĻžāϰ āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āĻ•āĻ­āĻžāϰ āĻ•āϰ⧇

āωāĻĒāϏāĻ‚āĻšāĻžāϰ āĻāĻŦāĻ‚ āφāϞ⧋āϚāύāĻž

āĻĒā§āϰāϧāĻžāύ āωāĻĒāϏāĻ‚āĻšāĻžāϰ

  1. āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āϏāĻŽā§āĻ­āĻžāĻŦā§āϝāϤāĻž: ARM64 āφāĻ°ā§āĻ•āĻŋāĻŸā§‡āĻ•āϚāĻžāϰ⧇ Elasticsearch āĻ¸ā§āĻĨāĻžāĻĒāύ⧇āϰ āϏāĻŽā§āĻ­āĻžāĻŦā§āϝāϤāĻž āĻĒā§āϰāĻŽāĻžāĻŖ āĻ•āϰāĻž
  2. āĻ¸ā§āϕ⧇āϞ āĻ…āĻ°ā§āϜāύāϝ⧋āĻ—ā§āϝāϤāĻž: āĻŸā§āϰāĻŋāϞāĻŋāϝāĻŧāύ-āĻ¸ā§āϤāϰ⧇āϰ āĻŸā§‹āϕ⧇āύ⧇āϰ āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ-āĻĒāĻžāĻ ā§āϝ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āϛ⧋āϟ āĻĻāϞ⧇āϰ āϜāĻ¨ā§āϝ āĻ…āĻ°ā§āϜāύāϝ⧋āĻ—ā§āϝ
  3. āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻĒā§āϰāϝāĻŧā§‹āĻ—: āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ-āĻĒāĻžāĻ ā§āϝ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϰ āĻ—āĻ­ā§€āϰ āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻŦāĻŋāĻļā§āϞ⧇āώāϪ⧇āϰ āϜāĻ¨ā§āϝ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰāĻž āϝāĻžāϝāĻŧ

āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž

  1. āĻ•āĻ­āĻžāϰ⧇āϜ āĻĒāϰāĻŋāϏ⧀āĻŽāĻž: āĻļ⧁āϧ⧁āĻŽāĻžāĻ¤ā§āϰ Apertus āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻžāϰ 58% āϏ⧂āĻšā§€āϭ⧁āĻ•ā§āϤ āĻ•āϰāĻž
  2. āφāĻ°ā§āĻ•āĻŋāĻŸā§‡āĻ•āϚāĻžāϰ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž: ARM64 āĻ…āĻ­āĻŋāϝ⧋āϜāύ āĻāĻ–āύāĻ“ āϏāĻžāĻŽāĻžā§āϜāĻ¸ā§āϝ āĻšā§āϝāĻžāϞ⧇āĻžā§āĻœā§‡āϰ āϏāĻŽā§āĻŽā§āĻ–ā§€āύ
  3. āĻŽā§‡āĻŽāϰāĻŋ āĻŽā§āϝāĻžāĻĒāĻŋāĻ‚: āĻŽā§‡āĻŽāϰāĻŋ āĻŽā§āϝāĻžāĻĒāĻŋāĻ‚ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰāϤ⧇ āĻĒāĻžāϰ⧇ āύāĻž I/O āĻĻāĻ•ā§āώāϤāĻž āĻšā§āϰāĻžāϏ āĻ•āϰ⧇

āĻ­āĻŦāĻŋāĻˇā§āϝāϤ āĻĻāĻŋāĻ•āύāĻŋāĻ°ā§āĻĻ⧇āĻļāύāĻž

  1. āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ āχāĻ¨ā§āϟāĻžāϰāύ⧇āϟ āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ: āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ āĻ–ā§‹āϞāĻž āĻ“āϝāĻŧ⧇āĻŦ⧇āϰ āĻ…āĻĢāϞāĻžāχāύ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āϏ⧂āϚāĻ• āϤ⧈āϰāĻŋ āĻ•āϰāĻž
  2. LLM āϤāĻĨā§āϝ āĻ­āĻŋāĻ¤ā§āϤāĻŋ: āĻ…āĻĢāϞāĻžāχāύ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ⧇āϰ āωāĻĒāϰ āĻ­āĻŋāĻ¤ā§āϤāĻŋ āĻ•āϰ⧇ LLM āĻ‰ā§ŽāĻĒāĻžāĻĻāĻŋāϤ āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁ āϝāĻžāϚāĻžāχāĻ•āϰāĻŖ
  3. āĻ…āĻ°ā§āĻĨāύ⧈āϤāĻŋāĻ• āύ⧈āϤāĻŋāĻ• āϏāĻŽāĻ¸ā§āϝāĻž: āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁ āύāĻŋāĻ°ā§āĻŽāĻžāϤāĻžāĻĻ⧇āϰ āĻ¨ā§āϝāĻžāĻ¯ā§āϝ āĻ•ā§āώāϤāĻŋāĻĒā§‚āϰāĻŖ āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻž

āĻ—āĻ­ā§€āϰ āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ

āĻļāĻ•ā§āϤāĻŋ

  1. āωāĻšā§āϚ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝ: LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻ¸ā§āĻŦāĻšā§āĻ›āϤāĻžāϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āϏāĻŽāĻ¸ā§āϝāĻž āϏāĻŽāĻžāϧāĻžāύ āĻ•āϰāĻž
  2. āωāĻ˛ā§āϞ⧇āĻ–āϝ⧋āĻ—ā§āϝ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āĻ…āĻŦāĻĻāĻžāύ: āĻŸā§āϰāĻŋāϞāĻŋāϝāĻŧāύ-āĻ¸ā§āϤāϰ⧇āϰ āĻŸā§‹āϕ⧇āύ⧇āϰ Elasticsearch āϏ⧂āϚāϕ⧀āĻ•āϰāĻŖ āĻĒā§āϰāĻĨāĻŽāĻŦāĻžāϰ āĻŦāĻžāĻ¸ā§āϤāĻŦāĻžāϝāĻŧāύ āĻ•āϰāĻž
  3. āĻ“āĻĒ⧇āύ āϏ⧋āĻ°ā§āϏ āĻŦāĻžāĻ¨ā§āϧāĻŦ: āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ āϕ⧋āĻĄ āĻāĻŦāĻ‚ āĻŦāĻŋāĻ¸ā§āϤāĻžāϰāĻŋāϤ āĻ¸ā§āĻĨāĻžāĻĒāύāĻž āύāĻŋāĻ°ā§āĻĻ⧇āĻļāĻŋāĻ•āĻž āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰāĻž
  4. āĻ¸ā§āĻĒāĻˇā§āϟ āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻĒā§āϰāϝāĻŧā§‹āĻ—: āύāĻŋāĻ°ā§āĻĻāĻŋāĻˇā§āϟ LLM āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻŦā§āϝāĻŦāĻšāĻžāϰ⧇āϰ āĻ•ā§āώ⧇āĻ¤ā§āϰ āĻĒā§āϰāĻĻāĻ°ā§āĻļāύ āĻ•āϰāĻž
  5. āĻĒāϰāĻŋāĻŦ⧇āĻļ āĻŦāĻžāĻ¨ā§āϧāĻŦ: āωāĻšā§āϚ-āĻļāĻ•ā§āϤāĻŋ-āĻĻāĻ•ā§āώ ARM64 āφāĻ°ā§āĻ•āĻŋāĻŸā§‡āĻ•āϚāĻžāϰ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻ•āϰāĻž, āĻŽāĻžāĻ¤ā§āϰ 90kg CO2eq āĻ•āĻžāĻ°ā§āĻŦāύ āύāĻŋāĻ°ā§āĻ—āĻŽāύ

āĻ…āĻĒā§‚āĻ°ā§āĻŖāϤāĻž

  1. āĻĄā§‡āϟāĻž āĻ•āĻ­āĻžāϰ⧇āϜ āĻ…āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ: āϏāĻŽāĻ¸ā§āϤ āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āϏ⧂āĻšā§€āϭ⧁āĻ•ā§āϤ āĻ•āϰāĻž āĻšāϝāĻŧāύāĻŋ
  2. ARM64 āĻšā§āϝāĻžāϞ⧇āĻžā§āϜ: āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āĻ…āĻ­āĻŋāϝ⧋āϜāύ āĻĒā§āϰāĻ•ā§āϰāĻŋāϝāĻŧāĻž āϜāϟāĻŋāϞ, āĻĒā§āϰāϚāĻžāϰāϕ⧇ āĻĒā§āϰāĻ­āĻžāĻŦāĻŋāϤ āĻ•āϰāϤ⧇ āĻĒāĻžāϰ⧇
  3. āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻŸā§āϰ⧇āĻĄ-āĻ…āĻĢ: HPC āĻĒāϰāĻŋāĻŦ⧇āĻļ⧇āϰ āϏāĻžāĻĨ⧇ āĻ–āĻžāĻĒ āĻ–āĻžāχāϝāĻŧ⧇ āύāĻŋāϤ⧇ āĻ•āĻŋāϛ⧁ I/O āĻ•āĻ°ā§āĻŽāĻ•ā§āώāĻŽāϤāĻž āĻ¤ā§āϝāĻžāĻ— āĻ•āϰāĻž
  4. āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āĻ—āĻ­ā§€āϰāϤāĻž: āĻ•ā§āώāϤāĻŋāĻ•āĻžāϰāĻ• āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁āϰ āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āϤ⧁āϞāύāĻžāĻŽā§‚āϞāĻ•āĻ­āĻžāĻŦ⧇ āĻĒ⧃āĻˇā§āĻ ā§€āϝāĻŧ

āĻĒā§āϰāĻ­āĻžāĻŦ

  1. āĻāĻ•āĻžāĻĄā§‡āĻŽāĻŋāĻ• āĻ…āĻŦāĻĻāĻžāύ: LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻŦāĻŋāĻļā§āϞ⧇āώāϪ⧇āϰ āϜāĻ¨ā§āϝ āύāϤ⧁āύ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āĻĒāĻĨ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰāĻž
  2. āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝ: āϏāϰāĻžāϏāϰāĻŋ LLM āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻ…āĻĄāĻŋāĻŸā§‡ āĻĒā§āϰāϝāĻŧā§‹āĻ— āĻ•āϰāĻž āϝāĻžāϝāĻŧ
  3. āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋ āĻĒā§āϰāϚāĻžāϰ: āĻāĻ¨ā§āϟāĻžāϰāĻĒā§āϰāĻžāχāϜ āĻ…ā§āϝāĻžāĻĒā§āϞāĻŋāϕ⧇āĻļāύ⧇ ARM64 āĻ—ā§āϰāĻšāĻŖ āĻĒā§āϰāϚāĻžāϰ āĻ•āϰāĻž
  4. āύ⧀āϤāĻŋ āϏāĻŽāĻ°ā§āĻĨāύ: LLM āύāĻŋāϝāĻŧāĻ¨ā§āĻ¤ā§āϰāϪ⧇āϰ āϜāĻ¨ā§āϝ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āϏāϰāĻžā§āϜāĻžāĻŽ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰāĻž

āĻĒā§āϰāϝ⧋āĻœā§āϝ āĻĻ⧃āĻļā§āϝāĻ•āĻ˛ā§āĻĒ

  1. LLM āωāĻ¨ā§āύāϝāĻŧāύ āĻĻāϞ: āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āϗ⧁āĻŖāĻŽāĻžāύ āύāĻŋāϝāĻŧāĻ¨ā§āĻ¤ā§āϰāĻŖ āĻāĻŦāĻ‚ āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻ…āĻĄāĻŋāϟ
  2. āĻ—āĻŦ⧇āώāĻŖāĻž āĻĒā§āϰāϤāĻŋāĻˇā§āĻ āĻžāύ: āĻŦāĻĄāĻŧ āφāĻ•āĻžāϰ⧇āϰ āĻĒāĻžāĻ ā§āϝ āĻĄā§‡āϟāĻž āĻŦāĻŋāĻļā§āϞ⧇āώāĻŖ āĻāĻŦāĻ‚ āĻ–āύāύ
  3. āύāĻŋāϝāĻŧāĻ¨ā§āĻ¤ā§āϰāĻ• āϏāĻ‚āĻ¸ā§āĻĨāĻž: LLM āϏāĻŽā§āĻŽāϤāĻŋ āĻĒāϰ⧀āĻ•ā§āώāĻž āĻāĻŦāĻ‚ āĻā§āρāĻ•āĻŋ āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ
  4. āĻāĻ¨ā§āϟāĻžāϰāĻĒā§āϰāĻžāχāϜ āĻĒā§āϰāϝāĻŧā§‹āĻ—: āĻŦāĻŋāώāϝāĻŧāĻŦāĻ¸ā§āϤ⧁ āĻĢāĻŋāĻ˛ā§āϟāĻžāϰāĻŋāĻ‚ āĻāĻŦāĻ‚ āĻĄā§‡āϟāĻž āĻ—āĻ­āĻ°ā§āύ⧇āĻ¨ā§āϏ

āϏāĻ‚āĻĻāĻ°ā§āĻ­

āĻĒ⧇āĻĒāĻžāϰāϟāĻŋ 60āϟāĻŋ āϏāĻŽā§āĻĒāĻ°ā§āĻ•āĻŋāϤ āϏāĻžāĻšāĻŋāĻ¤ā§āϝ āωāĻĻā§āϧ⧃āϤ āĻ•āϰ⧇, āϝāĻž LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ, āĻĄā§‡āϟāĻž āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž, āϏāĻŽā§āĻĒā§‚āĻ°ā§āĻŖ-āĻĒāĻžāĻ ā§āϝ āĻ…āύ⧁āϏāĻ¨ā§āϧāĻžāύ āĻāĻŦāĻ‚ āĻ…āĻ¨ā§āϝāĻžāĻ¨ā§āϝ āĻāĻ•āĻžāϧāĻŋāĻ• āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇āϰ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻ•āĻžāϜ āĻ…āĻ¨ā§āϤāĻ°ā§āϭ⧁āĻ•ā§āϤ āĻ•āϰ⧇, āĻ—āĻŦ⧇āώāĻŖāĻžāϰ āϜāĻ¨ā§āϝ āĻāĻ•āϟāĻŋ āĻĻ⧃āĻĸāĻŧ āϤāĻžāĻ¤ā§āĻ¤ā§āĻŦāĻŋāĻ• āĻ­āĻŋāĻ¤ā§āϤāĻŋ āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āĨ¤


āϏāĻžāĻŽāĻ—ā§āϰāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝāĻžāϝāĻŧāύ: āĻāϟāĻŋ āĻāĻ•āϟāĻŋ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āĻŽā§‚āĻ˛ā§āϝ⧇āϰ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āĻĒ⧇āĻĒāĻžāϰ, āϝāĻž LLM āĻĒā§āϰāĻļāĻŋāĻ•ā§āώāĻŖ āĻĄā§‡āϟāĻž āĻ¸ā§āĻŦāĻšā§āĻ›āϤāĻž āĻāĻŦāĻ‚ āύāĻŋāϰāĻžāĻĒāĻ¤ā§āϤāĻž āĻŦāĻŋāĻļā§āϞ⧇āώāϪ⧇āϰ āĻŽā§‚āϞ āϏāĻŽāĻ¸ā§āϝāĻž āϏāĻĢāϞāĻ­āĻžāĻŦ⧇ āϏāĻŽāĻžāϧāĻžāύ āĻ•āϰ⧇āĨ¤ āϝāĻĻāĻŋāĻ“ āĻĄā§‡āϟāĻž āĻ•āĻ­āĻžāϰ⧇āϜ āĻāĻŦāĻ‚ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āĻ…āĻ­āĻŋāϝ⧋āϜāύ⧇āϰ āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇ āĻ•āĻŋāϛ⧁ āϏ⧀āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž āϰāϝāĻŧ⧇āϛ⧇, āϤāĻŦ⧇ āĻāϰ āĻ…āĻ—ā§āϰāĻŖā§€ āĻ•āĻžāϜ āĻāχ āĻ•ā§āώ⧇āĻ¤ā§āϰ⧇āϰ āϜāĻ¨ā§āϝ āϗ⧁āϰ⧁āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻĒā§āϰāϝ⧁āĻ•ā§āϤāĻŋāĻ—āϤ āĻ­āĻŋāĻ¤ā§āϤāĻŋ āĻāĻŦāĻ‚ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ• āύāĻŋāĻ°ā§āĻĻ⧇āĻļāĻŋāĻ•āĻž āĻĒā§āϰāĻĻāĻžāύ āĻ•āϰ⧇āĨ¤