2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic

Приведение ваших индексов в порядок: полнотекстовый поиск по данным обучения LLM для реального мира

Основная информация

  • ID статьи: 2510.09471
  • Название: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
  • Авторы: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
  • Категория: cs.CL (вычислительная лингвистика)
  • Конференция: WWW '26 (The Web Conference 2026)
  • Ссылка на статью: https://arxiv.org/abs/2510.09471

Аннотация

Производительность больших языковых моделей (LLM) зависит от качества их обучающих данных. Несмотря на растущее количество открытых LLM, доступ к данным обучения остаётся ограниченным. Даже для полностью открытых LLM масштаб данных затрудняет глубокий анализ научным сообществом, хотя данные могут содержать критическую информацию, собранную из интернета. В данной статье представлен конвейер полнотекстового индексирования данных обучения Apertus LLM. Используя параллельное индексирование Elasticsearch и инфраструктуру Alps (передовой высокоэффективный суперкластер ARM64), авторы успешно индексировали 8,6T токенов из 15,2T токенов, использованных для обучения семейства Apertus LLM, создав критически важный инструмент безопасности LLM и автономную, тщательно отобранную поисковую систему открытого веб-контента.

Исследовательский контекст и мотивация

Основные проблемы

  1. Отсутствие прозрачности данных обучения: несмотря на растущее распространение открытых LLM, данные обучения остаются труднодоступными и сложными для анализа
  2. Вызовы масштабирования данных: современные данные обучения LLM имеют огромный размер (триллионы токенов), что делает систематическую проверку практически невозможной
  3. Угрозы безопасности: данные обучения могут содержать вредоносный контент, включая личную информацию, материалы, защищённые авторским правом, токсичный язык и даже опасную информацию

Значимость исследования

  • Безопасность LLM: проблемный контент в данных обучения напрямую влияет на поведение модели, приводя к вредоносным выходам
  • Требования прозрачности: научное сообщество и органы регулирования нуждаются в возможности проверки данных обучения LLM
  • Требования соответствия: необходимо выявлять и удалять защищённый авторским правом контент, личную информацию и прочее

Ограничения существующих методов

  • Выборочный анализ: существующие инструменты в основном основаны на небольших выборках (например, 1% Common Crawl), что не гарантирует полное покрытие
  • Ограничения масштаба: предыдущий наибольший полнотекстовый индекс (Infinigram) поддерживал только 4,6T токенов и только точное совпадение
  • Ограниченная функциональность: отсутствие нечёткого поиска и логических операций

Основные вклады

  1. Миграция архитектуры ARM64: первая демонстрация успешного развёртывания Elasticsearch на системах HPC на базе ARM64 GH200
  2. Реализация крупномасштабного индексирования: индексирование набора данных из 8,6T токенов, что в 4 раза больше предыдущих индексов на основе Elasticsearch и в 2 раза больше общего масштаба
  3. Приложения для безопасности LLM: демонстрация применения полнотекстового индексирования для безопасности LLM и случаев использования, обеспечивающих защиту без необходимости взлома
  4. Вклад в открытый исходный код: предоставление полного открытого кода и эталонов производительности для поддержки будущих исследований

Подробное описание методологии

Определение задачи

Построение системы, способной выполнять полнотекстовый поиск по данным обучения LLM в триллионы токенов, поддерживающей:

  • точное и нечёткое совпадение
  • поиск многоязычного контента
  • логические операции и сложные запросы
  • ответы на поиск в реальном времени

Архитектура системы

1. Конвейер обработки данных

Исходные файлы Parquet → Потоковая обработка → Анализ текста → Индекс Elasticsearch

2. Основные компоненты

  • Механизм Elasticsearch: распределённый поисковый и аналитический механизм
  • Параллельное индексирование: использование elasticsearch.helpers.parallel_bulk для многопоточной параллельной обработки
  • Анализатор текста: web_content_analyzer выполняет очистку HTML, стандартную токенизацию, преобразование в нижний регистр, свёртывание ASCII

3. Ключевые параметры настройки

  • Количество потоков: не превышает количество ядер процессора, балансируя параллелизм и нагрузку на память
  • Размер блока: определяется формулой chunk_size ≤ max_chunk_size / avg_doc_size
  • Максимальный размер блока в байтах: контролирует максимальную полезную нагрузку массовых запросов
  • Размер очереди: буферизирует дисбаланс между потоками производителя и потребителя

Технические инновации

1. Адаптация ARM64

  • Построение пользовательского образа контейнера, совместимого с OCI
  • Решение проблем совместимости Docker, использование Podman вместо Docker
  • Переимплементация оркестрации через определения заданий SLURM

2. Оптимизация среды HPC

  • Отключение отображения в памяти для адаптации к ограничениям параметров ядра
  • Конфигурация сетевого обхода прокси, привязка к 127.0.0.1
  • Режим работы с одним узлом, адаптированный к изоляции заданий SLURM

3. Оптимизация запросов

  • match_phrase_query: поддержка настраиваемого допуска расстояния между словами (параметр SLOP)
  • Многоуровневая обработка текста: очистка HTML → стандартная токенизация → нормализация → свёртывание ASCII

Экспериментальная установка

Набор данных

Подмножество данных обучения Apertus (8,6T токенов, 58% от общих данных обучения):

Набор данныхТокены (млрд)
FineWeb-Edu (Score-2)4815
FineWeb-2-HQ (33% наивысшего качества)3557
StarCoder235
Подмножество FineMath CommonCrawl32
Gutenberg и Poison2

Набор данных запросов

  1. Словарь Weaponized Words: вредоносная лексика на 137 языках
  2. Список LDNOOBW: бранная лексика на 28 языках
  3. Набор данных химического оружия: 17 терминов опасных химических реагентов

Вычислительная среда

  • Суперкомпьютер Alps: система HPE Cray EX, производительность 434 PFlops
  • Конфигурация узла: ARM64-based NVIDIA Grace Hopper GH200
  • Система хранения: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

Результаты экспериментов

Производительность индексирования

Набор данныхРазмер данных (ГБ)Время (ч)Скорость индексирования (док/с)Накладные расходы индексированияПиковая память (ГБ)
FineWeb-2 Edu (EN)12,737143.710,2961.34.9
FineWeb-2 Europe HQ2,660408.35891.17.5
StarCoder2294.210,9191.412.7

Ключевые выводы:

  • Скорость индексирования текста на английском языке значительно выше, чем для многоязычных наборов данных (10,297 против 589 док/с)
  • Данные кода требуют больше ресурсов памяти (12,7 ГБ против 4,9 ГБ)
  • Многоязычные наборы данных имеют более высокие накладные расходы индексирования

Производительность запросов

  • Время запроса растёт линейно с увеличением длины запроса
  • Запросы одного слова: <100 мс
  • Запросы из 300 слов: ~1000 мс
  • Система демонстрирует стабильную производительность при различных длинах запросов

Анализ вредоносного контента

Статистика многоязычной вредоносной лексики

ЯзыкWeaponized Words (млн)LDNOOBW (млн)
Английский1,245.8661.6
Французский16.8202.5
Немецкий9.914.9
Итальянский1.618.5

Термины, связанные с химическим оружием

Обнаружено, что общие химические вещества (такие как глицерин, азотная кислота) встречаются с чрезвычайно высокой частотой, в то время как специализированные термины синтеза химического оружия также имеют значительное присутствие в неанглийских языках, что подчёркивает важность многоязычной курации данных.

Связанные работы

Существующие инструменты анализа данных LLM

  1. Data Portraits: использование приблизительного вывода о принадлежности для снижения вычислительных затрат
  2. Методы статистической выборки: например, анализ 1% Common Crawl Luccioni и др.
  3. Инструменты для небольших наборов данных: Data Measurements от HuggingFace, Know Your Data от Google

Системы крупномасштабного индексирования

  1. WhatIsInMyBigData: максимальный индекс 1,4T токенов (RedPajama)
  2. Infinigram: использование суффиксных массивов, поддержка точного поиска 4,6T токенов
  3. Инструменты ROOTS: нечёткий и точный поиск по многоязычному корпусу объёмом 1,6 ТБ

Преимущества данной работы

  • Масштаб: 8,6T токенов, превосходящий существующие системы на основе Elasticsearch в 4 раза
  • Функциональность: поддержка нечёткого поиска и логических операций
  • Многоязычность: охват анализа безопасности на нескольких языках

Заключение и обсуждение

Основные выводы

  1. Техническая осуществимость: доказана возможность развёртывания Elasticsearch на архитектуре ARM64
  2. Достижимость масштаба: полнотекстовое индексирование триллионов токенов достижимо для небольших команд
  3. Приложения для безопасности: полнотекстовое индексирование может использоваться для глубокого анализа безопасности данных обучения LLM

Ограничения

  1. Охват покрытия: индексировано только 58% данных обучения Apertus
  2. Ограничения архитектуры: адаптация ARM64 по-прежнему сталкивается с проблемами совместимости
  3. Отображение в памяти: невозможность использования отображения в памяти снижает эффективность ввода-вывода

Будущие направления

  1. Индексирование всего интернета: построение автономного поискового индекса всей открытой сети
  2. Укоренение фактов в LLM: проверка генерируемого LLM контента на основе автономного поиска
  3. Экономические и этические вопросы: механизмы справедливой компенсации создателям контента

Глубокая оценка

Преимущества

  1. Высокая практическая ценность: решение важной проблемы прозрачности данных обучения LLM
  2. Значительный технический вклад: первая реализация индексирования Elasticsearch на триллионы токенов
  3. Дружественность к открытому исходному коду: предоставление полного кода и подробного руководства по развёртыванию
  4. Чёткие приложения для безопасности: демонстрация конкретных случаев использования безопасности LLM
  5. Экологичность: использование высокоэффективной архитектуры ARM64, выбросы CO2 всего 90 кг CO2eq

Недостатки

  1. Неполное покрытие данных: не индексированы все данные обучения
  2. Вызовы ARM64: сложный процесс технической адаптации, что может повлиять на распространение
  3. Компромиссы производительности: жертва частью производительности ввода-вывода для адаптации к среде HPC
  4. Поверхностный анализ безопасности: анализ вредоносного контента относительно поверхностный

Влияние

  1. Академический вклад: предоставление нового технического пути для анализа данных обучения LLM
  2. Практическая ценность: прямое применение к аудиту безопасности LLM
  3. Продвижение технологии: содействие внедрению ARM64 в корпоративных приложениях
  4. Поддержка политики: предоставление технических инструментов для регулирования LLM

Применимые сценарии

  1. Команды разработки LLM: контроль качества данных обучения и аудит безопасности
  2. Исследовательские учреждения: анализ и интеллектуальный анализ крупномасштабных текстовых данных
  3. Органы регулирования: проверка соответствия LLM и оценка рисков
  4. Корпоративные приложения: фильтрация контента и управление данными

Библиография

Статья цитирует 60 связанных работ, охватывающих обучение LLM, безопасность данных, полнотекстовый поиск и другие области, обеспечивая прочную теоретическую основу для исследования.


Общая оценка: это техническая статья с важной практической ценностью, успешно решающая ключевые проблемы прозрачности и анализа безопасности данных обучения LLM. Хотя существуют некоторые ограничения в охвате данных и технической адаптации, её новаторская работа обеспечивает важную техническую основу и практическое руководство для этой области.