Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet.
In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety.
We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic
Приведение ваших индексов в порядок: полнотекстовый поиск по данным обучения LLM для реального мира
Производительность больших языковых моделей (LLM) зависит от качества их обучающих данных. Несмотря на растущее количество открытых LLM, доступ к данным обучения остаётся ограниченным. Даже для полностью открытых LLM масштаб данных затрудняет глубокий анализ научным сообществом, хотя данные могут содержать критическую информацию, собранную из интернета. В данной статье представлен конвейер полнотекстового индексирования данных обучения Apertus LLM. Используя параллельное индексирование Elasticsearch и инфраструктуру Alps (передовой высокоэффективный суперкластер ARM64), авторы успешно индексировали 8,6T токенов из 15,2T токенов, использованных для обучения семейства Apertus LLM, создав критически важный инструмент безопасности LLM и автономную, тщательно отобранную поисковую систему открытого веб-контента.
Отсутствие прозрачности данных обучения: несмотря на растущее распространение открытых LLM, данные обучения остаются труднодоступными и сложными для анализа
Вызовы масштабирования данных: современные данные обучения LLM имеют огромный размер (триллионы токенов), что делает систематическую проверку практически невозможной
Угрозы безопасности: данные обучения могут содержать вредоносный контент, включая личную информацию, материалы, защищённые авторским правом, токсичный язык и даже опасную информацию
Миграция архитектуры ARM64: первая демонстрация успешного развёртывания Elasticsearch на системах HPC на базе ARM64 GH200
Реализация крупномасштабного индексирования: индексирование набора данных из 8,6T токенов, что в 4 раза больше предыдущих индексов на основе Elasticsearch и в 2 раза больше общего масштаба
Приложения для безопасности LLM: демонстрация применения полнотекстового индексирования для безопасности LLM и случаев использования, обеспечивающих защиту без необходимости взлома
Вклад в открытый исходный код: предоставление полного открытого кода и эталонов производительности для поддержки будущих исследований
Обнаружено, что общие химические вещества (такие как глицерин, азотная кислота) встречаются с чрезвычайно высокой частотой, в то время как специализированные термины синтеза химического оружия также имеют значительное присутствие в неанглийских языках, что подчёркивает важность многоязычной курации данных.
Статья цитирует 60 связанных работ, охватывающих обучение LLM, безопасность данных, полнотекстовый поиск и другие области, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: это техническая статья с важной практической ценностью, успешно решающая ключевые проблемы прозрачности и анализа безопасности данных обучения LLM. Хотя существуют некоторые ограничения в охвате данных и технической адаптации, её новаторская работа обеспечивает важную техническую основу и практическое руководство для этой области.