2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic

인덱스를 정렬하기: 실제 LLM 훈련 데이터를 위한 전문 텍스트 검색

기본 정보

  • 논문 ID: 2510.09471
  • 제목: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
  • 저자: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
  • 분류: cs.CL (계산 언어학)
  • 발표 학회: WWW '26 (The Web Conference 2026)
  • 논문 링크: https://arxiv.org/abs/2510.09471

초록

대규모 언어 모델(LLMs)의 성능은 훈련 데이터에 따라 결정된다. 개방형 가중치 LLMs가 증가하고 있음에도 불구하고, LLM 훈련 데이터에 대한 접근은 여전히 제한적이다. 완전히 개방된 LLMs의 경우에도, 데이터 규모로 인해 일반 과학 커뮤니티가 심층 분석을 수행하기 어렵다. 본 논문은 Apertus LLM 훈련 데이터의 전문 텍스트 인덱싱 파이프라인을 제시한다. Elasticsearch 병렬 인덱싱과 Alps 인프라(최첨단 고효율 arm64 슈퍼컴퓨터)를 활용하여, Apertus LLM 계열 훈련에 사용된 15.2T 토큰 중 8.6T 토큰을 성공적으로 인덱싱했으며, 이는 중요한 LLM 안전 도구이자 오프라인 정선 개방형 웹 검색 엔진을 구축했다.

연구 배경 및 동기

핵심 문제

  1. 훈련 데이터 투명성 부족: 개방형 가중치 LLMs가 널리 보급되고 있음에도 불구하고 훈련 데이터는 여전히 접근 및 분석이 어렵다
  2. 데이터 규모 문제: 현대 LLM 훈련 데이터의 규모가 매우 크다(조 단위 토큰), 체계적 검사를 거의 불가능하게 만든다
  3. 안전 위험: 훈련 데이터에는 개인정보, 저작권 자료, 독성 언어, 심지어 위험한 정보 등 해로운 콘텐츠가 포함될 수 있다

연구의 중요성

  • LLM 안전성: 훈련 데이터의 문제 콘텐츠는 모델 동작에 직접 영향을 미쳐 해로운 출력을 초래한다
  • 투명성 요구: 과학계와 규제 기관은 LLM 훈련 데이터를 검토할 수 있어야 한다
  • 규정 준수: 저작권 콘텐츠, 개인정보 등을 식별하고 제거해야 한다

기존 방법의 한계

  • 샘플링 분석: 기존 도구는 주로 소규모 샘플(예: Common Crawl의 1%)을 기반으로 하며, 완전한 커버리지를 보장할 수 없다
  • 규모 제한: 이전의 최대 전문 텍스트 인덱스(Infinigram)는 4.6T 토큰만 지원하며 정확한 일치만 가능하다
  • 기능 제한: 모호한 검색 및 논리 연산 기능이 부족하다

핵심 기여

  1. ARM64 아키텍처 마이그레이션: ARM64 기반 GH200 HPC 시스템에서 Elasticsearch의 성공적인 배포를 처음으로 시연
  2. 대규모 인덱싱 구현: 8.6T 토큰 데이터셋 인덱싱, 이전 Elasticsearch 기반 인덱싱의 4배, 전체 규모의 2배
  3. LLM 안전 응용: 전문 텍스트 인덱싱이 LLM 안전 및 보안 사용 사례에 미치는 영향을 시연하며, 탈옥 없는 안전 보장 제공
  4. 오픈소스 기여: 완전한 오픈소스 코드 및 성능 벤치마크 제공으로 향후 연구 지원

방법론 상세 설명

작업 정의

조 단위 토큰의 LLM 훈련 데이터에 대한 전문 텍스트 검색을 지원하는 시스템 구축:

  • 정확 및 모호 일치
  • 다국어 콘텐츠 검색
  • 논리 연산 및 복잡한 쿼리
  • 실시간 검색 응답

시스템 아키텍처

1. 데이터 처리 파이프라인

원본 Parquet 파일 → 스트림 처리 → 텍스트 분석 → Elasticsearch 인덱스

2. 핵심 구성 요소

  • Elasticsearch 엔진: 분산 검색 및 분석 엔진
  • 병렬 인덱싱: elasticsearch.helpers.parallel_bulk를 사용한 다중 스레드 동시 처리
  • 텍스트 분석기: web_content_analyzer는 HTML 정리, 표준 토큰화, 소문자 변환, ASCII 폴딩 수행

3. 주요 매개변수 튜닝

  • 스레드 수: CPU 코어 수를 초과하지 않으며, 동시성과 메모리 압력의 균형 유지
  • 청크 크기: 공식으로 결정됨 chunk_size ≤ max_chunk_size / avg_doc_size
  • 최대 청크 바이트: 대량 요청의 최대 페이로드 제어
  • 큐 크기: 생산자 및 소비자 스레드 간의 불균형 완충

기술 혁신점

1. ARM64 적응

  • OCI 호환 사용자 정의 컨테이너 이미지 구축
  • Docker 호환성 문제 해결, Podman으로 대체
  • SLURM 작업 정의를 통한 오케스트레이션 재구현

2. HPC 환경 최적화

  • 커널 매개변수 제한에 적응하기 위해 메모리 매핑 비활성화
  • 프록시를 우회하는 네트워크 구성, 127.0.0.1에 바인딩
  • SLURM 작업 격리에 적응하는 단일 노드 작동 모드

3. 쿼리 최적화

  • match_phrase_query: 구성 가능한 단어 거리 허용도(SLOP 매개변수) 지원
  • 다단계 텍스트 처리: HTML 정리 → 표준 토큰화 → 정규화 → ASCII 폴딩

실험 설정

데이터셋

Apertus 훈련 데이터 부분집합 (8.6T 토큰, 전체 훈련 데이터의 58%):

데이터셋토큰 (B)
FineWeb-Edu (Score-2)4815
FineWeb-2-HQ (상위 33% 품질)3557
StarCoder235
FineMath CommonCrawl 부분집합32
Gutenberg 및 Poison2

쿼리 데이터셋

  1. Weaponized Words 사전: 137개 언어의 해로운 어휘
  2. LDNOOBW 목록: 28개 언어의 욕설
  3. 화학 무기 데이터셋: 17개의 위험한 화학 시약 용어

컴퓨팅 환경

  • Alps 슈퍼컴퓨터: HPE Cray EX 시스템, 434 PFlops 성능
  • 노드 구성: ARM64 기반 NVIDIA Grace Hopper GH200
  • 저장소 시스템: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

실험 결과

인덱싱 성능

데이터셋데이터 크기(GB)시간(h)인덱싱 속도(doc/s)인덱싱 오버헤드 비율피크 메모리(GB)
FineWeb-2 Edu (EN)12,737143.710,2961.34.9
FineWeb-2 Europe HQ2,660408.35891.17.5
StarCoder2294.210,9191.412.7

주요 발견:

  • 영어 텍스트 인덱싱 속도가 다국어 데이터셋보다 현저히 빠르다(10,297 vs 589 doc/s)
  • 코드 데이터는 더 많은 메모리 리소스 필요(12.7GB vs 4.9GB)
  • 다국어 데이터셋 인덱싱 오버헤드가 더 높다

쿼리 성능

  • 쿼리 시간은 쿼리 길이 증가에 따라 선형으로 증가
  • 단일 단어 쿼리: <100ms
  • 300단어 쿼리: ~1000ms
  • 시스템은 다양한 쿼리 길이에서 안정적인 성능 유지

해로운 콘텐츠 분석

다국어 해로운 어휘 통계

언어Weaponized Words (백만)LDNOOBW (백만)
영어1,245.8661.6
프랑스어16.8202.5
독일어9.914.9
이탈리아어1.618.5

화학 무기 관련 용어

글리세롤, 질산 등 일반적인 화학 물질의 출현 빈도가 매우 높으며, 전문 화무 합성 용어도 비영어 언어에서 상당한 출현을 보이고 있어, 다국어 데이터 큐레이션의 중요성을 시사한다.

관련 연구

기존 LLM 데이터 분석 도구

  1. Data Portraits: 근사 멤버십 추론을 사용하여 계산 비용 감소
  2. 통계 샘플링 방법: Luccioni 등의 Common Crawl 1% 분석
  3. 소규모 데이터셋 도구: HuggingFace의 Data Measurements, Google의 Know Your Data

대규모 인덱싱 시스템

  1. WhatIsInMyBigData: 최대 1.4T 토큰 인덱싱(RedPajama)
  2. Infinigram: 접미사 배열 사용, 4.6T 토큰 정확 검색 지원
  3. ROOTS 도구: 1.6TB 다국어 코퍼스의 모호 및 정확 검색

본 논문의 장점

  • 규모: 8.6T 토큰, 기존 Elasticsearch 기반 시스템의 4배 초과
  • 기능: 모호 검색 및 논리 연산 지원
  • 다국어: 다양한 언어의 안전성 분석 커버리지

결론 및 논의

주요 결론

  1. 기술 타당성: ARM64 아키텍처에서 Elasticsearch 배포의 타당성 입증
  2. 규모 달성 가능성: 조 단위 토큰의 전문 텍스트 인덱싱이 소규모 팀에 실현 가능함을 입증
  3. 안전 응용: 전문 텍스트 인덱싱이 LLM 훈련 데이터의 심층 안전 분석에 사용될 수 있음

한계

  1. 커버리지 범위: Apertus 훈련 데이터의 58%만 인덱싱
  2. 아키텍처 제한: ARM64 적응이 여전히 호환성 문제에 직면
  3. 메모리 매핑: 메모리 매핑 사용 불가로 I/O 효율성 저하

향후 방향

  1. 완전한 인터넷 인덱싱: 전체 개방형 웹의 오프라인 검색 인덱스 구축
  2. LLM 사실 근거: 오프라인 검색 기반 LLM 생성 콘텐츠 검증
  3. 경제 윤리 문제: 콘텐츠 제작자의 공정한 보상 메커니즘

심층 평가

장점

  1. 높은 실용 가치: LLM 훈련 데이터 투명성의 중요한 문제 해결
  2. 현저한 기술 기여: 조 단위 토큰의 Elasticsearch 인덱싱 최초 구현
  3. 오픈소스 친화적: 완전한 코드 및 상세한 배포 가이드 제공
  4. 명확한 안전 응용: 구체적인 LLM 안전 사용 사례 시연
  5. 환경 친화적: 고효율 ARM64 아키텍처 사용, 탄소 배출량 90kg CO2eq에 불과

부족한 점

  1. 데이터 커버리지 불완전: 전체 훈련 데이터 미인덱싱
  2. ARM64 문제: 기술 적응 과정이 복잡하여 확산에 영향 가능
  3. 성능 트레이드오프: HPC 환경 적응을 위해 일부 I/O 성능 희생
  4. 안전 분석 깊이: 해로운 콘텐츠 분석이 상대적으로 표면적

영향력

  1. 학술 기여: LLM 훈련 데이터 분석을 위한 새로운 기술 경로 제공
  2. 실용 가치: LLM 안전 감사에 직접 적용 가능
  3. 기술 확산: 엔터프라이즈 응용에서 ARM64 채택 촉진
  4. 정책 지원: LLM 규제를 위한 기술 도구 제공

적용 시나리오

  1. LLM 개발 팀: 훈련 데이터 품질 제어 및 안전 감사
  2. 연구 기관: 대규모 텍스트 데이터 분석 및 마이닝
  3. 규제 기관: LLM 규정 준수 검사 및 위험 평가
  4. 엔터프라이즈 응용: 콘텐츠 필터링 및 데이터 거버넌스

참고문헌

본 논문은 LLM 훈련, 데이터 안전, 전문 텍스트 검색 등 여러 분야의 중요한 작업을 포함하는 60개의 관련 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공한다.


종합 평가: 이는 LLM 훈련 데이터 투명성 및 안전성 분석의 핵심 문제를 성공적으로 해결한 중요한 실용 가치의 기술 논문이다. 데이터 커버리지 및 기술 적응 측면에서 일부 한계가 있지만, 이 분야에 중요한 기술 기초 및 실무 지침을 제공하는 개척적 작업이다.