2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.
We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academic

HPLT 3.0: LLM 및 MT를 위한 초대규모 다국어 자원. 단일언어 및 이중언어 데이터, 다국어 평가, 사전학습 모델

기본 정보

  • 논문 ID: 2511.01066
  • 제목: HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models
  • 저자: Stephan Oepen 및 여러 유럽 학술 기관의 연구자들
  • 분류: cs.CL (계산언어학)
  • 발표 시간: 2025년 11월
  • 논문 링크: https://arxiv.org/abs/2511.01066

초록

본 논문은 약 200개 언어에 대해 개방적이고 초대규모의 고품질 주석이 풍부한 텍스트 데이터셋을 제공하는 것을 목표로 하는 HPLT 3.0 프로젝트를 소개합니다. 이 데이터셋은 30조 개의 토큰을 포함하며, 현재 공개적으로 이용 가능한 가장 큰 다국어 LLM 사전학습 데이터셋 모음일 가능성이 있습니다. 데이터셋은 다양한 웹 크롤러에서 수집되었으며, 문서 선택, 텍스트 추출, 언어 식별, 중복 제거, 품질 평가 등의 기능을 포함한 완전한 오픈소스 처리 파이프라인을 갖추고 있습니다.

연구 배경 및 동기

문제 정의

  1. 데이터 부족 문제: 대규모 고품질 다국어 사전학습 데이터는 일반적으로 대형 기업에 의해 통제되며, 학계는 접근 가능한 자원이 부족합니다
  2. 언어 불평등: 기존 데이터셋은 주로 영어에 편향되어 있으며, 특히 저자원 언어의 데이터가 심각하게 부족합니다
  3. 품질 관리: 웹 크롤링 데이터의 품질이 불균일하므로 체계적인 정제 및 필터링 메커니즘이 필요합니다
  4. 평가 표준: 통일된 다국어 모델 평가 프레임워크가 부족합니다

연구의 중요성

  • AI 민주화: 개방형 대규모 데이터셋을 통해 LLM 개발의 진입 장벽을 낮춤
  • 다국어 공정성: 저자원 언어에 더 많은 학습 데이터를 제공하여 언어 다양성 촉진
  • 학술 연구: 연구 커뮤니티에 재현 가능한 실험 기반 제공

기존 방법의 한계

  • C4, FineWeb 등의 데이터셋은 주로 영어에 중점을 둠
  • MADLAD-400 등의 다국어 데이터셋은 상대적으로 규모가 작음
  • 통일된 데이터 처리 및 평가 표준 부재

핵심 기여

  1. 30조 토큰의 초대규모 다국어 데이터셋 구축, 약 200개 언어 포함
  2. 완전한 오픈소스 데이터 처리 파이프라인 개발, 텍스트 추출, 언어 식별, 중복 제거, 품질 평가 등 포함
  3. HPLT-E 다국어 평가 프레임워크 제안, 9개 유럽 언어의 127개 작업 포함
  4. 57개의 단일언어 인코더-디코더 모델 학습 및 여러 GPT 스타일의 참조 모델
  5. 대규모 평행 텍스트 데이터셋 구축, 자동 마이닝 및 기계 번역 합성 데이터 포함
  6. 포괄적인 데이터 품질 분석 제공, 통계 분석 및 인간 검증 포함

방법론 상세 설명

데이터 수집 및 처리 파이프라인

원본 데이터 소스

  • Internet Archive (IA): 2012-2020년 크롤러 데이터 3.3 PB
  • Common Crawl (CC): 57개 완전 스냅샷(2014-2025), 약 7.2 PB 총량

핵심 처리 단계

  1. 텍스트 추출
    • Trafilatura 프레임워크를 사용한 HTML 텍스트 추출
    • 속도보다 추출 품질을 우선하도록 하이퍼파라미터 최적화
  2. 언어 식별
    • OpenLID-v2 모델을 사용한 언어 예측
    • Flores+ 평가 세트의 언어 레이블 지원
    • 개선된 전처리 프로세스: 공백 정규화, 소문자 변환, 비단어 문자 제거
  3. 중복 제거 처리
    • 영어, 러시아어, 중국어를 제외한 모든 언어에 대해 MinHash 기반의 전역 근사 중복 제거 적용
    • 대규모 언어는 크롤러별 중복 제거를 통해 계산 효율성 향상
  4. 품질 평가 및 주석
    • Web Docs Scorer (WDS): 휴리스틱 문서 필터링 방법 통합
    • 등록 레이블: Turku 웹 등록 분류기를 사용하여 104개 언어에 문체 레이블 추가
    • WDS 등급: 문서를 품질에 따라 {5,6,7,8,9,10} 6개 등급으로 분류

데이터 패킹 및 배포

  • WDS 등급에 따라 각 언어의 문서를 분류하고 전역 정렬
  • Zstandard 압축 JSONlines 형식 사용
  • 총 약 50TB 데이터, 3000개 파일에 분산

실험 설정

HPLT-E 평가 프레임워크

언어 선택

9개 유럽 언어 선택: 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 체코어, 핀란드어, 노르웨이어, 우크라이나어 등

모델 학습 구성

  • 아키텍처: Llama 아키텍처의 디코더 모델
  • 규모: 21.5억 파라미터, 24개 레이어, 32개 주의 헤드
  • 학습 데이터: 각 언어당 1000억 토큰
  • 시퀀스 길이: 2048
  • 학습 플랫폼: LUMI 슈퍼컴퓨터, 16개 노드 AMD MI250x GPU

평가 작업

127개의 언어 이해 및 생성 작업 포함:

  • 텍스트 함의
  • 상식 추론
  • 언어 특정 및 세계 지식
  • 의역
  • 독해 이해
  • 감정 분석
  • 독성 검출
  • 진실성 평가

인코더-디코더 모델

모델 구성

  • 아키텍처: T5-base (약 2.75억 파라미터)
  • 언어 커버리지: 57개 언어
  • 언어족: 14개 언어족 포함

평가 작업

  1. 명명된 개체 인식: WikiAnn 벤치마크 테스트
  2. 언어 능력: MultiBLiMP 벤치마크 테스트

실험 결과

데이터셋 비교 분석

데이터셋영어 문서 수영어 토큰 수다국어 문서 수다국어 토큰 수총 토큰 수
HPLT 3.0180억16조110억13조29조
FineWeb240억17조50억4.9조22조
HPLT 2.044억3.9조61억7.2조11조
MADLAD-40015억1.7조21억2.7조4.4조

다국어 LLM 평가 결과

데이터셋 성능 비교

HPLT-E 프레임워크에 따른 평가 결과, 모델 성능 순서:

  1. MADLAD-400: 최고 다국어 점수
  2. HPLT 3.0: 2위, 이전 버전보다 현저히 우수
  3. HPLT 2.0FineWeb: 동등한 성능

WDS 품질 등급 실험

  • 저품질 데이터(하위 WDS 등급): 모델 성능 명확히 저하
  • 고품질 데이터(상위 WDS 등급): 무작위 샘플링 성능과 동등, 다양성 부족 가능성
  • 무작위 샘플링: 스페인어 및 프랑스어에서 최고 성능

인코더-디코더 모델 결과

명명된 개체 인식(WikiAnn F1 점수)

언어HPLT T5mT5-baseBERT HPLT
카탈루냐어92.787.494.5
체코어91.685.291.8
영어82.177.682.7
바스크어92.082.892.9
핀란드어90.31.891.6

언어 능력(MultiBLIMP 정확도)

언어HPLT T5mT5-basemT5-xxl
카탈루냐어95.691.693.0
체코어95.988.893.4
영어94.290.695.3
바스크어97.494.996.0

평균 성능: HPLT T5 모델이 MultiBLIMP에서 93.5% 달성, mT5-base의 86.8%보다 현저히 우수

데이터 품질 분석

인간 검증 결과(24개 언어)

  • 음란물 콘텐츠: 대부분 언어에서 2% 미만
  • 언어 식별 오류: 전반적으로 낮음, 다만 보스니아어 데이터셋은 주로 세르비아어, 아스투리아스어는 스페인어 포함
  • 비자연 텍스트: 언어별 차이 큼, 일부는 주석 표준의 주관성 반영
  • 텍스트 결함: 네비게이션 요소, 잘린 텍스트 등 포함, 언어별로 비율 상이

통계적 특성 개선

  • 고유 단락 비율: HPLT 3.0은 73% vs HPLT 2.0은 52%, 전역 중복 제거의 효과 반영
  • 도메인 다양성: HPLT 2.0 대비 Wikipedia 페이지의 과도한 대표성 감소
  • 지리적 TLD 분포: 언어 사용 지역과 높은 상관관계

관련 연구

대규모 사전학습 데이터셋

  • C4: Google 및 Allen AI의 영어 중심 데이터셋
  • FineWeb: Hugging Face의 고품질 웹 데이터
  • MADLAD-400: Google의 400개 언어 데이터셋
  • Nemotron-CC: Nvidia의 Common Crawl 정제 데이터

다국어 모델 평가

  • 기존 벤치마크: 대부분 영어 또는 소수 고자원 언어에 편향
  • 평가 과제: 프롬프트 민감성, 교차언어 일관성, 문화적 편견 등

데이터 처리 기술

  • 텍스트 추출: Trafilatura 등 도구의 발전
  • 언어 식별: 전통적 방법에서 심층학습 모델로의 진화
  • 중복 제거 기술: 정확한 일치에서 근사 일치 방법으로의 발전

결론 및 논의

주요 결론

  1. 규모의 돌파: HPLT 3.0은 30조 토큰으로 가장 큰 공개 다국어 사전학습 데이터셋
  2. 품질 향상: 개선된 처리 파이프라인이 데이터 품질을 현저히 향상, 모델 성능에 반영
  3. 평가 혁신: HPLT-E 프레임워크는 다국어 모델 평가를 위한 새로운 표준 제시
  4. 모델 기여: 57개의 단일언어 인코더-디코더 모델이 커뮤니티에 실용적 도구 제공

한계

  1. 품질 평가: 인간 검증에도 불구하고 대규모 데이터의 품질 평가는 여전히 과제
  2. 언어 커버리지: 약 200개 언어를 지원하지만 자원 분포는 여전히 불균형
  3. 평가 범위: HPLT-E 프레임워크는 현재 9개 유럽 언어만 포함
  4. 계산 자원: 대규모 학습은 많은 계산 자원 필요, 재현성 제한

향후 방향

  1. 데이터 확장: 2026년 초 ArchiveBot 데이터를 포함한 확장 버전 출시 계획
  2. 평가 확장: HPLT-E 프레임워크를 더 많은 언어 및 작업으로 확대
  3. 품질 개선: 데이터 처리 파이프라인 및 품질 관리 메커니즘 지속 최적화
  4. 응용 연구: 저자원 언어에서 합성 데이터의 적용 효과 탐색

심층 평가

장점

  1. 전례 없는 규모: 30조 토큰은 공개 데이터셋 중 최고 수준
  2. 개방성과 투명성: 완전한 오픈소스 파이프라인 및 상세한 기술 문서
  3. 체계성: 데이터 수집에서 모델 학습까지의 완전한 생태계
  4. 품질 관리: 다층적 품질 평가 및 인간 검증 메커니즘
  5. 실용적 가치: 직접 사용 가능한 사전학습 모델 제공

부족한 점

  1. 계산 진입장벽: 데이터는 개방되어 있으나 대규모 모델 학습에는 여전히 많은 계산 자원 필요
  2. 품질 불균형: 언어별 데이터 품질 및 수량의 큰 차이
  3. 평가 제한: 인간 평가 샘플이 상대적으로 작아 편향 가능성
  4. 문화적 편견: 웹 데이터 고유의 지역 및 문화적 편견 완전 제거 어려움

영향력

  1. 학술 기여: 다국어 NLP 연구를 위한 중요한 기반시설 제공
  2. 산업 영향: 다국어 AI 애플리케이션 개발의 진입 장벽 낮춤
  3. 사회적 가치: 언어 다양성 촉진 및 AI 기술의 민주화
  4. 표준 설정: HPLT-E 평가 프레임워크가 업계 표준이 될 가능성

적용 시나리오

  1. 다국어 LLM 사전학습: 대규모 언어 모델의 사전학습에 직접 활용
  2. 특정 언어 모델: 저자원 언어를 위한 전문 모델 개발
  3. 교차언어 연구: 언어학 및 계산언어학 연구 지원
  4. 기계 번역: 평행 말뭉치 및 단일언어 데이터 제공
  5. 교육 응용: 언어 학습 및 교육을 위한 자원 제공

기술 혁신점

데이터 처리 혁신

  1. 전역 중복 제거: 크롤러 간 전역 근사 중복 제거로 데이터 다양성 향상
  2. 품질 분급: WDS 점수 시스템으로 세밀한 품질 관리 제공
  3. 다차원 주석: 등록 레이블, 품질 평가, PII 검출 등 다양한 주석 결합

평가 방법 혁신

  1. 다중 프롬프트 설계: 각 작업마다 3-7개의 인간 작성 프롬프트 지원, 프롬프트 민감성 감소
  2. 작업 선택 기준: 단조성, 안정성 등 7개 기준에 따른 평가 작업 선택
  3. 집계 방법: 평균 점수, 순위, Borda 계수 등 다양한 집계 방식 결합

모델 학습 혁신

  1. 언어 특정 모델: 57개 언어 각각에 대해 전문 인코더-디코더 모델 학습
  2. 중간 체크포인트: 학습 과정 중 중간 체크포인트 제공, 학습 과정 연구 지원
  3. 합성 데이터: 기계 번역을 통한 추가 사전학습 데이터 생성

참고 문헌

본 논문은 다양한 관련 연구를 인용하며, 주요 내용은 다음과 같습니다:

  • Raffel et al. (2020): T5 모델 및 C4 데이터셋
  • Penedo et al. (2024, 2025): FineWeb 데이터셋 시리즈
  • Kudugunta et al. (2023): MADLAD-400 데이터셋
  • Burchell et al. (2025): HPLT 2.0 데이터셋
  • 다양한 다국어 평가 벤치마크 관련 논문

요약: HPLT 3.0 프로젝트는 다국어 NLP 분야의 중요한 이정표를 나타내며, 데이터 규모에서의 돌파뿐만 아니라 개방성, 품질 관리, 평가 표준 측면에서 새로운 기준을 제시합니다. 일부 한계가 있지만, 다국어 AI 기술의 민주화 및 발전을 촉진하는 데 중요한 의미를 갖습니다.