2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.

We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.

academic

HPLT 3.0: LLM 및 MT를 위한 초대규모 다국어 자원. 단일언어 및 이중언어 데이터, 다국어 평가, 사전학습 모델

기본 정보

논문 ID: 2511.01066
제목: HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models
저자: Stephan Oepen 및 여러 유럽 학술 기관의 연구자들
분류: cs.CL (계산언어학)
발표 시간: 2025년 11월
논문 링크: https://arxiv.org/abs/2511.01066

초록

본 논문은 약 200개 언어에 대해 개방적이고 초대규모의 고품질 주석이 풍부한 텍스트 데이터셋을 제공하는 것을 목표로 하는 HPLT 3.0 프로젝트를 소개합니다. 이 데이터셋은 30조 개의 토큰을 포함하며, 현재 공개적으로 이용 가능한 가장 큰 다국어 LLM 사전학습 데이터셋 모음일 가능성이 있습니다. 데이터셋은 다양한 웹 크롤러에서 수집되었으며, 문서 선택, 텍스트 추출, 언어 식별, 중복 제거, 품질 평가 등의 기능을 포함한 완전한 오픈소스 처리 파이프라인을 갖추고 있습니다.

연구 배경 및 동기

문제 정의

데이터 부족 문제: 대규모 고품질 다국어 사전학습 데이터는 일반적으로 대형 기업에 의해 통제되며, 학계는 접근 가능한 자원이 부족합니다
언어 불평등: 기존 데이터셋은 주로 영어에 편향되어 있으며, 특히 저자원 언어의 데이터가 심각하게 부족합니다
품질 관리: 웹 크롤링 데이터의 품질이 불균일하므로 체계적인 정제 및 필터링 메커니즘이 필요합니다
평가 표준: 통일된 다국어 모델 평가 프레임워크가 부족합니다

연구의 중요성

AI 민주화: 개방형 대규모 데이터셋을 통해 LLM 개발의 진입 장벽을 낮춤
다국어 공정성: 저자원 언어에 더 많은 학습 데이터를 제공하여 언어 다양성 촉진
학술 연구: 연구 커뮤니티에 재현 가능한 실험 기반 제공

기존 방법의 한계

C4, FineWeb 등의 데이터셋은 주로 영어에 중점을 둠
MADLAD-400 등의 다국어 데이터셋은 상대적으로 규모가 작음
통일된 데이터 처리 및 평가 표준 부재

핵심 기여

30조 토큰의 초대규모 다국어 데이터셋 구축, 약 200개 언어 포함
완전한 오픈소스 데이터 처리 파이프라인 개발, 텍스트 추출, 언어 식별, 중복 제거, 품질 평가 등 포함
HPLT-E 다국어 평가 프레임워크 제안, 9개 유럽 언어의 127개 작업 포함
57개의 단일언어 인코더-디코더 모델 학습 및 여러 GPT 스타일의 참조 모델
대규모 평행 텍스트 데이터셋 구축, 자동 마이닝 및 기계 번역 합성 데이터 포함
포괄적인 데이터 품질 분석 제공, 통계 분석 및 인간 검증 포함

방법론 상세 설명

데이터 수집 및 처리 파이프라인

원본 데이터 소스

Internet Archive (IA): 2012-2020년 크롤러 데이터 3.3 PB
Common Crawl (CC): 57개 완전 스냅샷(2014-2025), 약 7.2 PB 총량

핵심 처리 단계

텍스트 추출
- Trafilatura 프레임워크를 사용한 HTML 텍스트 추출
- 속도보다 추출 품질을 우선하도록 하이퍼파라미터 최적화
언어 식별
- OpenLID-v2 모델을 사용한 언어 예측
- Flores+ 평가 세트의 언어 레이블 지원
- 개선된 전처리 프로세스: 공백 정규화, 소문자 변환, 비단어 문자 제거
중복 제거 처리
- 영어, 러시아어, 중국어를 제외한 모든 언어에 대해 MinHash 기반의 전역 근사 중복 제거 적용
- 대규모 언어는 크롤러별 중복 제거를 통해 계산 효율성 향상
품질 평가 및 주석
- Web Docs Scorer (WDS): 휴리스틱 문서 필터링 방법 통합
- 등록 레이블: Turku 웹 등록 분류기를 사용하여 104개 언어에 문체 레이블 추가
- WDS 등급: 문서를 품질에 따라 {5,6,7,8,9,10} 6개 등급으로 분류

데이터 패킹 및 배포

WDS 등급에 따라 각 언어의 문서를 분류하고 전역 정렬
Zstandard 압축 JSONlines 형식 사용
총 약 50TB 데이터, 3000개 파일에 분산

실험 설정

HPLT-E 평가 프레임워크

언어 선택

9개 유럽 언어 선택: 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 체코어, 핀란드어, 노르웨이어, 우크라이나어 등

모델 학습 구성

아키텍처: Llama 아키텍처의 디코더 모델
규모: 21.5억 파라미터, 24개 레이어, 32개 주의 헤드
학습 데이터: 각 언어당 1000억 토큰
시퀀스 길이: 2048
학습 플랫폼: LUMI 슈퍼컴퓨터, 16개 노드 AMD MI250x GPU

평가 작업

127개의 언어 이해 및 생성 작업 포함:

텍스트 함의
상식 추론
언어 특정 및 세계 지식
의역
독해 이해
감정 분석
독성 검출
진실성 평가

인코더-디코더 모델

모델 구성

아키텍처: T5-base (약 2.75억 파라미터)
언어 커버리지: 57개 언어
언어족: 14개 언어족 포함

평가 작업

명명된 개체 인식: WikiAnn 벤치마크 테스트
언어 능력: MultiBLiMP 벤치마크 테스트

실험 결과

데이터셋 비교 분석

데이터셋	영어 문서 수	영어 토큰 수	다국어 문서 수	다국어 토큰 수	총 토큰 수
HPLT 3.0	180억	16조	110억	13조	29조
FineWeb	240억	17조	50억	4.9조	22조
HPLT 2.0	44억	3.9조	61억	7.2조	11조
MADLAD-400	15억	1.7조	21억	2.7조	4.4조

다국어 LLM 평가 결과

데이터셋 성능 비교

HPLT-E 프레임워크에 따른 평가 결과, 모델 성능 순서:

MADLAD-400: 최고 다국어 점수
HPLT 3.0: 2위, 이전 버전보다 현저히 우수
HPLT 2.0 및 FineWeb: 동등한 성능

WDS 품질 등급 실험

저품질 데이터(하위 WDS 등급): 모델 성능 명확히 저하
고품질 데이터(상위 WDS 등급): 무작위 샘플링 성능과 동등, 다양성 부족 가능성
무작위 샘플링: 스페인어 및 프랑스어에서 최고 성능

인코더-디코더 모델 결과

명명된 개체 인식(WikiAnn F1 점수)

언어	HPLT T5	mT5-base	BERT HPLT
카탈루냐어	92.7	87.4	94.5
체코어	91.6	85.2	91.8
영어	82.1	77.6	82.7
바스크어	92.0	82.8	92.9
핀란드어	90.3	1.8	91.6

언어 능력(MultiBLIMP 정확도)

언어	HPLT T5	mT5-base	mT5-xxl
카탈루냐어	95.6	91.6	93.0
체코어	95.9	88.8	93.4
영어	94.2	90.6	95.3
바스크어	97.4	94.9	96.0

평균 성능: HPLT T5 모델이 MultiBLIMP에서 93.5% 달성, mT5-base의 86.8%보다 현저히 우수

데이터 품질 분석

인간 검증 결과(24개 언어)

음란물 콘텐츠: 대부분 언어에서 2% 미만
언어 식별 오류: 전반적으로 낮음, 다만 보스니아어 데이터셋은 주로 세르비아어, 아스투리아스어는 스페인어 포함
비자연 텍스트: 언어별 차이 큼, 일부는 주석 표준의 주관성 반영
텍스트 결함: 네비게이션 요소, 잘린 텍스트 등 포함, 언어별로 비율 상이

통계적 특성 개선

고유 단락 비율: HPLT 3.0은 73% vs HPLT 2.0은 52%, 전역 중복 제거의 효과 반영
도메인 다양성: HPLT 2.0 대비 Wikipedia 페이지의 과도한 대표성 감소
지리적 TLD 분포: 언어 사용 지역과 높은 상관관계

결론 및 논의

주요 결론

규모의 돌파: HPLT 3.0은 30조 토큰으로 가장 큰 공개 다국어 사전학습 데이터셋
품질 향상: 개선된 처리 파이프라인이 데이터 품질을 현저히 향상, 모델 성능에 반영
평가 혁신: HPLT-E 프레임워크는 다국어 모델 평가를 위한 새로운 표준 제시
모델 기여: 57개의 단일언어 인코더-디코더 모델이 커뮤니티에 실용적 도구 제공

한계

품질 평가: 인간 검증에도 불구하고 대규모 데이터의 품질 평가는 여전히 과제
언어 커버리지: 약 200개 언어를 지원하지만 자원 분포는 여전히 불균형
평가 범위: HPLT-E 프레임워크는 현재 9개 유럽 언어만 포함
계산 자원: 대규모 학습은 많은 계산 자원 필요, 재현성 제한

향후 방향

데이터 확장: 2026년 초 ArchiveBot 데이터를 포함한 확장 버전 출시 계획
평가 확장: HPLT-E 프레임워크를 더 많은 언어 및 작업으로 확대
품질 개선: 데이터 처리 파이프라인 및 품질 관리 메커니즘 지속 최적화
응용 연구: 저자원 언어에서 합성 데이터의 적용 효과 탐색

심층 평가

장점

전례 없는 규모: 30조 토큰은 공개 데이터셋 중 최고 수준
개방성과 투명성: 완전한 오픈소스 파이프라인 및 상세한 기술 문서
체계성: 데이터 수집에서 모델 학습까지의 완전한 생태계
품질 관리: 다층적 품질 평가 및 인간 검증 메커니즘
실용적 가치: 직접 사용 가능한 사전학습 모델 제공

부족한 점

계산 진입장벽: 데이터는 개방되어 있으나 대규모 모델 학습에는 여전히 많은 계산 자원 필요
품질 불균형: 언어별 데이터 품질 및 수량의 큰 차이
평가 제한: 인간 평가 샘플이 상대적으로 작아 편향 가능성
문화적 편견: 웹 데이터 고유의 지역 및 문화적 편견 완전 제거 어려움

영향력

학술 기여: 다국어 NLP 연구를 위한 중요한 기반시설 제공
산업 영향: 다국어 AI 애플리케이션 개발의 진입 장벽 낮춤
사회적 가치: 언어 다양성 촉진 및 AI 기술의 민주화
표준 설정: HPLT-E 평가 프레임워크가 업계 표준이 될 가능성

적용 시나리오

다국어 LLM 사전학습: 대규모 언어 모델의 사전학습에 직접 활용
특정 언어 모델: 저자원 언어를 위한 전문 모델 개발
교차언어 연구: 언어학 및 계산언어학 연구 지원
기계 번역: 평행 말뭉치 및 단일언어 데이터 제공
교육 응용: 언어 학습 및 교육을 위한 자원 제공

기술 혁신점

데이터 처리 혁신

전역 중복 제거: 크롤러 간 전역 근사 중복 제거로 데이터 다양성 향상
품질 분급: WDS 점수 시스템으로 세밀한 품질 관리 제공
다차원 주석: 등록 레이블, 품질 평가, PII 검출 등 다양한 주석 결합

평가 방법 혁신

다중 프롬프트 설계: 각 작업마다 3-7개의 인간 작성 프롬프트 지원, 프롬프트 민감성 감소
작업 선택 기준: 단조성, 안정성 등 7개 기준에 따른 평가 작업 선택
집계 방법: 평균 점수, 순위, Borda 계수 등 다양한 집계 방식 결합

모델 학습 혁신

언어 특정 모델: 57개 언어 각각에 대해 전문 인코더-디코더 모델 학습
중간 체크포인트: 학습 과정 중 중간 체크포인트 제공, 학습 과정 연구 지원
합성 데이터: 기계 번역을 통한 추가 사전학습 데이터 생성

참고 문헌

본 논문은 다양한 관련 연구를 인용하며, 주요 내용은 다음과 같습니다:

Raffel et al. (2020): T5 모델 및 C4 데이터셋
Penedo et al. (2024, 2025): FineWeb 데이터셋 시리즈
Kudugunta et al. (2023): MADLAD-400 데이터셋
Burchell et al. (2025): HPLT 2.0 데이터셋
다양한 다국어 평가 벤치마크 관련 논문

요약: HPLT 3.0 프로젝트는 다국어 NLP 분야의 중요한 이정표를 나타내며, 데이터 규모에서의 돌파뿐만 아니라 개방성, 품질 관리, 평가 표준 측면에서 새로운 기준을 제시합니다. 일부 한계가 있지만, 다국어 AI 기술의 민주화 및 발전을 촉진하는 데 중요한 의미를 갖습니다.