2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.

Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.

academic

불완전한 토큰의 취약성을 드러내는 불가능한 이원조 - 바이트 수준 토크나이저 분석

기본 정보

논문 ID: 2410.23684
제목: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
저자: Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
분류: cs.CL (계산언어학)
발표 시간: 2024년 10월 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2410.23684

요약

본 논문은 바이트 수준 바이트 쌍 인코딩(BPE) 토크나이저의 불완전한 토큰 취약성 문제를 연구합니다. 저자들은 산재된 바이트를 포함하는 이러한 불완전한 토큰이 인접 토큰에 심각하게 의존하며, 낯선 토큰과 쌍을 이룰 때 문제가 발생함을 발견했습니다. "불가능한 이원조"(불완전한 토큰의 분포 외 조합)를 구성함으로써, 저자들은 이러한 취약성이 상당한 환각 행동을 초래함을 입증했습니다. 실험 결과 대체 토크나이제이션 방법 사용 시 동일한 구문의 환각률이 대폭 감소했습니다(Llama3.1에서 90% 감소).

연구 배경 및 동기

핵심 문제

본 논문이 해결하고자 하는 핵심 문제는 바이트 수준 BPE 토크나이저의 불완전한 토큰 취약성으로, 이는 대규모 언어 모델의 환각 행동을 초래합니다.

문제의 중요성

토크나이제이션의 핵심 역할: 토크나이제이션은 인간이 읽을 수 있는 텍스트와 모델이 처리할 수 있는 이산 토큰을 연결하는 핵심 단계입니다.
기존 보안 위험: 최근 연구에 따르면 토크나이저는 모델의 부적절한 행동을 유도하기 위해 악의적으로 악용될 수 있습니다.
실제 피해: 토크나이제이션 문제는 데이터 무결성 손실, 대적 공격, 모델 지문 인식 등의 보안 위험을 초래할 수 있습니다.

기존 방법의 한계

기존 연구는 주로 훈련 부족의 "결함 토큰"(glitch tokens)에 초점
구조적 토크나이제이션 문제에 대한 체계적 분석 부족
바이트 수준 BPE의 문자 경계 무관성이 구조적 취약 토큰을 생성할 수 있음

연구 동기

저자들은 불완전한 토큰이 구조적 특성으로 인해 낯선 인접 토큰과 쌍을 이룰 때 취약성을 나타낼 것이라고 가정합니다. 이는 이러한 토큰 자체가 충분히 훈련되었더라도 마찬가지입니다.

핵심 기여

불완전한 토큰의 취약성 식별: 바이트 수준 BPE 토크나이저의 불완전한 토큰의 구조적 특징과 잠재적 문제를 체계적으로 분석
"불가능한 이원조" 개념 제시: 불완전한 토큰의 취약성을 드러내기 위한 새로운 공격 방법 설계
교차 모델 검증 수행: 5개의 주류 대규모 언어 모델에서 이러한 취약성의 보편적 존재 검증
완화 전략 제공: 대체 토크나이제이션 방법을 통해 문제의 해결 가능성을 입증하고 예방 조치 제시

방법론 상세 설명

작업 정의

입력: 불완전한 토큰을 포함하는 텍스트 구문 출력: 반복 작업에 대한 모델의 응답 목표: 모델이 입력 구문을 올바르게 반복하지 못하게 하는 토큰 조합 식별

불완전한 토큰 분석 방법

1. 구조 분석

UTF-8 인코딩 분석: UTF-8 다중바이트 문자의 시작 바이트 및 연속 바이트 구조 기반
접두사/접미사 분류:
- 접두사 토큰: 산재된 바이트로 끝나며 추가 바이트가 필요한 문자 완성
- 접미사 토큰: 산재된 바이트로 시작하여 문자 완성에 필요한 바이트 제공

2. 이원조 구성 절차

단계 1: 구조 분석
- 토큰의 시작 바이트 및 연속 바이트 식별
- 토큰이 필요하거나 제공하는 바이트 수 결정

단계 2: 호환성 매칭
- 구조적으로 상호 보완적인 토큰 쌍 탐색
- 조합이 유효한 유니코드 문자를 형성하도록 보장

단계 3: 실행 가능성 검증
- 디코드-인코드 테스트 실행
- 생성된 문자열이 예상대로 토크나이제이션되는지 검증

불가능한 이원조의 특징

다국어성: 조합된 문자는 서로 다른 유니코드 스크립트 시스템에서 비롯
분포 외 특성: 이러한 교차 스크립트 조합은 훈련 데이터에서 극히 드물게 나타남
구조적 의존성: 두 토큰이 협력하여 유효한 문자를 형성해야 함

기술적 혁신점

체계적 취약성 발견: 바이트 수준 BPE의 구조적 취약성을 처음으로 체계적으로 식별
정확한 공격 구성: UTF-8 인코딩 규칙을 기반으로 한 정확한 공격 샘플 구성
훈련 품질 무관성: 충분히 훈련된 토큰도 취약성을 가질 수 있음을 입증

실험 설정

모델 선택

바이트 수준 BPE를 사용하는 5개의 명령어 미세조정 모델 테스트:

Meta-Llama-3.1-8B-Instruct (어휘 128k, 불완전한 토큰 1224개)
EXAONE-3.0-7.8B-Instruct (어휘 102k, 불완전한 토큰 1222개)
Qwen2.5-32B-Instruct (어휘 151k, 불완전한 토큰 1320개)
Mistral-Nemo-Instruct-2407 (어휘 131k, 불완전한 토큰 1307개)
C4AI-Command-R-v01 (어휘 255k, 불완전한 토큰 2956개)

평가 작업 설계

4가지 프롬프트 템플릿을 사용하여 모델의 목표 구문 반복 능력 테스트:

작업 유형	프롬프트 템플릿
직접 반복	"Repeat this phrase exactly: '{Phrase}'"
정의 질문	"What does '{Phrase}' mean?"
지식 질문	"Today I heard about '{Phrase}'. Do you know what this means?"
코드 시나리오	Python 코드의 사용자명 목록 출력

토큰 선택 전략

훈련 품질 필터링: Land와 Bartolo (2024)의 임베딩 휴리스틱 방법을 사용하여 훈련 부족 토큰 제외
훈련 충분한 토큰에 집중: 어휘 내 훈련 품질 상위 50%의 토큰만 사용
불가능한 이원조 구성: 각 모델에 대해 최대 100개의 불가능한 이원조 구성

기준선 비교

각 불가능한 이원조에 대해 완전한 토큰의 대조군 구성:

훈련 정도가 유사하지만 완전한 토큰인 대체품 선택
대조 실험의 공정성 보장

실험 결과

주요 결과

모델	불가능한 이원조 환각률	기준선 이원조 환각률
Llama 3.1	48/100 (48%)	0/100 (0%)
Exaone	77/100 (77%)	20/100 (20%)
Qwen2.5	33/100 (33%)	0/100 (0%)
Mistral-Nemo	52/71 (73%)	1/71 (1%)
Command-R	49/100 (49%)	8/100 (8%)

핵심 발견: 불완전한 토큰으로 구성된 불가능한 이원조는 모든 모델에서 현저히 높은 환각률을 나타냅니다.

대체 토크나이제이션 실험 결과

모델	원본 토크나이제이션 환각률	대체 토크나이제이션 환각률	개선 정도
Llama 3.1	0.48	0.05	↓90%
Exaone	0.77	0.50	↓35%
Qwen2.5	0.33	0.12	↓64%
Mistral-Nemo	0.73	0.01	↓98%
Command-R	0.49	0.55	개선 없음

중요 발견: Command-R을 제외한 모든 모델에서 대체 토크나이제이션 사용 시 환각률이 현저히 감소하여, 문제가 불완전한 토큰에서 비롯됨을 입증합니다.

언어 분포 분석

불가능한 이원조는 다양한 언어 쌍 조합을 포함
고자원 다중바이트 스크립트(중국어, 한국어, 러시아어)의 빈도가 가장 높음
모델별 언어 쌍 분포 차이 현저함(Exaone은 17개 언어 쌍, Command-R은 3개 언어 쌍만 보유)

결론 및 논의

주요 결론

불완전한 토큰의 체계적 취약성 존재: 훈련이 충분하더라도 불완전한 토큰은 특정 조합에서 환각을 초래하기 쉬움
문제의 토크나이제이션 근원: 대체 토크나이제이션이 문제를 현저히 개선하여 근원이 토큰 구조에 있음을 입증
광범위한 영향: 이 문제는 여러 주류 모델에서 보편적으로 존재

실제 위험

코드 및 데이터 처리: 변수명 또는 고정값의 무결성 손상 가능
대적 반복 불가능성: 공격자가 반복 불가능한 구문을 활용하여 LLM 에이전트의 개입 회피 가능
모델 지문 인식: 익명 LLM 서비스 뒤의 아키텍처 식별에 사용 가능

완화 전략

어휘 가지치기: 모델 훈련 전 불완전한 토큰 제거
제약 BPE 병합: 토크나이저 훈련 시 문자 경계 존중
문자 수준 토크나이제이션: 완전한 유니코드 커버리지가 필요하지 않은 모델의 경우 문자 수준 토크나이제이션 선택 가능

한계

평가 범위: 구문 수준 환각으로만 제한, 사실성 환각에 대한 체계적 평가 미실시
언어 전문성: 테스트 구문이 다양한 언어를 포함하여 저자의 전문 범위 초과
모델 특이성: Command-R 모델의 비정상 결과는 추가 연구 필요

향후 방향

더 안전한 토크나이저 설계: 불완전한 토큰을 피하는 토크나이제이션 방법 개발
견고성 평가: 더 포괄적인 토크나이제이션 취약성 평가 프레임워크 구축
방어 메커니즘 연구: 런타임 감지 및 완화 전략 탐색

심층 평가

장점

문제 식별의 독창성: 바이트 수준 BPE의 구조적 취약성을 처음으로 체계적으로 식별
방법론의 엄밀성: UTF-8 인코딩 규칙 기반의 정확한 공격 구성, 완성된 실험 설계
실험의 포괄성: 여러 모델과 언어에 걸친 검증으로 설득력 있는 결과
실용적 가치: 구체적인 완화 전략 및 보안 권고 제공

부족점

이론적 분석 부족: 불완전한 토큰이 왜 더 취약한지에 대한 심층 이론적 설명 부재
Command-R 비정상 미해석: 해당 모델의 비정상 결과에 대한 분석 부족
평가 지표 한계: 반복 작업만으로 평가하여 실제 피해를 완전히 반영하지 못할 수 있음
장기 영향 미평가: 이 취약성이 모델의 다른 능력에 미치는 영향 미평가

영향력

학술적 기여: 토크나이저 보안 연구에 새로운 방향 개척
실용적 가치: 모델 개발자에게 중요한 보안 고려사항 제공
재현 가능성: 방법 설명이 명확하고 실험 재현 가능
정책적 의의: 향후 토크나이저 설계 표준에 영향 가능

적용 시나리오

모델 보안 평가: 기존 모델의 토크나이제이션 취약성 평가
토크나이저 설계: 더 안전한 토크나이저 개발 지도
대적 테스트: 모델 견고성 테스트의 일부로 활용
보안 감시: LLM 배포 전 보안 검사에 사용

참고문헌

주요 참고문헌:

Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

종합 평가: 이는 바이트 수준 BPE 토크나이저의 중요한 보안 취약성을 식별한 고품질 연구 논문입니다. 일부 한계가 있지만, 그 독창성, 실험의 엄밀성, 실용적 가치는 토크나이저 보안 연구 분야에 중요한 기여를 합니다. 본 연구는 대규모 언어 모델의 안전성과 견고성 향상에 중요한 의미를 갖습니다.