2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

모델이 고위험 데이터를 이해하도록 가르치기 (하지만 생성하지는 않기)

기본 정보

논문 ID: 2505.03052
제목: Teaching Models to Understand (but not Generate) High-risk Data
저자: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
분류: cs.CL cs.LG
발표 학회: COLM 2025
논문 링크: https://arxiv.org/abs/2505.03052

초록

언어 모델 개발자들은 일반적으로 독성 텍스트나 저작권 텍스트와 같은 고위험 콘텐츠를 사전학습 데이터에서 필터링하여 모델이 유사한 출력을 생성하는 것을 방지합니다. 그러나 이러한 데이터를 완전히 제거하면 모델이 해로운 콘텐츠나 민감한 콘텐츠를 인식하고 적절히 대응할 수 있는 능력이 제한됩니다. 본 논문에서는 SLUNG(Selective Loss to Understand but Not Generate)을 소개합니다. 이는 모델이 고위험 데이터를 이해하면서도 생성하지 않도록 학습하는 사전학습 패러다임입니다. SLUNG은 다음 토큰 예측 손실을 균등하게 적용하는 대신, 고위험 토큰의 생성을 유도하는 것을 선택적으로 피하면서 이들이 모델의 컨텍스트 윈도우 내에 남아있도록 합니다. 모델이 고위험 토큰 뒤에 오는 저위험 토큰을 예측하도록 학습하면서, 고위험 콘텐츠를 이해하도록 강제됩니다. 실험을 통해 SLUNG이 고위험 데이터에 대한 모델의 이해(예: 독성 콘텐츠 인식 능력)를 지속적으로 개선하면서 생성(예: 모델 응답의 독성)을 증가시키지 않음을 보여줍니다. 전반적으로 SLUNG 패러다임은 모델이 그렇지 않으면 필터링될 고위험 텍스트로부터 이득을 얻을 수 있게 합니다.

연구 배경 및 동기

문제 배경

현재 언어 모델 개발에는 근본적인 모순이 존재합니다. 모델이 해로운 콘텐츠(독성 텍스트, 저작권 콘텐츠 등)를 생성하는 것을 방지하기 위해 개발자들은 일반적으로 사전학습 데이터에서 이러한 고위험 콘텐츠를 필터링합니다. 그러나 이러한 접근 방식은 모델의 안전성을 높이지만, 해로운 콘텐츠나 민감한 콘텐츠를 인식하고 적절히 대응할 수 있는 능력을 제한합니다.

핵심 문제

데이터 필터링의 부작용: 고위험 데이터를 완전히 제거하면 이러한 유형의 콘텐츠에 대한 모델의 이해 능력이 감소합니다
이해와 생성의 결합: 전통적인 다음 토큰 예측 목표는 본질적으로 모델의 이해 능력과 생성 능력을 결합합니다
실제 배포 요구사항: 실제 응용에서 모델은 해로운 요청을 식별하고 처리할 수 있어야 하며, 이는 해로운 콘텐츠에 대한 일정 수준의 이해가 필요합니다

연구 동기

저자들은 "두 가지 이점을 모두 얻는" 효과를 제안합니다: 고위험 데이터를 이해하면서도 이러한 유형의 콘텐츠를 생성하지 않는 모델을 훈련하는 것입니다. 이는 표준 다음 토큰 예측 목표를 초월하여 모델의 이해 능력과 생성 능력을 분리해야 합니다.

핵심 기여

SLUNG 프레임워크 제안: 선택적 손실 함수를 통해 이해와 생성을 분리하는 새로운 사전학습 패러다임
기술 혁신: 토큰 위험 수준에 기반한 차별화된 훈련 전략 설계, Masked SLUNG과 Unlikelihood SLUNG 두 가지 구현 포함
실험 검증: 독성 콘텐츠 이해와 허구 실체 학습 두 가지 시나리오에서 방법의 효과 검증
이론적 기여: 안전하고 능력 있는 언어 모델 개발을 위한 새로운 프레임워크와 사고방식 제공

방법 상세 설명

작업 정의

사전학습 문서 $X = (x_1, x_2, ..., x_{|X|})$ 가 주어졌을 때, 각 토큰은 대응하는 이진 레이블 $(l_1, l_2, ..., l_{|X|})$ 을 가지며, 여기서 $l_i \in \{0,1\}$ 은 i번째 토큰이 고위험 토큰( $l_i = 1$ )인지 또는 저위험 토큰( $l_i = 0$ )인지를 나타냅니다.

목표는 모델을 훈련하여 고위험 스팬에 높은 혼란도를 할당하면서 고위험 콘텐츠를 조건으로 할 수 있는 저위험 스팬에 대해 낮은 혼란도를 유지하도록 하는 것입니다.

모델 아키텍처

SLUNG 핵심 아이디어

SLUNG의 주요 혁신은 다양한 위험 수준의 토큰에 다른 손실 함수를 적용하는 것입니다:

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

여기서:

고위험 토큰( $l_i = 1$ )은 사용자 정의 손실 함수 $f_\theta(x_i | x_{<i})$ 를 사용합니다
저위험 토큰( $l_i = 0$ )은 표준 최대 우도 목표를 사용합니다
모든 토큰은 모델의 컨텍스트 윈도우에 유지됩니다

두 가지 구체적 구현

1. Masked SLUNG 고위험 토큰에 대해 $f_\theta(x_i | x_{<i}) = 0$ 을 설정하여 생성 손실을 마스킹하지만, 토큰은 여전히 어텐션 메커니즘에 보입니다.

2. Unlikelihood SLUNG 고위험 토큰에 $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ 를 적용하여 모델이 고위험 토큰에 높은 확률을 할당하는 것을 명시적으로 처벌합니다.

기술 혁신 포인트

분리 설계: 사전학습 단계에서 이해와 생성 능력의 분리를 처음으로 구현
컨텍스트 보존: 고위험 토큰은 손실 계산에 참여하거나 처벌받지 않지만 여전히 컨텍스트에 있어 모델이 그 표현을 학습할 수 있도록 보장
간접 학습 메커니즘: 고위험 콘텐츠를 따르는 저위험 토큰을 예측하도록 학습함으로써 모델이 고위험 콘텐츠를 이해하도록 강제
유연한 프레임워크: 모든 위험 감지 분류기와 함께 사용할 수 있음

실험 설정

실험 1: 독성 콘텐츠 이해

데이터셋

기본 모델: OLMo 1B (체크포인트 737에서 계속 사전학습)
훈련 데이터: 원본 Dolma 데이터셋의 마지막 40억 토큰 + 주입된 독성 Reddit 문서 (약 2.12억 토큰, 5% 차지)
독성 분류: FastText 독성 분류기 사용, 콘텐츠를 Not Toxic, Possibly Toxic, Definitely Toxic 세 가지로 분류

비교 방법

Control (OLMo 1B): 독성 데이터에 노출되지 않은 원본 모델
Low-risk Baseline: 비독성 Reddit 콘텐츠에서만 훈련
Toxic Baseline: 모든 데이터(독성 콘텐츠 포함)에 표준 최대 우도 훈련 적용
Masked SLUNG: Definitely Toxic 및 Possibly Toxic 토큰에 대해 손실 마스킹
Unlikelihood SLUNG: Definitely Toxic 토큰에 unlikelihood 손실 적용

실험 2: 허구 실체 학습

데이터셋

TOFU 데이터셋: 합성 저자 프로필을 포함하는 질의응답 쌍
훈련 설정: 답변 열에서만 미세조정, 실체 이름은 고위험 토큰으로 표시
목표: 실체 관련 사실을 학습하되 실체 이름 생성 회피

평가 지표

독성 실험

생성 평가: RealToxicityPrompts를 사용하여 모델이 독성 콘텐츠를 생성하는 경향을 평가, Perspective API 점수 사용
이해 평가: CivilComments 데이터셋에서 선형 프로브를 훈련하여 모델 숨겨진 상태의 독성 분류 능력 평가 (AUROC)

실체 학습 실험

생성 평가: 모델 출력에서 실체 이름이 나타나는 비율 측정
이해 평가: GPT-4o를 사용하여 모델이 사실 질문에 답하는 정확성 평가

실험 결과

주요 결과

독성 실험 핵심 발견

파레토 최적성: SLUNG 방법이 이해-생성 트레이드오프에서 파레토 프론티어에 도달하여 독성 이해 능력을 높이면서 독성 생성을 감소
이해 능력 향상: Masked SLUNG과 Unlikelihood SLUNG이 CivilComments에서 각각 약 0.825와 0.820의 AUROC 달성, Control 기준선의 0.810을 크게 초과
생성 안전성: 두 SLUNG 방법의 독성 생성 점수는 약 0.165로 제어되어 Toxic Baseline의 0.175보다 훨씬 낮음
지시 미세조정 후 효과 지속: 지시 미세조정 후에도 SLUNG 방법은 파레토 최적성 유지

데이터 규모 효과

독성 데이터량이 20M에서 320M 토큰으로 증가함에 따라:

Masked SLUNG은 항상 최고의 이해-생성 트레이드오프 유지
이해 능력은 데이터량에 따라 선형적으로 향상되지만 생성 독성 증가는 완만함
SLUNG의 우수한 확장성 증명

실체 학습 실험 결과

방법	이름 생성률↓	완전 정확률↑	부분 정확률↑
OLMo 1B	57.5%	3.5%	15.5%
직접 훈련	34.3±9.2%	28.2±0.6%	51.4±0.7%
Masked SLUNG	4.1±1.2%	20.8±1.9%	44.0±2.1%
Unlikelihood SLUNG	1.5±0.7%	22.3±2.1%	43.6±3.2%

소거 실험

혼란도 분석

모든 방법이 Dolma 문서에서 유사한 혼란도를 보여 SLUNG이 일반 언어 모델링 능력을 손상시키지 않음을 시사
Masked SLUNG이 비독성 Reddit 문서에서 가장 낮은 혼란도 달성
Unlikelihood SLUNG이 Reddit 도메인에서 더 높은 혼란도를 보임, 아마도 unlikelihood 손실이 해당 도메인의 생성 분포에 영향을 미쳤기 때문

SLUNG이 언어 모델의 이해와 생성 능력의 분리를 성공적으로 구현하여 안전한 AI 개발을 위한 새로운 패러다임 제공
이 방법이 독성 콘텐츠와 실체 학습 두 가지 다른 시나리오에서 우수한 성능을 보여 통용성 증명
SLUNG이 모델이 원래 필터링될 고위험 텍스트로부터 이득을 얻을 수 있게 하여 데이터 활용 효율성 향상

제한사항

계산 예산 제한: 실험이 처음부터의 훈련이 아닌 계속 사전학습을 채택하여 방법의 완전한 잠재력을 저평가할 수 있음
분류기 의존성: 방법 효과가 위험 감지 분류기의 품질에 의존
평가 범위: 주로 1B 매개변수 모델에서 검증되어 대규모 모델의 효과는 미검증
도메인 특이성: Unlikelihood SLUNG이 특정 도메인의 생성 능력에 영향을 미칠 수 있음

향후 방향

대규모 사전학습: 완전한 사전학습 설정에서 SLUNG 효과 평가
공격 저항성 연구: SLUNG의 탈옥 공격 저항 능력 탐색
분류기 개선: 더 정확한 위험 감지 시스템 개발
이론 분석: 분리 메커니즘의 이론적 기초 심화 이해

심층 평가

장점

높은 혁신성: 사전학습 단계에서 이해와 생성 분리를 처음 구현, 새로운 사고방식
높은 실용 가치: AI 안전 분야의 중요한 문제 해결, 광범위한 응용 전망
충분한 실험: 두 가지 다른 시나리오에서 검증, 다양한 비교 방법 및 소거 실험 포함
간단한 방법: 상대적으로 간단한 구현, 재현 및 응용 용이
명확한 이론: 분리 메커니즘의 원리 설명이 명확, 수학 표현이 엄밀함

부족한 점

규모 제한: 실험이 주로 소규모 모델에서 수행되어 대규모 모델 효과 미지수
평가 제한: 독성 감지가 특정 분류기에 의존하여 편향 가능성
장기 효과: 방법이 모델 장기 행동에 미치는 영향 미평가
계산 오버헤드: 추가 위험 주석이 필요하여 전처리 비용 증가

영향력

학술 기여: AI 안전 연구에 새로운 사고방식 제공, 후속 연구 영감 가능
실용 가치: 산업계 언어 모델 개발에 직접적 지도 의미
재현성: 저자가 코드 공개 약속하여 커뮤니티 검증 및 확장 용이

적용 시나리오

콘텐츠 심사 시스템: 해로운 콘텐츠 식별은 필요하지만 생성하지 않는 응용
민감 정보 처리: 개인정보 이해는 하되 유출하지 않는 시스템
교육 응용: 부적절한 콘텐츠 이해는 필요하지만 전파하지 않는 교육 시나리오

참고문헌

논문은 다음을 포함한 여러 중요 연구를 인용합니다:

Longpre et al. (2023): 사전학습 데이터가 모델 능력에 미치는 영향에 관한 연구
Welleck et al. (2019): Unlikelihood 훈련의 원본 연구
Soldaini et al. (2024): Dolma 데이터셋 구축 및 필터링 방법
Gehman et al. (2020): RealToxicityPrompts 평가 벤치마크

본 논문은 언어 모델 안전 훈련에 중요한 방법론적 기여를 제공하며, 영리한 손실 함수 설계를 통해 이해와 생성의 분리를 구현하여 향후 안전한 AI 연구의 기초를 마련합니다.