2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.

To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.

academic

Thunder-DeID: 한국 법원 판결문 정확하고 효율적인 개인정보 제거 프레임워크

기본 정보

논문 ID: 2506.15266
제목: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
저자: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (서울대학교)
분류: cs.CL (전산언어학)
발표 시간: 2025년 10월 16일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2506.15266v3

초록

사법 공개와 개인 데이터 보호 간의 균형을 보장하기 위해 한국 사법부는 법원 판결문을 공개 공시하기 전에 개인정보 제거 처리를 요구합니다. 그러나 현재의 개인정보 제거 절차는 엄격한 법적 요구사항을 준수하면서 대규모 법원 판결문을 처리하는 데 있어 부족함이 있습니다. 또한 개인 식별자의 법적 정의와 분류가 모호하여 기술적 해결책에 적합하지 않습니다. 이러한 과제를 해결하기 위해 본 논문은 관련 법규 및 실무와 일치하는 Thunder-DeID 개인정보 제거 프레임워크를 제안합니다. 구체적으로 본 논문은 (i) 주석이 달린 판결문 및 해당 개체 언급 목록을 포함하는 첫 번째 한국어 법률 데이터셋을 구축하고 공개하며, (ii) 개인식별정보(PII)의 체계적 분류 방안을 도입하고, (iii) 엔드-투-엔드 심층 신경망(DNN) 개인정보 제거 파이프라인을 개발합니다. 실험 결과는 해당 모델이 법원 판결문 개인정보 제거 작업에서 최첨단 성능을 달성했음을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구는 한국 법원 판결문 개인정보 제거의 세 가지 핵심 문제를 해결하는 것을 목표로 합니다:

효율성 병목: 인적 방법에 대한 과도한 의존으로 인한 행정 부담 및 판결문 공시 지연, 한국 대중의 판결문 접근성 현저히 낮음
기술 성능 저하: 2019-2025년 간 기존 자동 개인정보 제거 도구의 전체 정확도는 8-15%에 불과함
법적 정의 모호성: 현행 법률의 개인 식별자 분류 및 정의가 모호하며, 특히 자동화 기술 솔루션에 부적합함

연구의 중요성

법원 절차의 공개성은 한국을 포함한 많은 국가의 헌법에서 규정한 중요한 민주주의 원칙입니다. 한국은 법원 환경에서 익명화가 필요한 개인 식별자의 범위가 더 넓고 조건이 더 엄격합니다. 효과적인 개인정보 제거 기술은 사법 투명성과 개인정보 보호 간의 균형을 맞추는 데 필수적입니다.

기존 방법의 한계

프롬프트 기반 LLM 방법: 원본 문장 구조를 변경하여 문장 및 맥락 왜곡 위험 존재
API 제한: 개인정보 보호 및 정보 보안 고려로 한국 정부 기관은 ChatGPT 등 API 서비스 사용 제한
대규모 처리 능력 부족: 기존 방법은 대규모 법원 판결문을 효과적으로 처리할 수 없음

핵심 기여

첫 번째 한국어 법률 데이터셋: 6,700개의 주석이 달린 판결문(민사, 형사, 행정 사건 포함)과 48,306개의 명명된 개체를 포함하는 이부 데이터셋 생성
3계층 PII 분류 프레임워크: 48,306개의 명명된 개체에 대한 귀납적 분석을 기반으로 체계적인 개인식별정보 분류 방안 제안
전문 토크나이저: 형태 분석기 Mecab-ko와 바이트 쌍 인코딩(BPE)을 통합하여 한국어의 고유한 특징 활용
엔드-투-엔드 DNN 파이프라인: 법원 판결문 개인정보 제거 작업에서 최고 성능을 달성하는 완전한 개인정보 제거 프레임워크 개발

방법론 상세 설명

작업 정의

입력: 개인식별정보를 포함하는 원본 한국어 법원 판결문 텍스트 출력: 민감한 정보가 적절히 대체되거나 제거된 개인정보 제거 판결문 텍스트 제약: 한국 관련 법규(예: 한국 형사소송법 제59-3조, 민사소송법 제163-2조 등) 준수 필수

모델 아키텍처

1. 데이터 구축 프로세스

익명화 판결문 → 자리표시자 탐지 및 주석 → PII 분류 방안 → 대체 목록 생성 → 훈련 데이터 생성

2. Thunder-DeID 모델 제품군

DeBERTa-v3 아키텍처 기반, 세 가지 규모의 모델 포함:

Thunder-DeID-370M: 3.7억 매개변수, 숨겨진 차원 1024, 24층 Transformer
Thunder-DeID-800M: 8억 매개변수, 숨겨진 차원 1280, 36층 Transformer
Thunder-DeID-1.5B: 15억 매개변수, 숨겨진 차원 2048, 24층 Transformer

3. 토크나이제이션 전략

Mecab-ko 형태 분석기와 BPE 통합:

Mecab-ko: 한국어 교착어 형태 처리, 어근과 조사 정확히 분리
BPE: 어휘 외(OOV) 문제 해결, 미등록 단어를 부분 단어 단위로 표현

4. 훈련 데이터 생성 알고리즘

# 의사 코드 예시
def generate_training_data(annotated_text, replacement_lists):
    # 1. 특수 표시자 쌍 식별
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. 자리표시자 스캔 및 대체
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. 레이블 시퀀스 생성
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

기술 혁신 포인트

3계층 PII 분류 체계:
- 1계층: 직접 식별자 vs 준식별자
- 2계층: 16개 부분류(예: 인명, 지리 정보, 조직 등)
- 3계층: 80개 세분화 범주, 729개 레이블에 대응
한국어 특화 토크나이제이션:
- Mecab-ko를 활용하여 "홍길동이"를 "홍길동"+"이"로 정확히 분리
- 목표 개체만 개인정보 제거하고 조사 완전성 유지
데이터 증강 전략:
- Per-Epoch 대체: 각 epoch마다 다른 개체 언급 대체, 데이터 다양성 증가
- Single 대체: 고정 대체, 대조 기준선으로 사용

실험 설정

데이터셋

규모: 6,700개 판결문(민사 3,000, 형사 3,000, 행정 700)
개체 수량: 48,306개 주석 개체
데이터 출처: 한국 정부 입법부, AI-hub, 공개 데이터셋
분할 비율: 훈련 80%, 검증 10%, 테스트 10%

평가 지표

이진 토큰 수준: 개인정보 제거가 필요한 토큰 식별 능력 측정
토큰 수준: 특정 개체 유형 분류의 정확성 측정
지표: 정밀도, 재현율, F1-점수

비교 방법

Polyglot-Ko (1.3B 매개변수): 한국어 전문 언어 모델
EXAONE-3.5 (2.4B 매개변수): 한국어 전문 디코더 모델

구현 세부사항

사전훈련 말뭉치: 76.7GB 이중언어 말뭉치(한국어+영어)
시퀀스 길이: 512→2048 토큰
최적화기: AdamW, β=(0.9, 0.999)
학습률 스케줄: 처음 10% 단계 예열+코사인 감쇠
하드웨어: 32×NVIDIA H100 80GB GPU

실험 결과

주요 결과

모델	매개변수	이진 토큰 수준 F1	토큰 수준 Micro F1
Polyglot-ko	1.3B	0.9701	0.8765
EXAONE	2.4B	0.9677	0.8752
Thunder-DeID-370M	370M	0.9654	0.8871
Thunder-DeID-800M	800M	0.9791	0.9105
Thunder-DeID-1.5B	1.5B	0.9808	0.9071

주요 발견

현저한 성능 향상: Thunder-DeID는 모든 규모에서 기준선 모델을 능가
Per-Epoch 우위: Per-Epoch 대체 전략이 모든 모델에서 Single 대체보다 현저히 우수
규모 효과: 가장 작은 Thunder-DeID-370M도 토큰 수준 지표에서 더 큰 기준선 모델을 능가
실용성 돌파: 한국 대법원 행정처 기존 시스템의 8-15% 정확도 대비 거대한 향상 달성

오류 분석

모델은 저빈도 레이블 인식에서 약점 존재:

"뷔페(자조식당)"를 "기계설비회사(기계설비회사)"로 자주 오분류
"불특정제품명(미지정 제품명)"과 "불특정회사명(미지정 회사명)"에서 혼동 존재

결론 및 논의

주요 결론

Thunder-DeID는 한국 법원 판결문 개인정보 제거의 기술적 과제를 성공적으로 해결
3계층 PII 분류 방안은 법률 텍스트 개인정보 제거를 위한 체계적 프레임워크 제공
한국어 특화 토크나이제이션 및 데이터 증강 전략이 모델 성능을 현저히 향상
해당 작업에서 최첨단 성능 달성, 실제 배포 잠재력 보유

한계

데이터 제한: 법적 제한으로 인해 원본 미익명화 판결문을 획득할 수 없어 실제 세계 평가 불가
영역 한계: 모델은 민사, 형사, 행정법 훈련에 특화되어 있으며 다른 법률 영역에 대한 일반화 능력 미지수
맥락 민감성: 법률 개인정보 제거는 맥락에 매우 의존하며, 모델 성능은 다양한 법적 분쟁 유형에 따라 저하될 수 있음

향후 방향

합성 데이터 생성: 실제 법원 판결문에 더 가까운 합성 데이터 증강 방법 개발
교차 영역 적응: 다양한 법률 영역에서 모델 성능 평가 및 개선
실제 배포: 한국 사법 기관과의 협력을 통한 실제 배포 테스트

심층 평가

장점

실제 의미 중대: 한국 사법 시스템의 실제 문제점 해결, 직접적인 사회적 가치 보유
기술 혁신성: 한국어 특화 토크나이제이션, 3계층 PII 분류, 데이터 증강 전략 등 모두 혁신성 보유
실험 충분성: 포괄적인 절제 실험, 다중 기준선 비교, 상세한 오류 분석
데이터셋 기여: 첫 번째 한국어 법률 개인정보 제거 데이터셋, 영역 발전 추진
법적 준수성: 한국 관련 법규 엄격히 준수, 실용성 보장

부족함

평가 한계: 실제 데이터에서 검증 불가, 영역 간 격차 위험 존재
재현성: 일부 구현 세부사항(예: 구체적 대체 목록 구축) 설명 부족
계산 비용: 대규모 GPU 자원 필요, 실제 응용 제한 가능성
일반화 능력: 한국어 이외 언어에 대한 적용 가능성 미지수

영향력

학술 기여: 법률 NLP 및 개인정보 제거 연구에 새로운 기준 및 방법 제공
실용적 가치: 한국 사법 시스템의 효율성 및 투명성 현저히 개선 예상
국제적 참고: 다른 국가의 법률 텍스트 개인정보 제거에 참고 프레임워크 제공
기술 추진: 한국어 NLP 기술의 중요한 진전

적용 시나리오

사법 기관: 법원 판결문의 자동화 개인정보 제거 처리
법률 연구: 대규모 법률 텍스트 분석 및 연구
정부 부서: 텍스트 개인정보 제거가 필요한 기타 공공 서비스
학술 연구: 법률 NLP, 개인정보 보호 등 관련 연구

참고문헌

본 논문은 다음을 포함한 여러 중요한 관련 연구를 인용합니다:

의료 개인정보 제거의 고전 연구(Uzuner et al., 2007; Liu et al., 2017)
각국 법률 텍스트 개인정보 제거 연구(Niklaus et al., 2023; Salierno et al., 2024)
한국어 NLP 기초 연구(Park et al., 2020; Ko et al., 2023)
관련 법규 및 정책 문서

종합 평가: 이것은 기술적으로 혁신적일 뿐만 아니라 더욱 중요하게는 실제 사회 문제를 해결하는 고품질의 응용 지향 연구 논문입니다. 논문의 공학적 가치와 학술적 가치가 동등하게 중요하며, 법률 NLP 영역에 중요한 기여를 합니다. 일부 한계가 있지만 이는 전체 평가를 해치지 못하며, 주목할 가치가 있는 우수한 연구입니다.