Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
사법 공개와 개인 데이터 보호 간의 균형을 보장하기 위해 한국 사법부는 법원 판결문을 공개 공시하기 전에 개인정보 제거 처리를 요구합니다. 그러나 현재의 개인정보 제거 절차는 엄격한 법적 요구사항을 준수하면서 대규모 법원 판결문을 처리하는 데 있어 부족함이 있습니다. 또한 개인 식별자의 법적 정의와 분류가 모호하여 기술적 해결책에 적합하지 않습니다. 이러한 과제를 해결하기 위해 본 논문은 관련 법규 및 실무와 일치하는 Thunder-DeID 개인정보 제거 프레임워크를 제안합니다. 구체적으로 본 논문은 (i) 주석이 달린 판결문 및 해당 개체 언급 목록을 포함하는 첫 번째 한국어 법률 데이터셋을 구축하고 공개하며, (ii) 개인식별정보(PII)의 체계적 분류 방안을 도입하고, (iii) 엔드-투-엔드 심층 신경망(DNN) 개인정보 제거 파이프라인을 개발합니다. 실험 결과는 해당 모델이 법원 판결문 개인정보 제거 작업에서 최첨단 성능을 달성했음을 보여줍니다.
법원 절차의 공개성은 한국을 포함한 많은 국가의 헌법에서 규정한 중요한 민주주의 원칙입니다. 한국은 법원 환경에서 익명화가 필요한 개인 식별자의 범위가 더 넓고 조건이 더 엄격합니다. 효과적인 개인정보 제거 기술은 사법 투명성과 개인정보 보호 간의 균형을 맞추는 데 필수적입니다.
의료 개인정보 제거의 고전 연구(Uzuner et al., 2007; Liu et al., 2017)
각국 법률 텍스트 개인정보 제거 연구(Niklaus et al., 2023; Salierno et al., 2024)
한국어 NLP 기초 연구(Park et al., 2020; Ko et al., 2023)
관련 법규 및 정책 문서
종합 평가: 이것은 기술적으로 혁신적일 뿐만 아니라 더욱 중요하게는 실제 사회 문제를 해결하는 고품질의 응용 지향 연구 논문입니다. 논문의 공학적 가치와 학술적 가치가 동등하게 중요하며, 법률 NLP 영역에 중요한 기여를 합니다. 일부 한계가 있지만 이는 전체 평가를 해치지 못하며, 주목할 가치가 있는 우수한 연구입니다.