2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic

Thunder-DeID: कोरियाई कोर्ट निर्णयों के लिए सटीक और कुशल विनिर्दिष्टीकरण ढांचा

मूल जानकारी

  • पेपर ID: 2506.15266
  • शीर्षक: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
  • लेखक: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (सियोल राष्ट्रीय विश्वविद्यालय)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: 16 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2506.15266v3

सारांश

न्यायिक सार्वजनिकता और व्यक्तिगत डेटा संरक्षण के बीच संतुलन सुनिश्चित करने के लिए, कोरियाई न्यायिक विभाग को कोर्ट निर्णयों के सार्वजनिक प्रकटीकरण से पहले विनिर्दिष्टीकरण प्रक्रिया की आवश्यकता होती है। हालांकि, वर्तमान विनिर्दिष्टीकरण प्रक्रिया कानूनी आवश्यकताओं का कड़ाई से पालन करते हुए बड़े पैमाने पर कोर्ट निर्णयों को संभालने में अपर्याप्त है। इसके अलावा, व्यक्तिगत पहचानकर्ताओं की कानूनी परिभाषा और वर्गीकरण अस्पष्ट है, जो तकनीकी समाधानों के लिए उपयुक्त नहीं है। इन चुनौतियों को हल करने के लिए, यह पेपर Thunder-DeID विनिर्दिष्टीकरण ढांचा प्रस्तावित करता है, जो संबंधित कानूनों और प्रथाओं के अनुरूप है। विशेष रूप से, यह पेपर (i) टिप्पणीकृत निर्णयों और संबंधित इकाई उल्लेख सूचियों वाला पहला कोरियाई कानूनी डेटासेट बनाता और जारी करता है, (ii) व्यक्तिगत पहचान योग्य जानकारी (PII) की एक व्यवस्थित वर्गीकरण योजना प्रस्तुत करता है, (iii) एक अंत-से-अंत गहरे तंत्रिका नेटवर्क (DNN) विनिर्दिष्टीकरण पाइपलाइन विकसित करता है। प्रयोगात्मक परिणाम दर्शाते हैं कि मॉडल कोर्ट निर्णय विनिर्दिष्टीकरण कार्य पर अत्याधुनिक प्रदर्शन प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान कोरियाई कोर्ट निर्णय विनिर्दिष्टीकरण की तीन मुख्य समस्याओं को हल करने का लक्ष्य रखता है:

  1. दक्षता की बाधा: मानव विधियों पर अत्यधिक निर्भरता प्रशासनिक बोझ और निर्णय प्रकाशन में देरी का कारण बनती है, कोरियाई जनता के लिए निर्णयों की पहुंच में उल्लेखनीय कमी है
  2. तकनीकी प्रदर्शन में कमी: 2019-2025 के बीच, मौजूदा स्वचालित विनिर्दिष्टीकरण उपकरणों की समग्र सटीकता केवल 8-15% है
  3. कानूनी परिभाषा में अस्पष्टता: वर्तमान कानून व्यक्तिगत पहचानकर्ताओं के वर्गीकरण और परिभाषा में अस्पष्ट है, विशेष रूप से स्वचालित तकनीकी समाधानों के लिए अनुपयुक्त है

अनुसंधान का महत्व

कोर्ट प्रक्रियाओं की सार्वजनिकता कोरिया सहित कई देशों के संविधान द्वारा निर्दिष्ट एक महत्वपूर्ण लोकतांत्रिक सिद्धांत है। कोरिया में कोर्ट वातावरण में गुमनामी की आवश्यकता वाली व्यक्तिगत पहचानकर्ताओं की सीमा व्यापक है और शर्तें अधिक कठोर हैं। प्रभावी विनिर्दिष्टीकरण तकनीक न्यायिक पारदर्शिता और गोपनीयता संरक्षण को संतुलित करने के लिए महत्वपूर्ण है।

मौजूदा विधियों की सीमाएं

  • प्रॉम्प्ट-आधारित LLM विधियां: मूल वाक्य संरचना को बदलती हैं, वाक्य और संदर्भ विकृति का जोखिम है
  • API सीमाएं: गोपनीयता और सूचना सुरक्षा विचारों के कारण, कोरियाई सरकारी संस्थाएं ChatGPT जैसी API सेवाओं के उपयोग को प्रतिबंधित करते हैं
  • बड़े पैमाने पर प्रसंस्करण क्षमता में कमी: मौजूदा विधियां बड़े पैमाने पर कोर्ट निर्णयों को प्रभावी ढंग से संभाल नहीं सकती हैं

मुख्य योगदान

  1. पहला कोरियाई कानूनी डेटासेट: 6,700 टिप्पणीकृत निर्णय (नागरिक, आपराधिक, प्रशासनिक मामलों को कवर करते हुए) और 48,306 नामित इकाइयों वाला द्विभाग डेटासेट बनाया गया
  2. तीन-स्तरीय PII वर्गीकरण ढांचा: 48,306 नामित इकाइयों के प्रेरक विश्लेषण के आधार पर, व्यक्तिगत पहचान योग्य जानकारी की एक व्यवस्थित वर्गीकरण योजना प्रस्तावित की गई है
  3. विशेष टोकनाइजर: Mecab-ko आकृति विश्लेषक को बाइट पेयर एन्कोडिंग (BPE) के साथ एकीकृत किया गया, कोरियाई भाषा की अद्वितीय विशेषताओं का लाभ उठाते हुए
  4. अंत-से-अंत DNN पाइपलाइन: एक संपूर्ण विनिर्दिष्टीकरण ढांचा विकसित किया गया, कोर्ट निर्णय विनिर्दिष्टीकरण कार्य पर सर्वोत्तम प्रदर्शन प्राप्त करता है

विधि विवरण

कार्य परिभाषा

इनपुट: व्यक्तिगत पहचान योग्य जानकारी युक्त मूल कोरियाई कोर्ट निर्णय पाठ आउटपुट: विनिर्दिष्टीकृत निर्णय पाठ, जहां संवेदनशील जानकारी को उपयुक्त रूप से प्रतिस्थापित या हटाया जाता है बाधाएं: कोरियाई संबंधित कानूनों का अनुपालन करना चाहिए (जैसे कोरियाई आपराधिक प्रक्रिया कानून धारा 59-3, नागरिक प्रक्रिया कानून धारा 163-2, आदि)

मॉडल आर्किटेक्चर

1. डेटा निर्माण प्रक्रिया

गुमनाम निर्णय → प्लेसहोल्डर पहचान और टिप्पणी → PII वर्गीकरण योजना → प्रतिस्थापन सूची निर्माण → प्रशिक्षण डेटा निर्माण

2. Thunder-DeID मॉडल परिवार

DeBERTa-v3 आर्किटेक्चर के आधार पर, तीन आकारों के मॉडल शामिल हैं:

  • Thunder-DeID-370M: 3.7 अरब पैरामीटर, छिपा हुआ आयाम 1024, 24 Transformer परतें
  • Thunder-DeID-800M: 8 अरब पैरामीटर, छिपा हुआ आयाम 1280, 36 Transformer परतें
  • Thunder-DeID-1.5B: 15 अरब पैरामीटर, छिपा हुआ आयाम 2048, 24 Transformer परतें

3. टोकनाइजेशन रणनीति

Mecab-ko आकृति विश्लेषक को BPE के साथ एकीकृत करता है:

  • Mecab-ko: कोरियाई आसंजन भाषा आकृति को संभालता है, शब्द मूल और कण को सटीकता से अलग करता है
  • BPE: शब्दावली से बाहर (OOV) समस्या को हल करता है, अदेखे शब्दों को उप-शब्द इकाइयों के रूप में प्रस्तुत करता है

4. प्रशिक्षण डेटा निर्माण एल्गोरिदम

# छद्म कोड उदाहरण
def generate_training_data(annotated_text, replacement_lists):
    # 1. विशेष मार्कर जोड़ी की पहचान करें
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. प्लेसहोल्डर को स्कैन और प्रतिस्थापित करें
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. लेबल अनुक्रम उत्पन्न करें
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

तकनीकी नवाचार बिंदु

  1. तीन-स्तरीय PII वर्गीकरण प्रणाली:
    • पहली परत: प्रत्यक्ष पहचानकर्ता बनाम अर्ध-पहचानकर्ता
    • दूसरी परत: 16 उप-श्रेणियां (जैसे व्यक्तिनाम, भौगोलिक जानकारी, संगठन, आदि)
    • तीसरी परत: 80 सूक्ष्म-दानेदार श्रेणियां, 729 लेबल के अनुरूप
  2. कोरियाई भाषा-विशिष्ट टोकनाइजेशन:
    • Mecab-ko का उपयोग करके "홍길동이" को "홍길동"+"이" में सटीकता से अलग करता है
    • केवल लक्ष्य इकाई को विनिर्दिष्ट करता है, कण की पूर्णता बनाए रखता है
  3. डेटा संवर्धन रणनीति:
    • Per-Epoch प्रतिस्थापन: प्रत्येक epoch में विभिन्न इकाई उल्लेखों को प्रतिस्थापित करता है, डेटा विविधता बढ़ाता है
    • Single प्रतिस्थापन: निश्चित प्रतिस्थापन, तुलना आधार के रूप में

प्रयोगात्मक सेटअप

डेटासेट

  • पैमाना: 6,700 निर्णय (नागरिक 3,000, आपराधिक 3,000, प्रशासनिक 700)
  • इकाई संख्या: 48,306 टिप्पणीकृत इकाइयां
  • डेटा स्रोत: कोरियाई सरकारी विधायी विभाग, AI-hub, सार्वजनिक डेटासेट
  • विभाजन अनुपात: प्रशिक्षण 80%, सत्यापन 10%, परीक्षण 10%

मूल्यांकन मेट्रिक्स

  1. बाइनरी टोकन-स्तर: मॉडल की विनिर्दिष्टीकरण की आवश्यकता वाले टोकन की पहचान करने की क्षमता को मापता है
  2. टोकन-स्तर: विशिष्ट इकाई प्रकारों के वर्गीकरण में मॉडल की सटीकता को मापता है
  3. मेट्रिक्स: Precision, Recall, F1-score

तुलनात्मक विधियां

  • Polyglot-Ko (1.3B पैरामीटर): कोरियाई-विशिष्ट भाषा मॉडल
  • EXAONE-3.5 (2.4B पैरामीटर): कोरियाई-विशिष्ट डिकोडर मॉडल

कार्यान्वयन विवरण

  • पूर्व-प्रशिक्षण कॉर्पस: 76.7GB द्विभाषी कॉर्पस (कोरियाई + अंग्रेजी)
  • अनुक्रम लंबाई: 512→2048 टोकन
  • ऑप्टिमाइज़र: AdamW, β=(0.9, 0.999)
  • शिक्षण दर शेड्यूल: पहले 10% चरणों में वार्मअप + कोसाइन क्षय
  • हार्डवेयर: 32×NVIDIA H100 80GB GPUs

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडलपैरामीटरबाइनरी टोकन-स्तर F1टोकन-स्तर Micro F1
Polyglot-ko1.3B0.97010.8765
EXAONE2.4B0.96770.8752
Thunder-DeID-370M370M0.96540.8871
Thunder-DeID-800M800M0.97910.9105
Thunder-DeID-1.5B1.5B0.98080.9071

मुख्य निष्कर्ष

  1. महत्वपूर्ण प्रदर्शन सुधार: Thunder-DeID सभी आकारों पर आधार मॉडल को पार करता है
  2. Per-Epoch लाभ: Per-Epoch प्रतिस्थापन रणनीति सभी मॉडलों पर Single प्रतिस्थापन से महत्वपूर्ण रूप से बेहतर है
  3. स्केल प्रभाव: यहां तक कि सबसे छोटा Thunder-DeID-370M भी टोकन-स्तर मेट्रिक्स पर बड़े आधार मॉडल को पार करता है
  4. व्यावहारिक सफलता: कोरियाई राष्ट्रीय कोर्ट प्रशासनिक विभाग की मौजूदा प्रणाली की 8-15% सटीकता की तुलना में, एक विशाल सुधार प्राप्त किया गया है

त्रुटि विश्लेषण

मॉडल कम-आवृत्ति लेबल पहचान में कमजोरी दिखाता है:

  • अक्सर "뷔페(बुफे रेस्तरां)" को "기계설비회사(मशीनरी उपकरण कंपनी)" के रूप में गलत वर्गीकृत करता है
  • "불특정제품명(अनिर्दिष्ट उत्पाद नाम)" और "불특정회사명(अनिर्दिष्ट कंपनी नाम)" में भ्रम है

संबंधित कार्य

चिकित्सा विनिर्दिष्टीकरण

  • HIPAA मार्गदर्शन: Safe Harbor विधि और विशेषज्ञ निर्णय
  • तकनीकी विकास: नियम प्रणाली→BiLSTM-CRF→BERT→LLM
  • सीमाएं: HIPAA विनियम LLM के व्यावहारिक तैनाती को प्रतिबंधित करते हैं

कोर्ट निर्णय विनिर्दिष्टीकरण

विभिन्न देशों का प्रदर्शन तुलना:

  • अरबी: F1=96.14%
  • जर्मन/फ्रेंच/इतालवी: F1=92.40%
  • स्पेनिश: F1=91.90%
  • हिंदी: F1=91.10%
  • इतालवी: F1=88.60%

यह कार्य कोरियाई कानूनी पाठ विनिर्दिष्टीकरण में अंतराल को भरता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. Thunder-DeID ने कोरियाई कोर्ट निर्णय विनिर्दिष्टीकरण की तकनीकी चुनौतियों को सफलतापूर्वक हल किया है
  2. तीन-स्तरीय PII वर्गीकरण योजना कानूनी पाठ विनिर्दिष्टीकरण के लिए एक व्यवस्थित ढांचा प्रदान करती है
  3. कोरियाई भाषा-विशिष्ट टोकनाइजेशन और डेटा संवर्धन रणनीति ने मॉडल प्रदर्शन में महत्वपूर्ण सुधार किया है
  4. इस कार्य पर अत्याधुनिक प्रदर्शन प्राप्त किया गया है, व्यावहारिक तैनाती की क्षमता है

सीमाएं

  1. डेटा सीमाएं: कानूनी प्रतिबंधों के कारण, वास्तविक-विश्व मूल्यांकन के लिए मूल गुमनाम निर्णय प्राप्त नहीं कर सकते
  2. डोमेन सीमाएं: मॉडल विशेष रूप से नागरिक, आपराधिक, प्रशासनिक कानून के लिए प्रशिक्षित है, अन्य कानूनी क्षेत्रों में सामान्यीकरण क्षमता अज्ञात है
  3. संदर्भ संवेदनशीलता: कानूनी विनिर्दिष्टीकरण संदर्भ पर अत्यधिक निर्भर है, विभिन्न कानूनी विवाद प्रकारों पर मॉडल प्रदर्शन में कमी हो सकती है

भविष्य की दिशाएं

  1. संश्लेषित डेटा निर्माण: वास्तविक कोर्ट निर्णयों के करीब संश्लेषित डेटा संवर्धन विधि विकसित करना
  2. क्रॉस-डोमेन अनुकूलन: विभिन्न कानूनी क्षेत्रों में मॉडल प्रदर्शन का मूल्यांकन और सुधार करना
  3. व्यावहारिक तैनाती: कोरियाई न्यायिक संस्थानों के साथ व्यावहारिक तैनाती परीक्षण के लिए सहयोग करना

गहन मूल्यांकन

शक्तियां

  1. वास्तविक महत्व: कोरियाई न्यायिक प्रणाली की वास्तविक समस्या को हल करता है, सीधा सामाजिक मूल्य है
  2. तकनीकी नवाचार: कोरियाई भाषा-विशिष्ट टोकनाइजेशन, तीन-स्तरीय PII वर्गीकरण, डेटा संवर्धन रणनीति आदि सभी नवाचारी हैं
  3. प्रयोगात्मक पूर्णता: व्यापक ablation प्रयोग, कई आधार तुलना, विस्तृत त्रुटि विश्लेषण
  4. डेटासेट योगदान: पहला कोरियाई कानूनी विनिर्दिष्टीकरण डेटासेट, क्षेत्र विकास को बढ़ावा देता है
  5. कानूनी अनुपालन: कोरियाई संबंधित कानूनों का कड़ाई से पालन करता है, व्यावहारिकता सुनिश्चित करता है

कमियां

  1. मूल्यांकन सीमाएं: वास्तविक डेटा पर सत्यापन नहीं कर सकते, डोमेन-अंतराल जोखिम है
  2. पुनरुत्पादनशीलता: कुछ कार्यान्वयन विवरण (जैसे विशिष्ट प्रतिस्थापन सूची निर्माण) पर्याप्त विस्तृत नहीं हैं
  3. कम्प्यूटेशनल लागत: बड़े पैमाने पर GPU संसाधनों की आवश्यकता है, व्यावहारिक अनुप्रयोग को सीमित कर सकता है
  4. सामान्यीकरण क्षमता: कोरियाई के बाहर भाषाओं पर प्रयोज्यता अज्ञात है

प्रभाव

  1. शैक्षणिक योगदान: कानूनी NLP और विनिर्दिष्टीकरण अनुसंधान के लिए नया बेंचमार्क और विधि प्रदान करता है
  2. व्यावहारिक मूल्य: कोरियाई न्यायिक प्रणाली की दक्षता और पारदर्शिता में महत्वपूर्ण सुधार की संभावना है
  3. अंतर्राष्ट्रीय संदर्भ: अन्य देशों के कानूनी पाठ विनिर्दिष्टीकरण के लिए संदर्भ ढांचा प्रदान करता है
  4. तकनीक प्रचार: कोरियाई NLP तकनीक में महत्वपूर्ण प्रगति

लागू परिदृश्य

  1. न्यायिक संस्थान: कोर्ट निर्णयों का स्वचालित विनिर्दिष्टीकरण प्रसंस्करण
  2. कानूनी अनुसंधान: बड़े पैमाने पर कानूनी पाठ विश्लेषण और अनुसंधान
  3. सरकारी विभाग: अन्य पाठ विनिर्दिष्टीकरण की आवश्यकता वाली सार्वजनिक सेवाएं
  4. शैक्षणिक अनुसंधान: कानूनी NLP, गोपनीयता संरक्षण आदि संबंधित अनुसंधान

संदर्भ

यह पेपर कई महत्वपूर्ण संबंधित कार्यों का उद्धरण देता है, जिनमें शामिल हैं:

  • चिकित्सा विनिर्दिष्टीकरण के शास्त्रीय कार्य (Uzuner et al., 2007; Liu et al., 2017)
  • विभिन्न देशों के कानूनी पाठ विनिर्दिष्टीकरण अनुसंधान (Niklaus et al., 2023; Salierno et al., 2024)
  • कोरियाई NLP आधार कार्य (Park et al., 2020; Ko et al., 2023)
  • संबंधित कानूनी विनियम और नीति दस्तावेज

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुप्रयोग-उन्मुख अनुसंधान पेपर है, जो न केवल तकनीकी रूप से नवाचारी है, बल्कि वास्तविक सामाजिक समस्या को भी हल करता है। पेपर की इंजीनियरिंग मूल्य और शैक्षणिक मूल्य दोनों समान हैं, कानूनी NLP क्षेत्र में महत्वपूर्ण योगदान देता है। हालांकि कुछ सीमाएं हैं, लेकिन ये कमियां पूरे काम को कम नहीं करती हैं, यह ध्यान देने योग्य उत्कृष्ट कार्य है।