Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic
Thunder-DeID: कोरियाई कोर्ट निर्णयों के लिए सटीक और कुशल विनिर्दिष्टीकरण ढांचा
न्यायिक सार्वजनिकता और व्यक्तिगत डेटा संरक्षण के बीच संतुलन सुनिश्चित करने के लिए, कोरियाई न्यायिक विभाग को कोर्ट निर्णयों के सार्वजनिक प्रकटीकरण से पहले विनिर्दिष्टीकरण प्रक्रिया की आवश्यकता होती है। हालांकि, वर्तमान विनिर्दिष्टीकरण प्रक्रिया कानूनी आवश्यकताओं का कड़ाई से पालन करते हुए बड़े पैमाने पर कोर्ट निर्णयों को संभालने में अपर्याप्त है। इसके अलावा, व्यक्तिगत पहचानकर्ताओं की कानूनी परिभाषा और वर्गीकरण अस्पष्ट है, जो तकनीकी समाधानों के लिए उपयुक्त नहीं है। इन चुनौतियों को हल करने के लिए, यह पेपर Thunder-DeID विनिर्दिष्टीकरण ढांचा प्रस्तावित करता है, जो संबंधित कानूनों और प्रथाओं के अनुरूप है। विशेष रूप से, यह पेपर (i) टिप्पणीकृत निर्णयों और संबंधित इकाई उल्लेख सूचियों वाला पहला कोरियाई कानूनी डेटासेट बनाता और जारी करता है, (ii) व्यक्तिगत पहचान योग्य जानकारी (PII) की एक व्यवस्थित वर्गीकरण योजना प्रस्तुत करता है, (iii) एक अंत-से-अंत गहरे तंत्रिका नेटवर्क (DNN) विनिर्दिष्टीकरण पाइपलाइन विकसित करता है। प्रयोगात्मक परिणाम दर्शाते हैं कि मॉडल कोर्ट निर्णय विनिर्दिष्टीकरण कार्य पर अत्याधुनिक प्रदर्शन प्राप्त करता है।
यह अनुसंधान कोरियाई कोर्ट निर्णय विनिर्दिष्टीकरण की तीन मुख्य समस्याओं को हल करने का लक्ष्य रखता है:
दक्षता की बाधा: मानव विधियों पर अत्यधिक निर्भरता प्रशासनिक बोझ और निर्णय प्रकाशन में देरी का कारण बनती है, कोरियाई जनता के लिए निर्णयों की पहुंच में उल्लेखनीय कमी है
तकनीकी प्रदर्शन में कमी: 2019-2025 के बीच, मौजूदा स्वचालित विनिर्दिष्टीकरण उपकरणों की समग्र सटीकता केवल 8-15% है
कानूनी परिभाषा में अस्पष्टता: वर्तमान कानून व्यक्तिगत पहचानकर्ताओं के वर्गीकरण और परिभाषा में अस्पष्ट है, विशेष रूप से स्वचालित तकनीकी समाधानों के लिए अनुपयुक्त है
कोर्ट प्रक्रियाओं की सार्वजनिकता कोरिया सहित कई देशों के संविधान द्वारा निर्दिष्ट एक महत्वपूर्ण लोकतांत्रिक सिद्धांत है। कोरिया में कोर्ट वातावरण में गुमनामी की आवश्यकता वाली व्यक्तिगत पहचानकर्ताओं की सीमा व्यापक है और शर्तें अधिक कठोर हैं। प्रभावी विनिर्दिष्टीकरण तकनीक न्यायिक पारदर्शिता और गोपनीयता संरक्षण को संतुलित करने के लिए महत्वपूर्ण है।
पहला कोरियाई कानूनी डेटासेट: 6,700 टिप्पणीकृत निर्णय (नागरिक, आपराधिक, प्रशासनिक मामलों को कवर करते हुए) और 48,306 नामित इकाइयों वाला द्विभाग डेटासेट बनाया गया
तीन-स्तरीय PII वर्गीकरण ढांचा: 48,306 नामित इकाइयों के प्रेरक विश्लेषण के आधार पर, व्यक्तिगत पहचान योग्य जानकारी की एक व्यवस्थित वर्गीकरण योजना प्रस्तावित की गई है
विशेष टोकनाइजर: Mecab-ko आकृति विश्लेषक को बाइट पेयर एन्कोडिंग (BPE) के साथ एकीकृत किया गया, कोरियाई भाषा की अद्वितीय विशेषताओं का लाभ उठाते हुए
अंत-से-अंत DNN पाइपलाइन: एक संपूर्ण विनिर्दिष्टीकरण ढांचा विकसित किया गया, कोर्ट निर्णय विनिर्दिष्टीकरण कार्य पर सर्वोत्तम प्रदर्शन प्राप्त करता है
इनपुट: व्यक्तिगत पहचान योग्य जानकारी युक्त मूल कोरियाई कोर्ट निर्णय पाठ
आउटपुट: विनिर्दिष्टीकृत निर्णय पाठ, जहां संवेदनशील जानकारी को उपयुक्त रूप से प्रतिस्थापित या हटाया जाता है
बाधाएं: कोरियाई संबंधित कानूनों का अनुपालन करना चाहिए (जैसे कोरियाई आपराधिक प्रक्रिया कानून धारा 59-3, नागरिक प्रक्रिया कानून धारा 163-2, आदि)
यह पेपर कई महत्वपूर्ण संबंधित कार्यों का उद्धरण देता है, जिनमें शामिल हैं:
चिकित्सा विनिर्दिष्टीकरण के शास्त्रीय कार्य (Uzuner et al., 2007; Liu et al., 2017)
विभिन्न देशों के कानूनी पाठ विनिर्दिष्टीकरण अनुसंधान (Niklaus et al., 2023; Salierno et al., 2024)
कोरियाई NLP आधार कार्य (Park et al., 2020; Ko et al., 2023)
संबंधित कानूनी विनियम और नीति दस्तावेज
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुप्रयोग-उन्मुख अनुसंधान पेपर है, जो न केवल तकनीकी रूप से नवाचारी है, बल्कि वास्तविक सामाजिक समस्या को भी हल करता है। पेपर की इंजीनियरिंग मूल्य और शैक्षणिक मूल्य दोनों समान हैं, कानूनी NLP क्षेत्र में महत्वपूर्ण योगदान देता है। हालांकि कुछ सीमाएं हैं, लेकिन ये कमियां पूरे काम को कम नहीं करती हैं, यह ध्यान देने योग्य उत्कृष्ट कार्य है।