Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic
Thunder-DeID: কোরিয়ান আদালত রায়ের জন্য নির্ভুল এবং দক্ষ ডি-আইডেন্টিফিকেশন ফ্রেমওয়ার্ক
বিচারিক প্রকাশ্যতা এবং ব্যক্তিগত ডেটা সুরক্ষার মধ্যে ভারসাম্য নিশ্চিত করার জন্য, কোরিয়ান বিচার বিভাগ আদালত রায় জনসাধারণের কাছে প্রকাশ করার আগে ডি-আইডেন্টিফিকেশন প্রক্রিয়া বাধ্যতামূলক করেছে। তবে, বর্তমান ডি-আইডেন্টিফিকেশন প্রক্রিয়া কঠোর আইনি প্রয়োজনীয়তা মেনে চলার সাথে সাথে বৃহৎ আকারের আদালত রায় প্রক্রিয়াকরণে অপর্যাপ্ত। অতিরিক্তভাবে, ব্যক্তিগত সনাক্তকারীর আইনি সংজ্ঞা এবং শ্রেণীবিভাগ অস্পষ্ট, যা প্রযুক্তিগত সমাধানের জন্য অনুপযুক্ত। এই চ্যালেঞ্জগুলি সমাধানের জন্য, এই পেপারটি Thunder-DeID ডি-আইডেন্টিফিকেশন ফ্রেমওয়ার্ক প্রস্তাব করে, যা প্রাসঙ্গিক আইন ও প্রবিধান এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ। নির্দিষ্টভাবে, এই পেপারটি (i) মন্তব্যকৃত রায় এবং সংশ্লিষ্ট সত্তা উল্লেখ তালিকা সহ প্রথম কোরিয়ান আইনি ডেটাসেট নির্মাণ এবং প্রকাশ করে, (ii) ব্যক্তিগত সনাক্তকারী তথ্য (PII) এর একটি পদ্ধতিগত শ্রেণীবিভাগ স্কিম প্রবর্তন করে, (iii) একটি সম্পূর্ণ গভীর স্নায়ু নেটওয়ার্ক (DNN) ডি-আইডেন্টিফিকেশন পাইপলাইন বিকাশ করে। পরীক্ষামূলক ফলাফল দেখায় যে মডেলটি আদালত রায় ডি-আইডেন্টিফিকেশন কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে।
এই গবেষণা কোরিয়ান আদালত রায় ডি-আইডেন্টিফিকেশনের তিনটি মূল সমস্যা সমাধানের লক্ষ্য রাখে:
দক্ষতা বাধা: মানব পদ্ধতির উপর অত্যধিক নির্ভরতা প্রশাসনিক বোঝা এবং রায় প্রকাশে বিলম্ব ঘটায়, কোরিয়ান জনসাধারণের রায়ের অ্যাক্সেসযোগ্যতা উল্লেখযোগ্যভাবে কম
প্রযুক্তিগত কর্মক্ষমতা হ্রাস: ২০১৯-২০২৫ সালের মধ্যে, বিদ্যমান স্বয়ংক্রিয় ডি-আইডেন্টিফিকেশন সরঞ্জামের সামগ্রিক নির্ভুলতা মাত্র ৮-১৫%
আইনি সংজ্ঞা অস্পষ্টতা: বর্তমান আইন ব্যক্তিগত সনাক্তকারীর শ্রেণীবিভাগ এবং সংজ্ঞা অস্পষ্ট, বিশেষত স্বয়ংক্রিয় প্রযুক্তি সমাধানের জন্য অনুপযুক্ত
আদালত প্রক্রিয়ার প্রকাশ্যতা কোরিয়া সহ অনেক দেশের সংবিধানে নির্ধারিত একটি গুরুত্বপূর্ণ গণতান্ত্রিক নীতি। কোরিয়া আদালত পরিবেশে বেনামীকরণের প্রয়োজন এমন ব্যক্তিগত সনাক্তকারীর পরিসীমা আরও বিস্তৃত এবং শর্তাবলী আরও কঠোর। বিচারিক স্বচ্ছতা এবং গোপনীয়তা সুরক্ষার ভারসাম্য রক্ষার জন্য কার্যকর ডি-আইডেন্টিফিকেশন প্রযুক্তি অত্যন্ত গুরুত্বপূর্ণ।
প্রথম কোরিয়ান আইনি ডেটাসেট: ৬,৭০০টি মন্তব্যকৃত রায় (দেওয়ানি, ফৌজদারি, প্রশাসনিক মামলা অন্তর্ভুক্ত) এবং ৪৮,৩০৬টি নামকৃত সত্তা সহ দ্বিমুখী ডেটাসেট তৈরি করা
ত্রিস্তরীয় PII শ্রেণীবিভাগ ফ্রেমওয়ার্ক: ৪৮,৩০৬টি নামকৃত সত্তার আবেগপূর্ণ বিশ্লেষণের উপর ভিত্তি করে, একটি পদ্ধতিগত ব্যক্তিগত সনাক্তকারী তথ্য শ্রেণীবিভাগ স্কিম প্রস্তাব করা
বিশেষায়িত টোকেনাইজার: মরফোলজিক্যাল বিশ্লেষক Mecab-ko কে বাইট পেয়ার এনকোডিং (BPE) এর সাথে একীভূত করা, কোরিয়ান ভাষার অনন্য বৈশিষ্ট্য ব্যবহার করা
সম্পূর্ণ DNN পাইপলাইন: একটি সম্পূর্ণ ডি-আইডেন্টিফিকেশন ফ্রেমওয়ার্ক বিকাশ করা, আদালত রায় ডি-আইডেন্টিফিকেশন কাজে সর্বোত্তম কর্মক্ষমতা অর্জন করা
ইনপুট: ব্যক্তিগত সনাক্তকারী তথ্য সহ মূল কোরিয়ান আদালত রায় পাঠ্য
আউটপুট: ডি-আইডেন্টিফাইড রায় পাঠ্য, যেখানে সংবেদনশীল তথ্য উপযুক্তভাবে প্রতিস্থাপিত বা সরানো হয়েছে
সীমাবদ্ধতা: কোরিয়ান প্রাসঙ্গিক আইন ও প্রবিধান মেনে চলতে হবে (যেমন কোরিয়ান ফৌজদারি প্রক্রিয়া আইন ৫৯-৩ ধারা, দেওয়ানি প্রক্রিয়া আইন ১৬৩-২ ধারা ইত্যাদি)
এই পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
চিকিৎসা ডি-আইডেন্টিফিকেশনের ক্লাসিক কাজ (Uzuner et al., 2007; Liu et al., 2017)
বিভিন্ন দেশের আইনি পাঠ্য ডি-আইডেন্টিফিকেশন গবেষণা (Niklaus et al., 2023; Salierno et al., 2024)
কোরিয়ান NLP ভিত্তি কাজ (Park et al., 2020; Ko et al., 2023)
প্রাসঙ্গিক আইন ও নীতি নথি
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের প্রয়োগ-ভিত্তিক গবেষণা পেপার, যা শুধুমাত্র প্রযুক্তিগতভাবে উদ্ভাবনী নয়, বরং প্রকৃত সামাজিক সমস্যা সমাধান করে। পেপারটির প্রকৌশল মূল্য এবং একাডেমিক মূল্য উভয়ই সমান গুরুত্বপূর্ণ, আইনি NLP ক্ষেত্রে গুরুত্বপূর্ণ অবদান রাখে। কিছু সীমাবদ্ধতা থাকলেও, এটি একটি উল্লেখযোগ্য এবং চমৎকার কাজ।