Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic
Thunder-DeID: إطار عمل دقيق وفعال لإلغاء تحديد الهوية في أحكام المحاكم الكورية
لضمان التوازن بين الإفصاح القضائي وحماية البيانات الشخصية، تتطلب السلطات القضائية الكورية إجراء معالجة إلغاء تحديد الهوية قبل الإفصاح العام عن أحكام المحاكم. ومع ذلك، تفتقر عمليات إلغاء تحديد الهوية الحالية إلى القدرة على معالجة أحكام المحاكم على نطاق واسع مع الامتثال الصارم للمتطلبات القانونية. علاوة على ذلك، فإن التعريف القانوني والتصنيف للمعرّفات الشخصية غامض وغير مناسب للحلول التقنية. لمعالجة هذه التحديات، تقدم هذه الورقة إطار عمل Thunder-DeID لإلغاء تحديد الهوية، والذي يتوافق مع القوانين واللوائح ذات الصلة والممارسات العملية. على وجه التحديد، تقوم الورقة بـ: (i) بناء ونشر أول مجموعة بيانات قانونية كورية تحتوي على أحكام معلَّمة وقوائم الإشارات الكيانية المقابلة، (ii) تقديم مخطط تصنيف منهجي للمعلومات التي تحدد الهوية الشخصية (PII)، (iii) تطوير خط أنابيب شبكة عصبية عميقة (DNN) شامل لإلغاء تحديد الهوية. تُظهر النتائج التجريبية أن النموذج حقق أداءً متقدماً في مهمة إلغاء تحديد الهوية في أحكام المحاكم.
يهدف هذا البحث إلى حل ثلاث مشاكل أساسية في إلغاء تحديد الهوية في أحكام المحاكم الكورية:
اختناق الكفاءة: الاعتماد المفرط على الطرق اليدوية يؤدي إلى عبء إداري وتأخير في نشر الأحكام، مما يؤدي إلى إمكانية وصول منخفضة بشكل ملحوظ للأحكام من قبل الجمهور الكوري
ضعف الأداء التقني: خلال الفترة من 2019-2025، كان معدل الدقة الإجمالي لأدوات إلغاء تحديد الهوية الآلية الموجودة فقط 8-15%
غموض التعريف القانوني: التعريف والتصنيف الحالي للمعرّفات الشخصية في القانون غامض، وغير مناسب بشكل خاص للحلول التقنية الآلية
إن علانية الإجراءات القضائية هي مبدأ ديمقراطي مهم ينص عليه الدستور في العديد من الدول بما فيها كوريا. تتطلب كوريا نطاقاً أوسع وشروطاً أكثر صرامة للمعرّفات الشخصية التي تحتاج إلى إخفاء الهوية في السياق القضائي. تعتبر تقنية إلغاء تحديد الهوية الفعالة حاسمة لتحقيق التوازن بين الشفافية القضائية وحماية الخصوصية.
أول مجموعة بيانات قانونية كورية: إنشاء مجموعة بيانات ثنائية الأجزاء تحتوي على 6,700 حكم معلَّم (تغطي الحالات المدنية والجنائية والإدارية) و48,306 كيان مسمى
إطار تصنيف PII ثلاثي المستويات: بناءً على التحليل الاستقرائي لـ 48,306 كيان مسمى، تقديم مخطط تصنيف منهجي للمعلومات التي تحدد الهوية الشخصية
معالج رموز متخصص: دمج محلل الأشكال Mecab-ko مع ترميز البايتات الزوجي (BPE)، مع الاستفادة من الميزات الفريدة للغة الكورية
خط أنابيب DNN شامل: تطوير إطار عمل كامل لإلغاء تحديد الهوية، يحقق أفضل أداء في مهمة إلغاء تحديد الهوية في أحكام المحاكم
الإدخال: نص حكم محكمة كوري أصلي يحتوي على معلومات تحدد الهوية الشخصية
الإخراج: نص حكم تم إلغاء تحديد هويته، حيث يتم استبدال أو حذف المعلومات الحساسة بشكل مناسب
القيود: يجب أن تتوافق مع اللوائح القانونية الكورية ذات الصلة (مثل المادة 59-3 من قانون الإجراءات الجنائية الكوري، المادة 163-2 من قانون الإجراءات المدنية، إلخ)
تستشهد هذه الورقة بأعمال ذات صلة متعددة مهمة، بما في ذلك:
الأعمال الكلاسيكية في إلغاء تحديد الهوية الطبية (Uzuner et al., 2007; Liu et al., 2017)
أبحاث إلغاء تحديد الهوية في النصوص القانونية في دول مختلفة (Niklaus et al., 2023; Salierno et al., 2024)
الأعمال الأساسية في NLP للغة الكورية (Park et al., 2020; Ko et al., 2023)
الوثائق القانونية والسياسات ذات الصلة
التقييم الشامل: هذه ورقة بحثية عالية الجودة موجهة نحو التطبيق، لا تتمتع فقط بالابتكار التقني بل تحل أيضاً مشكلة اجتماعية فعلية. تجمع الورقة بين القيمة الهندسية والقيمة الأكاديمية، وتقدم مساهمة مهمة لمجال NLP القانوني. على الرغم من وجود بعض القيود، فإن المميزات تفوق العيوب، وهي عمل ممتاز يستحق الاهتمام.