2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.
Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
academic

الاستفادة من نماذج اللغة الكبيرة لتبسيط مراجعة طلبات التمويل العام

المعلومات الأساسية

  • معرّف الورقة: 2510.09674
  • العنوان: الاستفادة من نماذج اللغة الكبيرة لتبسيط مراجعة طلبات التمويل العام
  • المؤلفون: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
  • التصنيف: cs.CY cs.AI
  • تاريخ النشر: 8 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.09674

الملخص

تستثمر الاتحاد الأوروبي والدول الأعضاء فيه ملايين اليوروهات سنويًا لتمويل مبادرات تنموية متنوعة. غير أن عدد الطلبات المستقبلة من قبل هذه المشاريع يتزايد باستمرار، مما يسبب اختناقات حادة في عملية التقييم نظرًا للموارد البشرية المحدودة. تفصّل هذه الدراسة الحالة العملية لنشر التقييم بمساعدة الذكاء الاصطناعي في خطين حكوميين: (i) طلبات الشركات للتوسع الدولي، (ii) طلبات استرجاع المبالغ من المواطنين للاستثمار في تحسينات المنازل الموفرة للطاقة. بالرغم من أن هذين السيناريوين يتضمنان إجراءات تقييم مختلفة، وجدت الدراسة أن الذكاء الاصطناعي يحسّن فعالية المعالجة بشكل كبير ويقلل من عبء العمل لكلا نوعي الطلبات. بشكل محدد، في مبادرة استرجاع المبالغ من المواطنين، رفعت الحل إنتاجية المراجعين بنسبة 20.1%، مع الحفاظ على معدل إيجابيات كاذبة مهملة بناءً على الملاحظات من مجموعة الاختبار. أتاحت هذه التحسينات تقليل إجمالي وقت التقييم بأكثر من شهرين، مما يوضح تأثير الأتمتة المدفوعة بالذكاء الاصطناعي في سير العمل التقييمي على نطاق واسع.

السياق البحثي والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي تسعى هذه الدراسة لحلها حول الاختناقات في الكفاءة في تقييم مشاريع التمويل العام للاتحاد الأوروبي. مع الزيادة المتسارعة في عدد الطلبات، لم تعد طرق التقييم اليدوي التقليدية قادرة على تلبية احتياجات المعالجة، مما يؤدي إلى دورات تقييم طويلة وانخفاض رضا المتقدمين، وفي النهاية التأثير على ثقة الجمهور في كفاءة هذه المبادرات.

أهمية المشكلة

تمثل مشاريع التمويل العام أداة حاسمة لدفع النمو الاقتصادي والتنمية المستدامة والابتكار. إن انخفاض كفاءة التقييم لا يؤثر فقط على توقيت توزيع الأموال، بل قد يؤدي أيضًا إلى فقدان المشاريع ذات الجودة العالية لفرصها، مما يؤثر على تحقيق الأهداف السياساتية الشاملة.

حدود الطرق الموجودة

يعتمد استعراض المستندات التقليدي على معالجة اللغة الطبيعية القائمة على القواعد وتقنيات التعرف البصري على الأحرف، وهذه الطرق تؤدي بشكل جيد في البيئات المضبوطة، لكنها حساسة جدًا للتغييرات في هيكل المستندات والمحتوى، مما يجعلها صعبة الصيانة وصعبة التوسع إلى تطبيقات أوسع.

الدافع البحثي

يوفر ظهور نماذج اللغة الكبيرة (LLMs) مرونة وقدرة تكيف غير مسبوقة لأتمتة معالجة المستندات. تهدف هذه الدراسة إلى استكشاف كيفية الاستفادة من نماذج اللغة الكبيرة لتحسين كفاءة واتساق تقييم طلبات التمويل العام مع ضمان الإشراف البشري.

المساهمات الأساسية

  1. تقرير تجربة النشر العملي: أول تقرير عن النشر الناجح لنظامي تقييم مستندات بمساعدة الذكاء الاصطناعي، يوضح كيف يمكن للأتمتة تسريع تحليل الطلبات مع ضمان سلامة القرار تحت الإشراف البشري.
  2. التحقق من الفعالية العملية: تحقيق تحسن بنسبة 20.1% في إنتاجية المراجعين في مبادرة ReClaim، مع تقليل إجمالي وقت التقييم بأكثر من شهرين.
  3. تلخيص أفضل الممارسات: توفير أفضل الممارسات والدروس الرئيسية المستخلصة من تجربة النشر في العالم الحقيقي لدمج نماذج الذكاء الاصطناعي في بيئات مماثلة.
  4. التحقق من السيناريوهات المزدوجة: التحقق من الطبيعة الشاملة للتقييم بمساعدة الذكاء الاصطناعي من خلال مبادرتين حكوميتين مختلفتي النوع (طلبات التدويل للشركات واسترجاع المبالغ من المواطنين للتحسينات الموفرة للطاقة).

شرح المنهجية

تعريف المهام

تتضمن الدراسة مهمتين مختلفتين:

  1. مهمة IExp: التقييم الشامل لطلبات التدويل للشركات، بما في ذلك توليد ملخصات المستندات والكشف عن عدم الاتساق الداخلي والتقييم الأولي
  2. مهمة ReClaim: التحقق من المستندات لطلبات استرجاع المبالغ من المواطنين، بشكل أساسي فحص اتساق معلومات الطلب مع المستندات الداعمة

معمارية النظام

معمارية نظام IExp

  • المدخلات: مستندات طلبات الشركات بمتوسط 30,000 رمز (أكثر من 50 صفحة)
  • النموذج الأساسي: GPT-4o
  • سير المعالجة:
    1. تقسيم وتصفية المستندات لتجنب الإرهاق السياقي لنموذج اللغة
    2. تحديد الحقول الرئيسية لكل مهمة بناءً على خبرة فريق التقييم
    3. أتمتة 6 من أكثر مهام التقييم استهلاكًا للوقت
  • المخرجات: ملخص التطبيق وتقرير الاتساق والتقييم الأولي والمبررات

معمارية نظام ReClaim

  • المدخلات: حوالي 80,000 طلب، كل منها يحتوي على متوسط 11 مستند داعم
  • خط معالجة مختلط:
    1. توحيد المستندات: دعم صيغ الملفات الشائعة فقط (PDF، ZIP، PNG، إلخ)
    2. تحويل XML: تحويل حقول نماذج المستخدمين إلى تنسيق XML منظم
    3. استخراج المعلومات باستخدام نموذج الرؤية: استخدام GPT-4o لتحليل المستندات الداعمة غير المنظمة
    4. فحص الاتساق التلقائي: مقارنة المعلومات المستخرجة مع القيم المبلغ عنها من قبل المتقدم
  • المخرجات: قائمة تحقق مملوءة مسبقًا، مع وضع علامات على العناصر التي تتطلب فحصًا يدويًا

نقاط الابتكار التقني

  1. تصميم التعاون بين الإنسان والآلة: يتم استخدام مخرجات النظام كاقتراحات فقط، مما يضمن احتفاظ المراجعين البشريين دائمًا بسلطة الإشراف والمساءلة
  2. التحسين الخاص بالمهام: اعتماد حلول مخصصة لأنواع مختلفة من مهام التقييم
  3. توازن فعالية التكلفة: تحقيق التحكم في التكاليف من خلال المدخلات الموجهة وأولويات المهام
  4. الامتثال لـ GDPR: معالجة البيانات بالكامل داخل حدود الاتحاد الأوروبي، مع التخزين على أقراص محلية مشفرة

إعداد التجارب

مجموعات البيانات

  1. مجموعة بيانات IExp:
    • إثبات المفهوم: 50 طلبًا من استدعاءات سابقة
    • التقييم الحالي: 11 طلبًا باستخدام أداة مدعومة بالذكاء الاصطناعي
    • تصنيف الأنشطة: 764 طلبًا سابقًا
  2. مجموعة بيانات ReClaim:
    • إجمالي الطلبات: حوالي 80,000 طلب
    • مجموعة الاختبار: 200 عينة موزعة بالتساوي عبر الأنواع المختلفة
    • إجمالي المستندات: حوالي 880,000 مستند

مقاييس التقييم

  1. مقاييس IExp:
    • محاذاة الملخص: التشابه الكوسيني، ROUGE-L، BLEU، METEOR
    • اتساق تصنيف الأنشطة: مستوى الاتساق بين المراجع ونموذج اللغة
  2. مقاييس ReClaim:
    • تحسن الإنتاجية: نسبة مئوية من تقليل وقت المعالجة
    • معدل التحقق التلقائي: نسبة الحقول التي لا تتطلب تحققًا يدويًا
    • الدقة: نسب الصحة والأخطاء الطفيفة والإيجابيات الكاذبة والسلبيات الكاذبة وأخطاء القراءة

الطرق المقارنة

  • اختيار النموذج: اختبار عمياء بين GPT-4o و Gemini-1.5 Pro
  • طريقة المعالجة: مقارنة التأثير بين المعالجة بمساعدة الذكاء الاصطناعي والمعالجة اليدوية البحتة

نتائج التجارب

النتائج الرئيسية

نتائج نظام IExp

  1. تحسن كبير في محاذاة الملخص:
    • التشابه الكوسيني من 0.77 إلى 0.99
    • مقاييس ROUGE-L و BLEU و METEOR جميعها من أقل من 0.35 إلى أكثر من 0.9
  2. اتساق تصنيف الأنشطة:
    • اتساق نموذج اللغة مع المراجع حوالي 70%
    • اتساق نموذج اللغة مع المتقدم أعلى

نتائج نظام ReClaim

  1. تحسن الإنتاجية: زيادة إنتاجية المراجعين بحوالي 20%
  2. تأثير التحقق التلقائي:
    • معدل التحقق التلقائي الإجمالي: 76%
    • معدلات التحقق حسب الأقسام: التحقق من الأهلية 84%، النواة العامة 76%، فحص النوع 67%
  3. تحليل الدقة:
    • معدل الصحة: 88%
    • الأخطاء الطفيفة: 5%
    • الإيجابيات الكاذبة: 0%
    • السلبيات الكاذبة: 3%
    • أخطاء القراءة: 4%

تحليل تأثير النظام

التأثيرات الإيجابية بعد نشر نظام الذكاء الاصطناعي:

  • طلبات التوضيح/الطلبات: من 2.13 إلى 2.05
  • معدل استئناف المتقدمين: من 25.8% إلى 20.4%

ملاحظات المستخدمين

  1. مهام IExp: يقدر المقيمون أن المساعدة بالذكاء الاصطناعي يمكن أن تسرع عملية المراجعة بنسبة تصل إلى 30%
  2. مهام ReClaim: الملاحظات متقطبة
    • المراجعون المشاركون في التطوير أبدوا تقديرًا قويًا
    • المراجعون ذوو الخبرة يقدرون توفير الوقت بنسبة تصل إلى 40%
    • فقد بعض المراجعين الثقة بعد مواجهة الأخطاء

الأعمال ذات الصلة

طرق معالجة المستندات التقليدية

تعتمد أتمتة استعراض المستندات التقليدية على معالجة اللغة الطبيعية القائمة على القواعد وتقنيات التعرف البصري على الأحرف، وتؤدي بشكل جيد في البيئات المضبوطة، لكنها حساسة لتغييرات هيكل المستندات وصعبة الصيانة.

معالجة المستندات المدفوعة بنماذج اللغة الكبيرة

  • المجال القانوني: أدوات نماذج اللغة الكبيرة قادرة على استعراض واستخراج المعلومات من نصوص قانونية متنوعة بسرعة
  • الموارد البشرية: تطور من تحليل الكلمات الرئيسية الأساسي إلى مطابقة معقدة بين المرشح والدور
  • الإدارة العامة: الانتقال من حلول التعلم الآلي التقليدية إلى دمج الذكاء الاصطناعي التوليدي ونماذج اللغة الكبيرة

اتجاهات التعاون بين الإنسان والآلة

نظرًا لحالات الفشل الناجمة عن الانحياز أو نقص الشفافية أو الاعتماد المفرط على الأتمتة غير الخاضعة للإشراف، تقوم معظم المنظمات الآن بدمج مراجعة تعاون واضح بين الإنسان والآلة في نقاط القرار الحاسمة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. الجدوى التقنية: وصلت نماذج اللغة الكبيرة إلى مستوى نضج كافٍ لدعم عملية استعراض الطلبات بشكل كبير
  2. تحسن الكفاءة ملحوظ: في خط أنابيب تعاون بين الإنسان والآلة مدمج بشكل صحيح، يمكن لنماذج اللغة الكبيرة تسريع سير عمل التقييم بشكل كبير
  3. تحسن الاتساق: تساعد المساعدة بالذكاء الاصطناعي على تحسين توحيد مخرجات المراجعين

الدروس الرئيسية المستفادة

الحواجز التنظيمية والتنظيمية

  • غالبًا ما تكون البيروقراطية السبب الرئيسي للتأخيرات وتقليل جودة الحل
  • تقيد ملكية منصات الجهات الثالثة القدرة على تعديل النظام
  • تقلل متطلبات GDPR الصارمة من نطاق النماذج القابلة للتطبيق
  • تؤخر سير العمل المعقد متعدد الخطوات للتفويض الوصول إلى البيانات

نمط اعتماد متقطب

  • ينقسم المراجعون غالبًا إلى مجموعتين: أولئك الذين يرغبون في استخدام الأداة والتركيز على مزاياها، وأولئك الذين يصبحون حذرين جدًا أو ناقدين عند حدوث أخطاء في النظام
  • تعتبر إدارة التغيير الفعالة حاسمة للتنفيذ الناجح

إمكانية تطبيق عملي عالي

  • سرعة النشر على نطاق واسع أسرع بكثير من التقييم اليدوي
  • معالج نظام ReClaim حوالي 80,000 طلب في أقل من ثلاثة أسابيع
  • مع استمرار تحسن النماذج، يصبح التقييم الآلي بالكامل ممكنًا بشكل متزايد

القيود

  1. نظام IExp: محدود بعدم القدرة على الوصول إلى الطلبات السابقة أو قواعد البيانات الخارجية
  2. نظام ReClaim: يواجه تحديات تتعلق بعدم اتساق تنسيقات المستندات وتقديم ملفات منخفضة الجودة
  3. نطاق التطبيق: تم استبعاد حوالي 10% من المستندات من التحليل التلقائي بسبب عدم دعم التنسيق

التقييم المتعمق

المزايا

  1. القيمة العملية للنشر: هذا من بين الدراسات القليلة التي تقرر تجارب نشر نماذج اللغة الكبيرة في العالم الحقيقي، مع أهمية عملية إرشادية كبيرة
  2. نظام تقييم شامل: من المقاييس التقنية إلى ملاحظات المستخدمين، من تحسن الكفاءة إلى تأثير النظام، الأبعاد الشاملة للتقييم
  3. التحقق من السيناريوهات المزدوجة: التحقق من الطبيعة الشاملة للطريقة من خلال سيناريوهات تطبيق مختلفة
  4. مشاركة الخبرة الصادقة: الإبلاغ الموضوعي عن التحديات والتجارب الفاشلة في النشر

أوجه القصور

  1. الابتكار التقني محدود: في الغالب تطبيق لتقنيات نماذج اللغة الكبيرة الموجودة، مع نقص الابتكار على مستوى الخوارزمية
  2. نطاق التقييم محدود: حجم مجموعة الاختبار صغير نسبيًا، خاصة 11 عينة من مهام IExp
  3. التأثيرات طويلة الأجل غير معروفة: وقت النشر ثلاثة أشهر فقط، والتأثيرات طويلة الأجل والاستقرار تحتاج إلى التحقق
  4. تحليل فعالية التكلفة غير كافٍ: نقص التحليل التفصيلي لفعالية التكلفة وحساب العائد على الاستثمار

التأثير

  1. مرجع صنع السياسات: توفير مرجع مهم لاعتماد المؤسسات الحكومية لتقنيات الذكاء الاصطناعي
  2. قيمة الإرشادات العملية: توفير خبرة قيمة لنشر الذكاء الاصطناعي في سيناريوهات مماثلة
  3. التطبيق عبر المجالات: يمكن تعميم الطريقة على مجالات أخرى تتطلب معالجة مستندات على نطاق واسع

السيناريوهات القابلة للتطبيق

  1. المؤسسات الحكومية: عمليات الموافقة على الطلبات المختلفة واستعراض المستندات
  2. المؤسسات المالية: تطبيقات القروض واستعراض الامتثال
  3. المؤسسات التعليمية: فحص مواد الطلب والتقييم الأكاديمي
  4. المنظمات التجارية: استعراض المستندات الداخلية وتقييم الموردين

المراجع

تستشهد الورقة بمراجع مهمة متعددة، بما في ذلك:

  • بطاقة نظام OpenAI GPT-4o (2024)
  • وثائق قانون الذكاء الاصطناعي بالاتحاد الأوروبي
  • الأبحاث ذات الصلة بتطبيقات نماذج اللغة الكبيرة في مجالات مختلفة
  • أبحاث أفضل الممارسات في التعاون بين الإنسان والآلة ونشر الذكاء الاصطناعي المسؤول

التقييم الشامل: هذه ورقة بحثية تطبيقية ذات قيمة عملية مهمة. بينما يكون الابتكار التقني محدودًا نسبيًا، فإن تجاربها في النشر في العالم الحقيقي والتقييم الشامل للتأثير توفر مرجعًا قيمًا لتطبيق الذكاء الاصطناعي في القطاع العام. تجعل صراحة الورقة وعمليتها مساهمة مهمة في هذا المجال.