2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.
Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
academic

LLMs का उपयोग करके सार्वजनिक निधि आवेदनों की समीक्षा को सुव्यवस्थित करना

मूल जानकारी

  • पेपर ID: 2510.09674
  • शीर्षक: Leveraging LLMs to Streamline the Review of Public Funding Applications
  • लेखक: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
  • वर्गीकरण: cs.CY cs.AI
  • प्रकाशन तिथि: 8 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.09674

सारांश

प्रतिवर्ष, यूरोपीय संघ और इसके सदस्य राज्य विभिन्न विकास पहलों को वित्त पोषित करने के लिए लाखों यूरो निवेश करते हैं। हालांकि, इन परियोजनाओं को प्राप्त आवेदनों की संख्या लगातार बढ़ रही है, और सीमित मानव संसाधनों के कारण, मूल्यांकन प्रक्रिया में गंभीर बाधाएं उत्पन्न होती हैं। यह अनुसंधान दो सरकारी पहल पाइपलाइनों में AI-सहायक मूल्यांकन की तैनाती का विस्तार से वर्णन करता है: (i) अंतर्राष्ट्रीय व्यावसायिक विस्तार के लिए कॉर्पोरेट आवेदन, (ii) ऊर्जा-कुशल गृह सुधार निवेश के लिए नागरिकों की प्रतिपूर्ति आवेदन। यद्यपि ये दोनों परिस्थितियां विभिन्न मूल्यांकन प्रक्रियाओं से संबंधित हैं, अनुसंधान से पता चलता है कि AI ने दोनों आवेदन प्रकारों के कार्यभार को कम करते हुए प्रसंस्करण दक्षता में प्रभावी ढंग से सुधार किया है। विशेष रूप से, नागरिक प्रतिपूर्ति आवेदन पहल में, यह समाधान परीक्षण सेट के आधार पर नगण्य झूठी सकारात्मक दर बनाए रखते हुए समीक्षक उत्पादकता में 20.1% की वृद्धि करता है। ये सुधार कुल मूल्यांकन समय में 2 महीने से अधिक की कमी लाते हैं, जो बड़े पैमाने पर मूल्यांकन कार्यप्रवाह में AI-संचालित स्वचालन के प्रभाव को प्रदर्शित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की परिभाषा

यह अनुसंधान यूरोपीय संघ की सार्वजनिक निधि परियोजना मूल्यांकन में दक्षता की बाधाओं को संबोधित करने के लिए है। आवेदनों की संख्या में वृद्धि के साथ, पारंपरिक मानव मूल्यांकन विधि अब प्रसंस्करण आवश्यकताओं को पूरा नहीं कर सकती है, जिससे मूल्यांकन चक्र लंबा हो जाता है, आवेदक संतुष्टि में कमी आती है, और अंततः इन पहलों की दक्षता के प्रति जनता के विश्वास को प्रभावित करता है।

समस्या की महत्ता

सार्वजनिक निधि परियोजनाएं आर्थिक वृद्धि, सतत विकास और नवाचार को बढ़ावा देने के लिए महत्वपूर्ण उपकरण हैं। मूल्यांकन दक्षता में कमी न केवल निधि आवंटन की समयबद्धता को प्रभावित करती है, बल्कि गुणवत्तापूर्ण परियोजनाओं के अवसर खोने का कारण बन सकती है, जो समग्र नीति उद्देश्यों की प्राप्ति को प्रभावित करता है।

मौजूदा विधियों की सीमाएं

पारंपरिक दस्तावेज़ समीक्षा नियम-आधारित प्राकृतिक भाषा प्रसंस्करण और ऑप्टिकल वर्ण मान्यता तकनीकों पर निर्भर करती है। ये विधियां नियंत्रित वातावरण में अच्छा प्रदर्शन करती हैं, लेकिन दस्तावेज़ संरचना और सामग्री में परिवर्तन के प्रति अत्यधिक संवेदनशील हैं, रखरखाव में कठिन हैं और व्यापक अनुप्रयोगों तक विस्तारित करना मुश्किल है।

अनुसंधान प्रेरणा

बड़े भाषा मॉडल (LLMs) का आगमन स्वचालित दस्तावेज़ प्रसंस्करण के लिए अभूतपूर्व लचीलापन और अनुकूलनशीलता प्रदान करता है। यह अनुसंधान यह पता लगाने का उद्देश्य रखता है कि मानव पर्यवेक्षण सुनिश्चित करते हुए LLMs का उपयोग करके सार्वजनिक निधि आवेदन मूल्यांकन की दक्षता और सामंजस्य को कैसे बढ़ाया जाए।

मुख्य योगदान

  1. व्यावहारिक तैनाती अनुभव रिपोर्ट: दो AI-सहायक दस्तावेज़ मूल्यांकन प्रणालियों की सफल तैनाती की पहली रिपोर्ट, जो दर्शाती है कि स्वचालन मानव पर्यवेक्षण के तहत निर्णय अखंडता सुनिश्चित करते हुए आवेदन विश्लेषण को कैसे तेज करता है।
  2. व्यावहारिक प्रभाव सत्यापन: ReClaim पहल में 20.1% समीक्षक उत्पादकता वृद्धि प्राप्त की गई, कुल मूल्यांकन समय में 2 महीने से अधिक की कमी।
  3. सर्वोत्तम प्रथाओं का सारांश: वास्तविक दुनिया की तैनाती के अनुभव के आधार पर, समान वातावरण में AI मॉडल को एकीकृत करने के लिए सर्वोत्तम प्रथाएं और महत्वपूर्ण सीख प्रदान करता है।
  4. दोहरे परिदृश्य सत्यापन: दो विभिन्न प्रकार की सरकारी पहलों (कॉर्पोरेट अंतर्राष्ट्रीयकरण आवेदन और नागरिक ऊर्जा-कुशल सुधार प्रतिपूर्ति) के माध्यम से AI-सहायक मूल्यांकन की सार्वभौमिकता को सत्यापित करता है।

विधि विवरण

कार्य परिभाषा

अनुसंधान दो विभिन्न कार्यों से संबंधित है:

  1. IExp कार्य: कॉर्पोरेट अंतर्राष्ट्रीयकरण आवेदनों का व्यापक मूल्यांकन, जिसमें दस्तावेज़ सारांश निर्माण, आंतरिक सामंजस्य पहचान और प्रारंभिक स्कोरिंग शामिल है
  2. ReClaim कार्य: नागरिक ऊर्जा-कुशल सुधार प्रतिपूर्ति आवेदनों का दस्तावेज़ सत्यापन, मुख्य रूप से आवेदन जानकारी और सहायक दस्तावेज़ों के बीच सामंजस्य जांच

प्रणाली आर्किटेक्चर

IExp प्रणाली आर्किटेक्चर

  • इनपुट: औसतन 30,000 टोकन के कॉर्पोरेट आवेदन दस्तावेज़ (50 पृष्ठ से अधिक)
  • मुख्य मॉडल: GPT-4o
  • प्रसंस्करण प्रवाह:
    1. दस्तावेज़ विभाजन और फ़िल्टरिंग, LLM संदर्भ अधिभार से बचने के लिए
    2. मूल्यांकन टीम की विशेषज्ञता के आधार पर प्रत्येक कार्य के लिए महत्वपूर्ण क्षेत्रों की पहचान
    3. 6 सबसे समय लेने वाले मूल्यांकन कार्यों का स्वचालन
  • आउटपुट: आवेदन सारांश, सामंजस्य रिपोर्ट, प्रारंभिक स्कोरिंग और तर्क

ReClaim प्रणाली आर्किटेक्चर

  • इनपुट: लगभग 80,000 आवेदन, प्रत्येक में औसतन 11 सहायक दस्तावेज़
  • मिश्रित प्रसंस्करण पाइपलाइन:
    1. दस्तावेज़ मानकीकरण: केवल व्यापक रूप से उपयोग किए जाने वाले फ़ाइल प्रारूप समर्थित (PDF, ZIP, PNG आदि)
    2. XML रूपांतरण: उपयोगकर्ता फॉर्म फ़ील्ड को संरचित XML प्रारूप में परिवर्तित करना
    3. VLM जानकारी निष्कर्षण: गैर-संरचित सहायक दस्तावेज़ों को पार्स करने के लिए GPT-4o का उपयोग
    4. स्वचालित सामंजस्य जांच: निकाली गई जानकारी की तुलना आवेदक द्वारा रिपोर्ट किए गए मानों से
  • आउटपुट: पूर्व-भरी गई सत्यापन चेकलिस्ट, मानव जांच की आवश्यकता वाली वस्तुओं को चिह्नित करना

तकनीकी नवाचार बिंदु

  1. मानव-मशीन सहयोग डिजाइन: प्रणाली आउटपुट केवल सुझाव के रूप में कार्य करता है, यह सुनिश्चित करते हुए कि मानव समीक्षक हमेशा पर्यवेक्षण और जवाबदेही शक्ति बनाए रखते हैं
  2. कार्य-विशिष्ट अनुकूलन: विभिन्न प्रकार के मूल्यांकन कार्यों के लिए अनुकूलित समाधान अपनाना
  3. लागत-लाभ संतुलन: लक्षित इनपुट और कार्य प्राथमिकता के माध्यम से लागत नियंत्रण प्राप्त करना
  4. GDPR अनुपालन: डेटा प्रसंस्करण पूरी तरह से EU सीमाओं के भीतर किया जाता है, एन्क्रिप्टेड स्थानीय डिस्क पर संग्रहीत

प्रयोगात्मक सेटअप

डेटासेट

  1. IExp डेटासेट:
    • अवधारणा प्रमाण: पिछली कॉल से 50 आवेदन
    • वर्तमान मूल्यांकन: AI उपकरण समर्थन के साथ 11 आवेदन
    • गतिविधि वर्गीकरण: पिछले 764 आवेदन
  2. ReClaim डेटासेट:
    • कुल आवेदन: लगभग 80,000
    • परीक्षण सेट: 200 नमूने, सभी प्रकारों में समान रूप से वितरित
    • कुल दस्तावेज़: लगभग 880,000 दस्तावेज़

मूल्यांकन मेट्रिक्स

  1. IExp मेट्रिक्स:
    • सारांश संरेखण: कोसाइन समानता, ROUGE-L, BLEU, METEOR
    • गतिविधि वर्गीकरण सामंजस्य: समीक्षक और LLM के बीच सामंजस्य स्तर
  2. ReClaim मेट्रिक्स:
    • उत्पादकता वृद्धि: प्रसंस्करण समय में कमी का प्रतिशत
    • स्वचालित सत्यापन दर: मानव सत्यापन की आवश्यकता न होने वाले क्षेत्रों का अनुपात
    • सटीकता: सही, मामूली त्रुटि, झूठी सकारात्मक, झूठी नकारात्मक, पढ़ने की त्रुटि का अनुपात

तुलनात्मक विधियां

  • मॉडल चयन: GPT-4o बनाम Gemini-1.5 Pro की अंधी परीक्षा तुलना
  • प्रसंस्करण विधि: AI-सहायक बनाम शुद्ध मानव प्रसंस्करण के प्रभाव की तुलना

प्रयोगात्मक परिणाम

मुख्य परिणाम

IExp प्रणाली परिणाम

  1. सारांश संरेखण में महत्वपूर्ण सुधार:
    • कोसाइन समानता 0.77 से 0.99 तक बढ़ी
    • ROUGE-L, BLEU और METEOR मेट्रिक्स सभी 0.35 से नीचे से 0.9 से ऊपर तक बढ़े
  2. गतिविधि वर्गीकरण सामंजस्य:
    • LLM और समीक्षक के बीच सामंजस्य लगभग 70%
    • LLM और उम्मीदवार के बीच सामंजस्य अधिक

ReClaim प्रणाली परिणाम

  1. उत्पादकता वृद्धि: समीक्षक उत्पादकता में लगभग 20% की वृद्धि
  2. स्वचालित सत्यापन प्रभाव:
    • कुल स्वचालित सत्यापन दर: 76%
    • विभिन्न भागों की सत्यापन दर: योग्यता जांच 84%, सार्वजनिक कोर 76%, प्रकार जांच 67%
  3. सटीकता विश्लेषण:
    • सही दर: 88%
    • मामूली त्रुटि: 5%
    • झूठी सकारात्मक: 0%
    • झूठी नकारात्मक: 3%
    • पढ़ने की त्रुटि: 4%

प्रणाली प्रभाव विश्लेषण

AI प्रणाली तैनाती के बाद सकारात्मक प्रभाव:

  • स्पष्टीकरण अनुरोध/आवेदन: 2.13 से 2.05 तक गिरा
  • आवेदक अपील दर: 25.8% से 20.4% तक गिरी

उपयोगकर्ता प्रतिक्रिया

  1. IExp कार्य: मूल्यांकनकर्ताओं का अनुमान है कि AI सहायता समीक्षा प्रक्रिया को 30% तक तेज कर सकती है
  2. ReClaim कार्य: प्रतिक्रिया ध्रुवीकृत है
    • विकास में भाग लेने वाले समीक्षकों ने मजबूत सराहना व्यक्त की
    • अनुभवी समीक्षकों का अनुमान है कि समय बचत 40% तक हो सकती है
    • कुछ समीक्षकों ने त्रुटियों का सामना करने के बाद आत्मविश्वास खो दिया

संबंधित कार्य

पारंपरिक दस्तावेज़ प्रसंस्करण विधियां

पारंपरिक स्वचालित दस्तावेज़ समीक्षा नियम-आधारित NLP और OCR तकनीकों पर निर्भर करती है, नियंत्रित वातावरण में अच्छा प्रदर्शन करती है, लेकिन दस्तावेज़ संरचना परिवर्तन के प्रति संवेदनशील है, रखरखाव कठिन है।

LLM-संचालित दस्तावेज़ प्रसंस्करण

  • कानूनी क्षेत्र: LLM उपकरण विभिन्न कानूनी पाठों की तेजी से समीक्षा और निष्कर्षण कर सकते हैं
  • मानव संसाधन: मूल कीवर्ड विश्लेषण से जटिल उम्मीदवार-भूमिका मिलान तक विकास
  • सार्वजनिक प्रबंधन: पारंपरिक मशीन लर्निंग समाधान से जनरेटिव AI और LLM एकीकरण की ओर परिवर्तन

मानव-मशीन सहयोग प्रवृत्तियां

पूर्वाग्रह, पारदर्शिता की कमी या अनुपर्यवेक्षित स्वचालन पर अत्यधिक निर्भरता के कारण विफलता के मामलों के कारण, अधिकांश संगठन अब महत्वपूर्ण निर्णय बिंदुओं पर स्पष्ट मानव-मशीन सहयोग समीक्षा को एम्बेड करते हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तकनीकी व्यवहार्यता: LLMs आवेदन समीक्षा प्रक्रिया को महत्वपूर्ण रूप से समर्थन करने के लिए पर्याप्त परिपक्व हैं
  2. दक्षता में वृद्धि महत्वपूर्ण है: उपयुक्त एकीकृत मानव-मशीन सहयोग पाइपलाइन में, LLMs मूल्यांकन कार्यप्रवाह को काफी तेज कर सकते हैं
  3. सामंजस्य में सुधार: AI सहायता समीक्षक आउटपुट की एकरूपता में सुधार करने में सहायक है

मुख्य सीख

संगठनात्मक और नियामक बाधाएं

  • नौकरशाही अक्सर देरी और समाधान की गुणवत्ता में कमी का मुख्य कारण है
  • तीसरे पक्ष के प्लेटफॉर्म स्वामित्व प्रणाली संशोधन क्षमता को सीमित करता है
  • कठोर GDPR आवश्यकताएं व्यवहार्य मॉडल की सीमा को कम करती हैं
  • जटिल बहु-चरण प्राधिकरण कार्यप्रवाह डेटा पहुंच में देरी करता है

ध्रुवीकृत अपनाने का पैटर्न

  • समीक्षक अक्सर दो समूहों में विभाजित होते हैं: जो उपकरण का उपयोग करने और इसके लाभों पर ध्यान केंद्रित करने के इच्छुक हैं, और जो सिस्टम त्रुटि के समय बहुत सावधान या आलोचनात्मक हो जाते हैं
  • प्रभावी परिवर्तन प्रबंधन सफल कार्यान्वयन के लिए महत्वपूर्ण है

उच्च व्यावहारिक अनुप्रयोग संभावना

  • बड़े पैमाने पर तैनाती की गति मानव मूल्यांकन से बहुत अधिक है
  • ReClaim प्रणाली ने तीन सप्ताह से कम में लगभग 80,000 आवेदनों को संसाधित किया
  • मॉडल में निरंतर सुधार के साथ, पूर्ण स्वचालित मूल्यांकन तेजी से व्यवहार्य हो रहा है

सीमाएं

  1. IExp प्रणाली: पिछले आवेदनों या बाहरी डेटाबेस तक पहुंच न होने से सीमित
  2. ReClaim प्रणाली: दस्तावेज़ प्रारूप असंगति और निम्न-गुणवत्ता फ़ाइल जमा करने की चुनौतियों का सामना
  3. लागू सीमा: लगभग 10% दस्तावेज़ असमर्थित प्रारूप के कारण स्वचालित पार्सिंग से बाहर रखे गए

गहन मूल्यांकन

शक्तियां

  1. व्यावहारिक तैनाती मूल्य: यह वास्तविक दुनिया की LLM तैनाती अनुभव की रिपोर्ट करने वाले कुछ अनुसंधानों में से एक है, जिसमें महत्वपूर्ण व्यावहारिक मार्गदर्शन मूल्य है
  2. व्यापक मूल्यांकन प्रणाली: तकनीकी मेट्रिक्स से उपयोगकर्ता प्रतिक्रिया तक, दक्षता वृद्धि से प्रणाली प्रभाव तक, मूल्यांकन आयाम व्यापक है
  3. दोहरे परिदृश्य सत्यापन: दो विभिन्न प्रकार के अनुप्रयोग परिदृश्यों के माध्यम से विधि की सार्वभौमिकता को सत्यापित करता है
  4. ईमानदार अनुभव साझाकरण: तैनाती में सामना की गई चुनौतियों और विफलता के अनुभवों की वस्तुनिष्ठ रिपोर्ट

कमियां

  1. सीमित तकनीकी नवाचार: मुख्य रूप से मौजूदा LLM तकनीक का अनुप्रयोग, एल्गोरिथ्म स्तर पर नवाचार की कमी
  2. सीमित मूल्यांकन पैमाना: परीक्षण सेट का आकार अपेक्षाकृत छोटा है, विशेष रूप से IExp कार्य के 11 नमूने
  3. दीर्घकालीन प्रभाव अज्ञात: तैनाती का समय केवल 3 महीने है, दीर्घकालीन प्रभाव और स्थिरता सत्यापन की प्रतीक्षा में है
  4. अपर्याप्त लागत-लाभ विश्लेषण: विस्तृत लागत-लाभ विश्लेषण और ROI गणना की कमी

प्रभाव

  1. नीति निर्माण संदर्भ: सरकारी विभागों द्वारा AI तकनीक को अपनाने के लिए महत्वपूर्ण संदर्भ प्रदान करता है
  2. व्यावहारिक मार्गदर्शन मूल्य: समान परिदृश्यों में AI तैनाती के लिए मूल्यवान अनुभव प्रदान करता है
  3. क्रॉस-डोमेन अनुप्रयोग: विधि अन्य क्षेत्रों में लागू की जा सकती है जहां बड़े पैमाने पर दस्तावेज़ प्रसंस्करण की आवश्यकता है

लागू परिदृश्य

  1. सरकारी संस्थाएं: विभिन्न प्रकार के आवेदन अनुमोदन, दस्तावेज़ समीक्षा प्रक्रिया
  2. वित्तीय संस्थाएं: ऋण आवेदन, अनुपालन समीक्षा
  3. शैक्षणिक संस्थाएं: आवेदन सामग्री समीक्षा, शैक्षणिक मूल्यांकन
  4. कॉर्पोरेट संगठन: आंतरिक दस्तावेज़ समीक्षा, आपूर्तिकर्ता मूल्यांकन

संदर्भ

पेपर कई महत्वपूर्ण संदर्भों का हवाला देता है, जिनमें शामिल हैं:

  • OpenAI GPT-4o सिस्टम कार्ड (2024)
  • यूरोपीय संघ कृत्रिम बुद्धिमत्ता अधिनियम संबंधित दस्तावेज़
  • विभिन्न क्षेत्रों में LLM अनुप्रयोग संबंधित अनुसंधान
  • मानव-मशीन सहयोग और जिम्मेदार AI तैनाती के सर्वोत्तम प्रथाओं पर अनुसंधान

समग्र मूल्यांकन: यह महत्वपूर्ण व्यावहारिक मूल्य वाला एक अनुप्रयोग अनुसंधान पेपर है। यद्यपि तकनीकी नवाचार के संदर्भ में अपेक्षाकृत सीमित है, इसके वास्तविक दुनिया की तैनाती का अनुभव और व्यापक प्रभाव मूल्यांकन सार्वजनिक क्षेत्र में AI के अनुप्रयोग के लिए मूल्यवान संदर्भ प्रदान करता है। पेपर की ईमानदारी और व्यावहारिकता इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाती है।