This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.
- पेपर ID: 2510.20610
- शीर्षक: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
- लेखक: Ali Zain, Sareem Farooqui, Muhammad Rafi (National University of Computer and Emerging Sciences, FAST, Karachi, Pakistan)
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI (कृत्रिम बुद्धिमत्ता)
- प्रकाशन समय: 25 अक्टूबर 2025 (arXiv संस्करण)
- पेपर लिंक: https://arxiv.org/abs/2510.20610v2
यह पेपर AraGenEval अरबी AI-जनित पाठ पहचान साझा कार्य में BUSTED टीम की प्रस्तुति का विस्तृत विवरण प्रदान करता है, जहां टीम को 5वां स्थान प्राप्त हुआ। शोधकर्ताओं ने तीन पूर्व-प्रशिक्षित Transformer मॉडल की प्रभावशीलता की तुलना की: AraELECTRA, CAMeLBERT और XLM-RoBERTa। पद्धति में द्विआधारी वर्गीकरण कार्य को पूरा करने के लिए प्रदान किए गए डेटासेट पर प्रत्येक मॉडल को सूक्ष्म-समायोजित करना शामिल है। शोधकर्ताओं को एक आश्चर्यजनक परिणाम मिला: बहुभाषी XLM-RoBERTa मॉडल ने 0.7701 की F1 स्कोर के साथ सर्वोच्च प्रदर्शन प्राप्त किया, जो विशेष अरबी मॉडल को पार कर गया। यह कार्य AI-जनित पाठ पहचान की जटिलता पर जोर देता है और बहुभाषी मॉडल की शक्तिशाली सामान्यीकरण क्षमता को उजागर करता है।
बड़े भाषा मॉडल (LLMs) की बढ़ती परिपक्वता के साथ, मानव-लिखित पाठ और मशीन-जनित पाठ के बीच की सीमा धुंधली हो गई है। यह वास्तविकता गलत सूचना के प्रसार को तेज करने से लेकर शैक्षणिक सत्यनिष्ठा को नुकसान पहुंचाने तक महत्वपूर्ण सामाजिक जोखिम लाती है। इसलिए, विश्वसनीय AI-जनित पाठ डिटेक्टर विकसित करना एक तत्काल अनुसंधान प्राथमिकता बन गई है।
- सामाजिक प्रभाव: AI-जनित पाठ का दुरुपयोग गलत सूचना प्रसार और शैक्षणिक कदाचार का कारण बन सकता है
- तकनीकी चुनौती: आधुनिक LLMs द्वारा उत्पन्न पाठ अत्यधिक प्रवाहपूर्ण है, पारंपरिक पहचान विधियां सीमित प्रभावी हैं
- भाषा विशिष्टता: अरबी एक अपेक्षाकृत संसाधन-सीमित भाषा है, AI पाठ पहचान क्षेत्र में उपकरण अभी भी विकास में हैं
- पारंपरिक विधियां अपर्याप्त: प्रारंभिक सांख्यिकीय शैलीविज्ञान-आधारित विधियां (जैसे n-gram आवृत्ति, पठनीयता स्कोर, वाक्य रचना संरचना) आधुनिक LLMs के प्रवाहपूर्ण पाठ पहचान में खराब प्रदर्शन करती हैं
- भाषा संसाधनों की कमी: अरबी AI पाठ पहचान उपकरण अन्य भाषाओं की तुलना में विकास में पिछड़े हैं
- मॉडल चयन अस्पष्ट: अरबी AI पाठ पहचान कार्य पर विभिन्न Transformer आर्किटेक्चर की व्यवस्थित तुलना की कमी
- मॉडल तुलना अध्ययन: अरबी पाठ पहचान कार्य पर एकभाषी और बहुभाषी मॉडल की प्रत्यक्ष तुलना प्रदान करता है
- प्रतिकूल अंतर्दृष्टि: साबित करता है कि बहुभाषी मॉडल विशेष भाषा मॉडल से बेहतर प्रदर्शन कर सकते हैं
- पूर्वप्रसंस्करण प्रभाव विश्लेषण: विश्लेषण करता है कि पाठ सामान्यीकरण जैसी पूर्वप्रसंस्करण पसंद मॉडल प्रदर्शन को कैसे नुकसान पहुंचा सकती है
- व्यावहारिक सत्यापन: AraGenEval साझा कार्य में 5वां स्थान प्राप्त करके विधि की प्रभावशीलता को सत्यापित करता है
- इनपुट: अरबी पाठ स्ट्रिंग का एक खंड
- आउटपुट: द्विआधारी लेबल ('human' या 'machine')
- कार्य प्रकार: द्विआधारी पाठ वर्गीकरण समस्या
शोधकर्ताओं ने तीन विभिन्न पूर्व-प्रशिक्षित मॉडल पर आधारित सिस्टम लागू किए:
- मॉडल: aubmindlab/araelectra-base-discriminator
- विशेषता: विशेष अरबी ELECTRA मॉडल
- पूर्वप्रसंस्करण: आक्रामक अरबी पाठ सामान्यीकरण लागू करता है
- विभिन्न अरबी वर्णों को सामान्य alef में सामान्यीकृत करता है
- ta marbuta को ha में परिवर्तित करता है
- सभी अरबी डायक्रिटिक्स और गैर-अल्फान्यूमेरिक वर्ण हटाता है
- मॉडल: CAMeL-Lab/bert-base-arabic-camelbert-mix
- विशेषता: व्यापक रूप से उपयोग किया जाने वाला अरबी BERT मॉडल
- पूर्वप्रसंस्करण: विशिष्ट पाठ सामान्यीकरण लागू नहीं करता, पूरी तरह मॉडल के पूर्व-प्रशिक्षित टोकनाइजर पर निर्भर करता है
- मॉडल: xlm-roberta-base
- विशेषता: बड़ा बहुभाषी मॉडल
- पूर्वप्रसंस्करण: CAMeLBERT सेटिंग के समान, भाषा-विशिष्ट सामान्यीकरण निष्पादित नहीं करता
- व्यवस्थित तुलना: अरबी AI पाठ पहचान कार्य पर एकभाषी बनाम बहुभाषी मॉडल की पहली व्यवस्थित तुलना
- पूर्वप्रसंस्करण रणनीति विभेदीकरण: विभिन्न पूर्वप्रसंस्करण रणनीतियों के माध्यम से मॉडल प्रदर्शन पर इसके प्रभाव की खोज करता है
- डेटा-संचालित विश्लेषण: डेटासेट विशेषताओं के आधार पर विश्लेषण मॉडल चयन और अनुकूलन को निर्देशित करता है
- डेटासेट: AraGenEval डेटासेट
- आकार: सफाई के बाद 4,734 प्रशिक्षण नमूने शामिल हैं
- वर्ग वितरण: लगभग संतुलित
- मशीन-जनित: 2,399 नमूने (50.68%)
- मानव-लिखित: 2,335 नमूने (49.32%)
- पाठ लंबाई में महत्वपूर्ण अंतर:
- मानव-लिखित पाठ की औसत लंबाई: 4,059.13 वर्ण
- मशीन-जनित पाठ की औसत लंबाई: 1,934.53 वर्ण
- शब्दावली और N-gram अंतर:
- मानव पाठ: अक्सर "Gaza", "the war", "Israel" जैसी समसामयिक शब्दावली शामिल करता है
- मशीन पाठ: अधिक सामान्य औपचारिक शब्दावली का उपयोग करता है, जैसे "can be", "in a way"
- AraELECTRA & CAMeLBERT: प्रशिक्षण और विकास चरण मूल्यांकन के लिए सभी 4,734 प्रशिक्षण नमूनों का उपयोग करता है
- XLM-RoBERTa: प्रशिक्षण डेटा को 80/20 में विभाजित करता है
- प्रशिक्षण सेट: 3,787 नमूने
- सत्यापन सेट: 947 नमूने
- लेबल वितरण बनाए रखने के लिए स्तरीकृत नमूनाकरण का उपयोग करता है
- मुख्य मेट्रिक: मैक्रो-औसत F1 स्कोर
- सहायक मेट्रिक्स: सटीकता, परिशुद्धता, रिकॉल, विशिष्टता, संतुलित सटीकता
| हाइपरपैरामीटर | मान |
|---|
| सीखने की दर | 2e-5 |
| बैच आकार | 4 |
| ऑप्टिमाइज़र | AdamW |
| वजन क्षय | 0.01 |
| अधिकतम अनुक्रम लंबाई | 512 |
| प्रशिक्षण एपोक (AraELECTRA) | 4 |
| प्रशिक्षण एपोक (CAMeLBERT) | 4 |
| प्रशिक्षण एपोक (XLM-RoBERTa) | 5 |
| मॉडल | F1-Score | सटीकता | परिशुद्धता | रिकॉल | विशिष्टता | संतुलित सटीकता |
|---|
| XLM-RoBERTa | 0.7701 | 0.760 | 0.7390 | 0.804 | 0.716 | 0.760 |
| CAMeLBERT | 0.7290 | 0.710 | 0.6842 | 0.780 | 0.640 | 0.710 |
| AraELECTRA | 0.6180 | 0.550 | 0.5369 | 0.728 | 0.372 | 0.550 |
- बहुभाषी मॉडल का लाभ: XLM-RoBERTa सभी मेट्रिक्स पर सर्वोत्तम प्रदर्शन प्राप्त करता है, विशेष अरबी मॉडल को महत्वपूर्ण रूप से पार करता है
- पूर्वप्रसंस्करण रणनीति प्रभाव: AraELECTRA की आक्रामक पाठ सामान्यीकरण रणनीति प्रतिकूल हो सकती है
- प्रदर्शन क्रम: XLM-RoBERTa > CAMeLBERT > AraELECTRA
- विविध पूर्व-प्रशिक्षण कॉर्पस: 100 भाषाओं पर व्यापक पूर्व-प्रशिक्षण इसे अधिक मजबूत सामान्यीकरण विशेषता निष्कर्षण क्षमता प्रदान कर सकता है
- शैली संवेदनशीलता: मानव पाठ (समाचार-केंद्रित) और मशीन पाठ (औपचारिक विश्लेषणात्मक) के बीच शैली अंतर को बेहतर ढंग से पकड़ता है
- अत्यधिक सामान्यीकरण: आक्रामक पाठ सामान्यीकरण और डायक्रिटिक्स हटाने से महत्वपूर्ण सूक्ष्म संकेत हटाए जा सकते हैं
- सूचना हानि: शब्दावली शैली विकल्प, विशिष्ट नामित इकाइयां जैसी महत्वपूर्ण विभेदकारी विशेषताएं हटाई गई हैं
- परिशुद्धता बनाम रिकॉल: सभी मॉडल की परिशुद्धता रिकॉल से कम है, जो मानव पाठ को मशीन-जनित के रूप में गलत वर्गीकृत करने की प्रवृत्ति दर्शाता है
- संभावित कारण: डोमेन बेमेल या मानव-लिखित सूत्रबद्ध पाठ AI-जनित पैटर्न के समान हो सकता है
- प्रारंभिक विधियां: सांख्यिकीय शैलीविज्ञान-आधारित लेखक विशेषण और मशीन पाठ पहचान
- विशेषता: n-gram आवृत्ति, पठनीयता स्कोर, वाक्य रचना संरचना
- सीमा: आधुनिक LLMs पर सीमित प्रभाव
- तंत्रिका नेटवर्क विधियां: वर्तमान अनुसंधान मुख्यधारा
- सूक्ष्म-समायोजित पूर्व-प्रशिक्षित Transformers (जैसे BERT)
- LLMs उत्पन्न प्रक्रिया के सांख्यिकीय कलाकृतियों का पहचान
- पाठ उत्पादन प्रक्रिया में "जलचिह्न" एम्बेड करना
- सूक्ष्म-समायोजन प्रतिमान का पालन करता है
- व्यापक तुलना अध्ययन से प्रेरित (जैसे Al-Shboul et al., 2024)
- संसाधन-सीमित अरबी भाषा AI पाठ पहचान क्षेत्र पर केंद्रित
- बहुभाषी मॉडल का अप्रत्याशित लाभ: XLM-RoBERTa अरबी AI पाठ पहचान कार्य पर विशेष अरबी मॉडल को पार करता है
- पूर्वप्रसंस्करण की दोहरी-धार प्रभाव: अत्यधिक पाठ सामान्यीकरण मॉडल प्रदर्शन को नुकसान पहुंचा सकता है
- डेटा विशेषता का महत्व: पाठ लंबाई और शब्दावली चयन मानव और मशीन पाठ को अलग करने की मुख्य विशेषताएं हैं
- AraELECTRA खराब प्रदर्शन: मुख्य रूप से पूर्वप्रसंस्करण रणनीति चयन के कारण
- त्रुटि विश्लेषण अपर्याप्त: विस्तृत गुणात्मक त्रुटि विश्लेषण की कमी
- एकल डेटासेट सत्यापन: केवल AraGenEval डेटासेट पर सत्यापित
- पूर्वप्रसंस्करण अनुकूलन: कम आक्रामक पाठ सामान्यीकरण विधियों की खोज करता है
- मॉडल एकीकरण: मॉडल एकीकरण तकनीकों का प्रयोग करता है
- गहन त्रुटि विश्लेषण: कार्य की विफलता पैटर्न को बेहतर ढंग से समझता है
- क्रॉस-डोमेन सामान्यीकरण: कई अरबी डेटासेट पर विधि को सत्यापित करता है
- व्यवस्थित तुलना: विभिन्न प्रकार के Transformer मॉडल की व्यापक तुलना प्रदान करता है
- प्रतिकूल अंतर्दृष्टि: बहुभाषी मॉडल विशेष भाषा मॉडल से बेहतर होने की खोज महत्वपूर्ण है
- व्यावहारिक मूल्य: वास्तविक प्रतियोगिता में अच्छे परिणाम प्राप्त करके विधि की प्रभावशीलता को सत्यापित करता है
- पर्याप्त डेटा विश्लेषण: डेटासेट विशेषताओं का गहन विश्लेषण, मॉडल चयन के लिए आधार प्रदान करता है
- उचित प्रयोगात्मक डिजाइन: हाइपरपैरामीटर सेटिंग और मूल्यांकन मेट्रिक्स चयन उचित है
- पूर्वप्रसंस्करण रणनीति असंगत: तीन मॉडल विभिन्न पूर्वप्रसंस्करण रणनीति का उपयोग करते हैं, तुलना की निष्पक्षता को प्रभावित करता है
- डेटा विभाजन असंगत: विभिन्न मॉडल विभिन्न डेटा विभाजन रणनीति का उपयोग करते हैं
- त्रुटि विश्लेषण अनुपस्थित: मॉडल विफलता मामलों का गहन विश्लेषण की कमी
- अपर्याप्त ablation प्रयोग: प्रत्येक घटक के योगदान को पूरी तरह सत्यापित नहीं किया गया
- सीमित सामान्यीकरण सत्यापन: केवल एकल डेटासेट पर सत्यापित
- शैक्षणिक योगदान: अरबी AI पाठ पहचान क्षेत्र के लिए महत्वपूर्ण बेंचमार्क प्रदान करता है
- व्यावहारिक मार्गदर्शन: समान कार्य के मॉडल चयन के लिए संदर्भ प्रदान करता है
- पद्धति मूल्य: व्यवस्थित तुलना विधि अन्य भाषाओं और कार्यों पर लागू की जा सकती है
- पुनरुत्पादनशीलता: विस्तृत प्रयोगात्मक सेटअप प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है
- अरबी सामग्री संयम: सोशल मीडिया और समाचार प्लेटफॉर्म की AI पाठ पहचान
- शैक्षणिक सत्यनिष्ठा जांच: शैक्षणिक संस्थान के असाइनमेंट और पेपर मौलिकता सत्यापन
- बहुभाषी वातावरण: कई भाषाओं की AI पाठ पहचान को संभालने की आवश्यकता वाले परिदृश्य
- संसाधन-सीमित वातावरण: अन्य संसाधन-सीमित भाषाओं की AI पाठ पहचान के लिए विधि संदर्भ प्रदान करता है
यह पेपर कई महत्वपूर्ण संबंधित कार्यों को उद्धृत करता है, जिनमें शामिल हैं:
- Transformer आर्किटेक्चर मूल पेपर (Vaswani et al., 2017)
- BERT मॉडल (Devlin et al., 2019)
- ELECTRA मॉडल (Clark et al., 2020)
- XLM-RoBERTa मॉडल (Conneau et al., 2020)
- अरबी विशेष मॉडल: AraELECTRA (Antoun et al., 2021) और CAMeLBERT (Inoue et al., 2021)
- अरबी पाठ वर्गीकरण सर्वेक्षण (Al-Shboul et al., 2024)
समग्र मूल्यांकन: यह एक ठोस अनुभवजन्य अनुसंधान पेपर है जो व्यवस्थित तुलना के माध्यम से अरबी AI पाठ पहचान कार्य पर बहुभाषी मॉडल के अप्रत्याशित लाभ को प्रकट करता है। हालांकि कुछ पद्धति संबंधी कमियां हैं, लेकिन इसकी खोज इस क्षेत्र के लिए महत्वपूर्ण मूल्य रखती है और भविष्य के अनुसंधान के लिए उपयोगी दिशा निर्देश प्रदान करती है।