2025-11-11T13:22:08.595769

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

Zain, Farooqui, Rafi

This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.

academic

BUSTED at AraGenEval Shared Task: अरबी AI-जनित पाठ पहचान के लिए Transformer-आधारित मॉडल का तुलनात्मक अध्ययन

मूल जानकारी

पेपर ID: 2510.20610
शीर्षक: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
लेखक: Ali Zain, Sareem Farooqui, Muhammad Rafi (National University of Computer and Emerging Sciences, FAST, Karachi, Pakistan)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI (कृत्रिम बुद्धिमत्ता)
प्रकाशन समय: 25 अक्टूबर 2025 (arXiv संस्करण)
पेपर लिंक: https://arxiv.org/abs/2510.20610v2

सारांश

यह पेपर AraGenEval अरबी AI-जनित पाठ पहचान साझा कार्य में BUSTED टीम की प्रस्तुति का विस्तृत विवरण प्रदान करता है, जहां टीम को 5वां स्थान प्राप्त हुआ। शोधकर्ताओं ने तीन पूर्व-प्रशिक्षित Transformer मॉडल की प्रभावशीलता की तुलना की: AraELECTRA, CAMeLBERT और XLM-RoBERTa। पद्धति में द्विआधारी वर्गीकरण कार्य को पूरा करने के लिए प्रदान किए गए डेटासेट पर प्रत्येक मॉडल को सूक्ष्म-समायोजित करना शामिल है। शोधकर्ताओं को एक आश्चर्यजनक परिणाम मिला: बहुभाषी XLM-RoBERTa मॉडल ने 0.7701 की F1 स्कोर के साथ सर्वोच्च प्रदर्शन प्राप्त किया, जो विशेष अरबी मॉडल को पार कर गया। यह कार्य AI-जनित पाठ पहचान की जटिलता पर जोर देता है और बहुभाषी मॉडल की शक्तिशाली सामान्यीकरण क्षमता को उजागर करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बड़े भाषा मॉडल (LLMs) की बढ़ती परिपक्वता के साथ, मानव-लिखित पाठ और मशीन-जनित पाठ के बीच की सीमा धुंधली हो गई है। यह वास्तविकता गलत सूचना के प्रसार को तेज करने से लेकर शैक्षणिक सत्यनिष्ठा को नुकसान पहुंचाने तक महत्वपूर्ण सामाजिक जोखिम लाती है। इसलिए, विश्वसनीय AI-जनित पाठ डिटेक्टर विकसित करना एक तत्काल अनुसंधान प्राथमिकता बन गई है।

अनुसंधान का महत्व

सामाजिक प्रभाव: AI-जनित पाठ का दुरुपयोग गलत सूचना प्रसार और शैक्षणिक कदाचार का कारण बन सकता है
तकनीकी चुनौती: आधुनिक LLMs द्वारा उत्पन्न पाठ अत्यधिक प्रवाहपूर्ण है, पारंपरिक पहचान विधियां सीमित प्रभावी हैं
भाषा विशिष्टता: अरबी एक अपेक्षाकृत संसाधन-सीमित भाषा है, AI पाठ पहचान क्षेत्र में उपकरण अभी भी विकास में हैं

मौजूदा पद्धतियों की सीमाएं

पारंपरिक विधियां अपर्याप्त: प्रारंभिक सांख्यिकीय शैलीविज्ञान-आधारित विधियां (जैसे n-gram आवृत्ति, पठनीयता स्कोर, वाक्य रचना संरचना) आधुनिक LLMs के प्रवाहपूर्ण पाठ पहचान में खराब प्रदर्शन करती हैं
भाषा संसाधनों की कमी: अरबी AI पाठ पहचान उपकरण अन्य भाषाओं की तुलना में विकास में पिछड़े हैं
मॉडल चयन अस्पष्ट: अरबी AI पाठ पहचान कार्य पर विभिन्न Transformer आर्किटेक्चर की व्यवस्थित तुलना की कमी

मुख्य योगदान

मॉडल तुलना अध्ययन: अरबी पाठ पहचान कार्य पर एकभाषी और बहुभाषी मॉडल की प्रत्यक्ष तुलना प्रदान करता है
प्रतिकूल अंतर्दृष्टि: साबित करता है कि बहुभाषी मॉडल विशेष भाषा मॉडल से बेहतर प्रदर्शन कर सकते हैं
पूर्वप्रसंस्करण प्रभाव विश्लेषण: विश्लेषण करता है कि पाठ सामान्यीकरण जैसी पूर्वप्रसंस्करण पसंद मॉडल प्रदर्शन को कैसे नुकसान पहुंचा सकती है
व्यावहारिक सत्यापन: AraGenEval साझा कार्य में 5वां स्थान प्राप्त करके विधि की प्रभावशीलता को सत्यापित करता है

विधि विवरण

कार्य परिभाषा

इनपुट: अरबी पाठ स्ट्रिंग का एक खंड
आउटपुट: द्विआधारी लेबल ('human' या 'machine')
कार्य प्रकार: द्विआधारी पाठ वर्गीकरण समस्या

मॉडल आर्किटेक्चर

शोधकर्ताओं ने तीन विभिन्न पूर्व-प्रशिक्षित मॉडल पर आधारित सिस्टम लागू किए:

System 1: AraELECTRA

मॉडल: aubmindlab/araelectra-base-discriminator
विशेषता: विशेष अरबी ELECTRA मॉडल
पूर्वप्रसंस्करण: आक्रामक अरबी पाठ सामान्यीकरण लागू करता है
- विभिन्न अरबी वर्णों को सामान्य alef में सामान्यीकृत करता है
- ta marbuta को ha में परिवर्तित करता है
- सभी अरबी डायक्रिटिक्स और गैर-अल्फान्यूमेरिक वर्ण हटाता है

System 2: CAMeLBERT

मॉडल: CAMeL-Lab/bert-base-arabic-camelbert-mix
विशेषता: व्यापक रूप से उपयोग किया जाने वाला अरबी BERT मॉडल
पूर्वप्रसंस्करण: विशिष्ट पाठ सामान्यीकरण लागू नहीं करता, पूरी तरह मॉडल के पूर्व-प्रशिक्षित टोकनाइजर पर निर्भर करता है

System 3: XLM-RoBERTa

मॉडल: xlm-roberta-base
विशेषता: बड़ा बहुभाषी मॉडल
पूर्वप्रसंस्करण: CAMeLBERT सेटिंग के समान, भाषा-विशिष्ट सामान्यीकरण निष्पादित नहीं करता

तकनीकी नवाचार

व्यवस्थित तुलना: अरबी AI पाठ पहचान कार्य पर एकभाषी बनाम बहुभाषी मॉडल की पहली व्यवस्थित तुलना
पूर्वप्रसंस्करण रणनीति विभेदीकरण: विभिन्न पूर्वप्रसंस्करण रणनीतियों के माध्यम से मॉडल प्रदर्शन पर इसके प्रभाव की खोज करता है
डेटा-संचालित विश्लेषण: डेटासेट विशेषताओं के आधार पर विश्लेषण मॉडल चयन और अनुकूलन को निर्देशित करता है

प्रयोगात्मक सेटअप

डेटासेट

डेटासेट: AraGenEval डेटासेट
आकार: सफाई के बाद 4,734 प्रशिक्षण नमूने शामिल हैं
वर्ग वितरण: लगभग संतुलित
- मशीन-जनित: 2,399 नमूने (50.68%)
- मानव-लिखित: 2,335 नमूने (49.32%)

डेटा विशेषता विश्लेषण

पाठ लंबाई में महत्वपूर्ण अंतर:
- मानव-लिखित पाठ की औसत लंबाई: 4,059.13 वर्ण
- मशीन-जनित पाठ की औसत लंबाई: 1,934.53 वर्ण
शब्दावली और N-gram अंतर:
- मानव पाठ: अक्सर "Gaza", "the war", "Israel" जैसी समसामयिक शब्दावली शामिल करता है
- मशीन पाठ: अधिक सामान्य औपचारिक शब्दावली का उपयोग करता है, जैसे "can be", "in a way"

डेटा विभाजन रणनीति

AraELECTRA & CAMeLBERT: प्रशिक्षण और विकास चरण मूल्यांकन के लिए सभी 4,734 प्रशिक्षण नमूनों का उपयोग करता है
XLM-RoBERTa: प्रशिक्षण डेटा को 80/20 में विभाजित करता है
- प्रशिक्षण सेट: 3,787 नमूने
- सत्यापन सेट: 947 नमूने
- लेबल वितरण बनाए रखने के लिए स्तरीकृत नमूनाकरण का उपयोग करता है

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: मैक्रो-औसत F1 स्कोर
सहायक मेट्रिक्स: सटीकता, परिशुद्धता, रिकॉल, विशिष्टता, संतुलित सटीकता

कार्यान्वयन विवरण

हाइपरपैरामीटर	मान
सीखने की दर	2e-5
बैच आकार	4
ऑप्टिमाइज़र	AdamW
वजन क्षय	0.01
अधिकतम अनुक्रम लंबाई	512
प्रशिक्षण एपोक (AraELECTRA)	4
प्रशिक्षण एपोक (CAMeLBERT)	4
प्रशिक्षण एपोक (XLM-RoBERTa)	5

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडल	F1-Score	सटीकता	परिशुद्धता	रिकॉल	विशिष्टता	संतुलित सटीकता
XLM-RoBERTa	0.7701	0.760	0.7390	0.804	0.716	0.760
CAMeLBERT	0.7290	0.710	0.6842	0.780	0.640	0.710
AraELECTRA	0.6180	0.550	0.5369	0.728	0.372	0.550

मुख्य निष्कर्ष

बहुभाषी मॉडल का लाभ: XLM-RoBERTa सभी मेट्रिक्स पर सर्वोत्तम प्रदर्शन प्राप्त करता है, विशेष अरबी मॉडल को महत्वपूर्ण रूप से पार करता है
पूर्वप्रसंस्करण रणनीति प्रभाव: AraELECTRA की आक्रामक पाठ सामान्यीकरण रणनीति प्रतिकूल हो सकती है
प्रदर्शन क्रम: XLM-RoBERTa > CAMeLBERT > AraELECTRA

परिणाम विश्लेषण

XLM-RoBERTa सफलता के कारण

विविध पूर्व-प्रशिक्षण कॉर्पस: 100 भाषाओं पर व्यापक पूर्व-प्रशिक्षण इसे अधिक मजबूत सामान्यीकरण विशेषता निष्कर्षण क्षमता प्रदान कर सकता है
शैली संवेदनशीलता: मानव पाठ (समाचार-केंद्रित) और मशीन पाठ (औपचारिक विश्लेषणात्मक) के बीच शैली अंतर को बेहतर ढंग से पकड़ता है

AraELECTRA खराब प्रदर्शन के कारण

अत्यधिक सामान्यीकरण: आक्रामक पाठ सामान्यीकरण और डायक्रिटिक्स हटाने से महत्वपूर्ण सूक्ष्म संकेत हटाए जा सकते हैं
सूचना हानि: शब्दावली शैली विकल्प, विशिष्ट नामित इकाइयां जैसी महत्वपूर्ण विभेदकारी विशेषताएं हटाई गई हैं

त्रुटि पैटर्न विश्लेषण

परिशुद्धता बनाम रिकॉल: सभी मॉडल की परिशुद्धता रिकॉल से कम है, जो मानव पाठ को मशीन-जनित के रूप में गलत वर्गीकृत करने की प्रवृत्ति दर्शाता है
संभावित कारण: डोमेन बेमेल या मानव-लिखित सूत्रबद्ध पाठ AI-जनित पैटर्न के समान हो सकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

बहुभाषी मॉडल का अप्रत्याशित लाभ: XLM-RoBERTa अरबी AI पाठ पहचान कार्य पर विशेष अरबी मॉडल को पार करता है
पूर्वप्रसंस्करण की दोहरी-धार प्रभाव: अत्यधिक पाठ सामान्यीकरण मॉडल प्रदर्शन को नुकसान पहुंचा सकता है
डेटा विशेषता का महत्व: पाठ लंबाई और शब्दावली चयन मानव और मशीन पाठ को अलग करने की मुख्य विशेषताएं हैं

सीमाएं

AraELECTRA खराब प्रदर्शन: मुख्य रूप से पूर्वप्रसंस्करण रणनीति चयन के कारण
त्रुटि विश्लेषण अपर्याप्त: विस्तृत गुणात्मक त्रुटि विश्लेषण की कमी
एकल डेटासेट सत्यापन: केवल AraGenEval डेटासेट पर सत्यापित

भविष्य की दिशाएं

पूर्वप्रसंस्करण अनुकूलन: कम आक्रामक पाठ सामान्यीकरण विधियों की खोज करता है
मॉडल एकीकरण: मॉडल एकीकरण तकनीकों का प्रयोग करता है
गहन त्रुटि विश्लेषण: कार्य की विफलता पैटर्न को बेहतर ढंग से समझता है
क्रॉस-डोमेन सामान्यीकरण: कई अरबी डेटासेट पर विधि को सत्यापित करता है

गहन मूल्यांकन

शक्तियां

व्यवस्थित तुलना: विभिन्न प्रकार के Transformer मॉडल की व्यापक तुलना प्रदान करता है
प्रतिकूल अंतर्दृष्टि: बहुभाषी मॉडल विशेष भाषा मॉडल से बेहतर होने की खोज महत्वपूर्ण है
व्यावहारिक मूल्य: वास्तविक प्रतियोगिता में अच्छे परिणाम प्राप्त करके विधि की प्रभावशीलता को सत्यापित करता है
पर्याप्त डेटा विश्लेषण: डेटासेट विशेषताओं का गहन विश्लेषण, मॉडल चयन के लिए आधार प्रदान करता है
उचित प्रयोगात्मक डिजाइन: हाइपरपैरामीटर सेटिंग और मूल्यांकन मेट्रिक्स चयन उचित है

कमजोरियां

पूर्वप्रसंस्करण रणनीति असंगत: तीन मॉडल विभिन्न पूर्वप्रसंस्करण रणनीति का उपयोग करते हैं, तुलना की निष्पक्षता को प्रभावित करता है
डेटा विभाजन असंगत: विभिन्न मॉडल विभिन्न डेटा विभाजन रणनीति का उपयोग करते हैं
त्रुटि विश्लेषण अनुपस्थित: मॉडल विफलता मामलों का गहन विश्लेषण की कमी
अपर्याप्त ablation प्रयोग: प्रत्येक घटक के योगदान को पूरी तरह सत्यापित नहीं किया गया
सीमित सामान्यीकरण सत्यापन: केवल एकल डेटासेट पर सत्यापित

प्रभाव

शैक्षणिक योगदान: अरबी AI पाठ पहचान क्षेत्र के लिए महत्वपूर्ण बेंचमार्क प्रदान करता है
व्यावहारिक मार्गदर्शन: समान कार्य के मॉडल चयन के लिए संदर्भ प्रदान करता है
पद्धति मूल्य: व्यवस्थित तुलना विधि अन्य भाषाओं और कार्यों पर लागू की जा सकती है
पुनरुत्पादनशीलता: विस्तृत प्रयोगात्मक सेटअप प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है

लागू परिदृश्य

अरबी सामग्री संयम: सोशल मीडिया और समाचार प्लेटफॉर्म की AI पाठ पहचान
शैक्षणिक सत्यनिष्ठा जांच: शैक्षणिक संस्थान के असाइनमेंट और पेपर मौलिकता सत्यापन
बहुभाषी वातावरण: कई भाषाओं की AI पाठ पहचान को संभालने की आवश्यकता वाले परिदृश्य
संसाधन-सीमित वातावरण: अन्य संसाधन-सीमित भाषाओं की AI पाठ पहचान के लिए विधि संदर्भ प्रदान करता है

संदर्भ

यह पेपर कई महत्वपूर्ण संबंधित कार्यों को उद्धृत करता है, जिनमें शामिल हैं:

Transformer आर्किटेक्चर मूल पेपर (Vaswani et al., 2017)
BERT मॉडल (Devlin et al., 2019)
ELECTRA मॉडल (Clark et al., 2020)
XLM-RoBERTa मॉडल (Conneau et al., 2020)
अरबी विशेष मॉडल: AraELECTRA (Antoun et al., 2021) और CAMeLBERT (Inoue et al., 2021)
अरबी पाठ वर्गीकरण सर्वेक्षण (Al-Shboul et al., 2024)

समग्र मूल्यांकन: यह एक ठोस अनुभवजन्य अनुसंधान पेपर है जो व्यवस्थित तुलना के माध्यम से अरबी AI पाठ पहचान कार्य पर बहुभाषी मॉडल के अप्रत्याशित लाभ को प्रकट करता है। हालांकि कुछ पद्धति संबंधी कमियां हैं, लेकिन इसकी खोज इस क्षेत्र के लिए महत्वपूर्ण मूल्य रखती है और भविष्य के अनुसंधान के लिए उपयोगी दिशा निर्देश प्रदान करती है।