2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi

Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.

academic

बड़े भाषा मॉडल की पाठ पूर्व-प्रसंस्करण के लिए भाषाई क्षमताओं की जांच

मूल जानकारी

पेपर ID: 2510.11482
शीर्षक: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
लेखक: Marco Braga (University of Milano-Bicocca), Gian Carlo Milanese (University of Milano-Bicocca), Gabriella Pasi (University of Milano-Bicocca)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI (कृत्रिम बुद्धिमत्ता)
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.11482

सारांश

पाठ पूर्व-प्रसंस्करण प्राकृतिक भाषा प्रसंस्करण का एक मौलिक घटक है, जिसमें स्टॉपवर्ड हटाना, शब्द मूल निकालना और लेम्मेटाइजेशन जैसी तकनीकें शामिल हैं। ये तकनीकें पाठ को आगे की प्रसंस्करण और विश्लेषण के लिए तैयार करती हैं। हालांकि ये तकनीकें संदर्भ-निर्भर हैं, परंपरागत विधियां आमतौर पर संदर्भ जानकारी को नज़रअंदाज़ करती हैं। यह पेपर बड़े भाषा मॉडल (LLMs) का उपयोग करके विभिन्न पूर्व-प्रसंस्करण कार्यों को निष्पादित करने के विचार की जांच करता है, क्योंकि वे बड़ी मात्रा में भाषा-विशिष्ट एनोटेशन संसाधनों की आवश्यकता के बिना संदर्भ पर विचार कर सकते हैं। वेब डेटा के व्यापक मूल्यांकन के माध्यम से, हम छह यूरोपीय भाषाओं में कई पाठ वर्गीकरण कार्यों पर LLM-आधारित पूर्व-प्रसंस्करण की तुलना परंपरागत एल्गोरिदम से करते हैं। विश्लेषण से पता चलता है कि LLMs परंपरागत स्टॉपवर्ड हटाने, लेम्मेटाइजेशन और शब्द मूल निकालने को क्रमशः 97%, 82% और 74% की सटीकता के साथ दोहरा सकते हैं। इसके अलावा, LLM द्वारा पूर्व-प्रसंस्कृत पाठ पर प्रशिक्षित ML एल्गोरिदम F1 मेट्रिक में परंपरागत तकनीकों की तुलना में 6% तक सुधार दिखाते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पाठ पूर्व-प्रसंस्करण NLP पाइपलाइन में एक महत्वपूर्ण चरण है, जिसमें स्टॉपवर्ड हटाना, शब्द मूल निकालना और लेम्मेटाइजेशन जैसी क्रियाएं शामिल हैं। इन क्रियाओं का उद्देश्य पाठ को मानकीकृत करना, कम्प्यूटेशनल लागत को कम करना और शोर तथा अप्रासंगिक जानकारी को कम करना है।

मौजूदा विधियों की सीमाएं

संदर्भ-जागरूकता की कमी: परंपरागत पूर्व-प्रसंस्करण विधियां मुख्य रूप से पूर्वनिर्धारित स्टॉपवर्ड सूचियों और निश्चित शब्द मूल/लेम्मेटाइजेशन नियमों पर निर्भर करती हैं, जो डोमेन-विशिष्ट जानकारी और संदर्भ को नज़रअंदाज़ करती हैं
शब्द-भेद अस्पष्टता समस्या: उदाहरण के लिए, "saw" शब्द, जब क्रिया के रूप में हो तो "see" में कम किया जाना चाहिए, लेकिन संज्ञा के रूप में "saw" रहना चाहिए
डोमेन संवेदनशीलता: एक ही शब्द विभिन्न डोमेन में अलग-अलग तरीकों से संसाधित हो सकता है, जैसे "leaves" पौधों के दस्तावेज़ों में "leaf" में कम किया जाना चाहिए, लेकिन कर्मचारी छुट्टी के दस्तावेज़ों में "leave" में

अनुसंधान प्रेरणा

LLMs में शक्तिशाली भाषा समझ की क्षमता है और बड़ी मात्रा में भाषा-विशिष्ट एनोटेशन संसाधनों की आवश्यकता के बिना भाषाई संदर्भ पर विचार कर सकते हैं। यह अनुसंधान मानता है कि LLMs इनपुट दस्तावेज़, संदर्भ और कार्य के आधार पर गतिशील रूप से स्टॉपवर्ड, शब्द रूप और शब्द मूल का पता लगा सकते हैं।

मुख्य योगदान

पहली व्यवस्थित मूल्यांकन: पाठ पूर्व-प्रसंस्करण कार्यों (स्टॉपवर्ड हटाना, लेम्मेटाइजेशन, शब्द मूल निकालना) पर LLMs की क्षमताओं का व्यापक मूल्यांकन
बहुभाषी विश्लेषण: छह यूरोपीय भाषाओं (अंग्रेजी, फ्रेंच, जर्मन, इतालवी, पुर्तगाली, स्पेनिश) पर विधि की प्रभावशीलता का सत्यापन
डाउनस्ट्रीम कार्य मूल्यांकन: LLM पूर्व-प्रसंस्करण के पाठ वर्गीकरण कार्यों पर परंपरागत विधियों की तुलना में प्रदर्शन सुधार को प्रमाणित करना
ओपन-सोर्स योगदान: कोड, प्रॉम्प्ट और प्रायोगिक परिणाम सार्वजनिक किए गए, पुनरुत्पादनीय अनुसंधान को बढ़ावा दिया

विधि विवरण

कार्य परिभाषा

यह अनुसंधान तीन मुख्य पूर्व-प्रसंस्करण कार्यों को परिभाषित करता है:

स्टॉपवर्ड हटाना: विशिष्ट कार्य के लिए महत्वहीन शब्दावली की पहचान और हटाना
लेम्मेटाइजेशन: शब्दावली को उसके शब्दकोश रूप (लेम्मा) में कम करना
शब्द मूल निकालना: शब्दावली को उसके मूल रूप में सरल बनाना

LLM पूर्व-प्रसंस्करण विधि

अनुसंधान संदर्भ-में-शिक्षा (in-context learning) विधि को अपनाता है, LLMs को निम्नलिखित प्रदान करता है:

कार्य विवरण: पूर्व-प्रसंस्करण ऑपरेशन की औपचारिक परिभाषा
उदाहरण: कुछ पूर्व-प्रसंस्करण उदाहरण
इनपुट पाठ: संसाधित किया जाने वाला पाठ
भाषा जानकारी: पाठ की भाषा पहचान
कार्य संदर्भ: डाउनस्ट्रीम कार्य की विशिष्ट जानकारी

प्रॉम्प्ट इंजीनियरिंग

विभिन्न पूर्व-प्रसंस्करण कार्यों के लिए विशेष प्रॉम्प्ट टेम्पलेट डिज़ाइन किए गए:

स्टॉपवर्ड हटाने का उदाहरण:

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

लेम्मेटाइजेशन उदाहरण:

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

बहुभाषी प्रसंस्करण रणनीति

गैर-अंग्रेजी भाषाओं के लिए, अंग्रेजी प्रॉम्प्ट और लक्ष्य भाषा प्रॉम्प्ट दोनों का उपयोग किया जाता है
यह मूल्यांकन किया जाता है कि क्या भाषा-विशिष्ट प्रॉम्प्ट अतिरिक्त संदर्भ लाभ प्रदान करते हैं

प्रायोगिक सेटअप

डेटासेट

अंग्रेजी डेटासेट

SemEval सीरीज़: इमोजी भविष्यवाणी, व्यंग्य पहचान, घृणा भाषण पहचान, आक्रामक भाषा पहचान और भावना विश्लेषण शामिल
समाचार वर्गीकरण: Reuters और AG News डेटासेट
फोकस: Twitter जैसे सोशल मीडिया डेटा, क्योंकि इसमें अनौपचारिक भाषा और उच्च शोर स्तर है

बहुभाषी डेटासेट

Tweet Sentiment Multilingual corpus: फ्रेंच, जर्मन, इतालवी, पुर्तगाली, स्पेनिश को कवर करता है
नमूना रणनीति: कम्प्यूटेशनल लागत के कारण, अधिकतम 3000 प्रशिक्षण दस्तावेज़ और 3000 परीक्षण दस्तावेज़ का यादृच्छिक नमूना

मॉडल चयन

पांच ओपन-सोर्स SOTA LLMs का मूल्यांकन किया गया:

Gemma-2-9B और Gemma-3-4B: मुख्य रूप से अंग्रेजी डेटा पर प्रशिक्षित
LLama-3.1-8B: मूल बहुभाषी मॉडल
Phi-4-mini (3.8B): मुख्य रूप से अंग्रेजी प्रशिक्षण
Qwen-2.5-7B: मूल बहुभाषी मॉडल

आधारभूत विधियां

स्टॉपवर्ड हटाना: NLTK द्वारा प्रदान की गई स्टॉपवर्ड सूची
शब्द मूल निकालना: Porter, Lancaster और Snowball एल्गोरिदम
लेम्मेटाइजेशन: spaCy द्वारा प्रदान किए गए नियम-आधारित या संपादन वृक्ष लेम्मेटाइजर

मूल्यांकन मेट्रिक्स

RQ1 मूल्यांकन

SW: LLM द्वारा हटाए गए शब्दावली में NLTK स्टॉपवर्ड सूची से मेल खाने वाले प्रतिशत
NSW: LLM द्वारा हटाए गए गैर-स्टॉपवर्ड का प्रतिशत
L: LLM लेम्मेटाइजेशन परिणाम परंपरागत विधि से मेल खाने का प्रतिशत
S: LLM शब्द मूल निकालने के परिणाम परंपरागत विधि से मेल खाने का प्रतिशत

RQ2 मूल्यांकन

वर्गीकरण प्रदर्शन का मूल्यांकन करने के लिए माइक्रो-औसत F1 स्कोर का उपयोग
तीन ML एल्गोरिदम पर औसत: निर्णय वृक्ष, लॉजिस्टिक प्रतिगमन, नैवे बेयस

प्रायोगिक परिणाम

पूर्व-प्रसंस्करण क्षमता मूल्यांकन (RQ1)

अंग्रेजी परिणाम

स्टॉपवर्ड हटाना: Gemma-2 सर्वश्रेष्ठ प्रदर्शन करता है, 84.29% सटीकता प्राप्त करता है
लेम्मेटाइजेशन: सभी मॉडल 77% से अधिक सटीकता प्राप्त करते हैं, Gemma-2 82.61% तक पहुंचता है
शब्द मूल निकालना: प्रदर्शन अपेक्षाकृत कम है, Gemma-2 75.65% तक पहुंचता है (किसी भी परंपरागत एल्गोरिदम से मेल)

बहुभाषी परिणाम

स्टॉपवर्ड हटाना: Gemma-2 फ्रेंच पर 97% सटीकता प्राप्त करता है, अन्य भाषाओं पर कम से कम 79%
लेम्मेटाइजेशन: Qwen-2.5 फ्रेंच, इतालवी और स्पेनिश पर सर्वश्रेष्ठ प्रदर्शन करता है
भाषा-विशिष्ट प्रॉम्प्ट: लक्ष्य भाषा प्रॉम्प्ट का उपयोग करने से बेहतर परिणाम मिलते हैं, इसका कोई सुसंगत प्रमाण नहीं है

डाउनस्ट्रीम कार्य प्रदर्शन (RQ2)

अंग्रेजी पाठ वर्गीकरण

कुल प्रदर्शन: LLMs 35 डेटासेट-पूर्व-प्रसंस्करण कार्य संयोजनों में से 25 में परंपरागत विधियों को पार करते हैं
सर्वश्रेष्ठ परिणाम: Gemma-2 AG News डेटासेट पर स्टॉपवर्ड हटाने + लेम्मेटाइजेशन कार्य में परंपरागत विधि से 6.16% सुधार करता है
शब्द मूल निकालने की सीमा: LLM शब्द मूल निकालना केवल 7 डेटासेट में से 3 में परंपरागत विधि को पार करता है

बहुभाषी पाठ वर्गीकरण

औसत प्रदर्शन: LLMs आधे मूल्यांकन मामलों में परंपरागत तकनीकों के बराबर या बेहतर प्रदर्शन प्राप्त करते हैं
लेम्मेटाइजेशन लाभ: 5 डेटासेट में से 4 में सर्वोच्च प्रदर्शन प्राप्त करता है
भाषा-विशिष्ट पैटर्न: Llama-3.1 भाषा-विशिष्ट प्रॉम्प्ट का उपयोग करते हुए 80% कार्यों में प्रदर्शन सुधार करता है

मुख्य निष्कर्ष

संदर्भ संवेदनशीलता: LLMs अक्सर ऐसे शब्दों को हटाते हैं जो परंपरागत रूप से स्टॉपवर्ड नहीं माने जाते, जो इस परिकल्पना का समर्थन करता है कि संदर्भ समझ स्टॉपवर्ड चयन को प्रभावित करती है
शब्द मूल निकालने की असंगति: LLMs विभिन्न दस्तावेज़ों में एक ही शब्द के लिए विभिन्न शब्द मूल उत्पन्न कर सकते हैं, जिससे गैर-मानकीकृत पाठ प्रतिनिधित्व होता है
मॉडल आकार प्रभाव: Gemma-3, हालांकि अन्य बड़े मॉडल के आधे पैरामीटर हैं, लेकिन अक्सर तुलनीय या बेहतर प्रदर्शन करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रतिकृति क्षमता: LLMs परंपरागत पूर्व-प्रसंस्करण विधियों को प्रभावी ढंग से दोहरा सकते हैं, स्टॉपवर्ड हटाने, लेम्मेटाइजेशन और शब्द मूल निकालने की सटीकता क्रमशः 97%, 82% और 74% है
प्रदर्शन सुधार: LLM पूर्व-प्रसंस्कृत पाठ पर आधारित ML एल्गोरिदम F1 मेट्रिक में 6% तक सुधार दिखाते हैं
बहुभाषी प्रभावशीलता: विधि कई यूरोपीय भाषाओं पर प्रभावशीलता दिखाती है

सीमाएं

मूल्यांकन सीमाएं: ऐसे मामले हो सकते हैं जहां LLM परंपरागत पुस्तकालयों से बेहतर है लेकिन मूल्यांकन मेट्रिक्स द्वारा कैप्चर नहीं किया जाता है
कम्प्यूटेशनल लागत: LLM पूर्व-प्रसंस्करण की कम्प्यूटेशनल लागत परंपरागत विधियों की तुलना में काफी अधिक है
प्रॉम्प्ट इंजीनियरिंग: व्यापक प्रॉम्प्ट इंजीनियरिंग नहीं की गई, जो परिणामों को प्रभावित कर सकती है
शब्द मूल निकालने की सुसंगति: LLMs शब्द मूल निकालने में सुसंगति की कमी दिखाते हैं, जो डाउनस्ट्रीम कार्य प्रदर्शन को प्रभावित करती है

भविष्य की दिशाएं

कम संसाधन वाली भाषाओं के लिए शब्द मूल निकालने और लेम्मेटाइजेशन उपकरण के रूप में LLMs की खोज
अधिक प्रभावी प्रॉम्प्ट रणनीति और संदर्भ-में-शिक्षा विधियों का अनुसंधान
कम्प्यूटेशनल दक्षता के साथ LLM पूर्व-प्रसंस्करण समाधान विकसित करना

गहन मूल्यांकन

शक्तियां

अनुसंधान नवीनता: पाठ पूर्व-प्रसंस्करण कार्यों पर LLMs की क्षमताओं का पहला व्यवस्थित मूल्यांकन
प्रायोगिक व्यापकता: कई भाषाओं, कई कार्यों और कई मॉडलों को कवर करने वाला व्यापक मूल्यांकन
व्यावहारिक मूल्य: कम संसाधन वाली भाषाओं के लिए पाठ पूर्व-प्रसंस्करण के लिए नया समाधान प्रदान करता है
ओपन-सोर्स योगदान: पूर्ण कोड और डेटा प्रदान करता है, पुनरुत्पादनीय अनुसंधान को बढ़ावा देता है

कमियां

सैद्धांतिक विश्लेषण की कमी: LLM पूर्व-प्रसंस्करण तंत्र का गहन सैद्धांतिक विश्लेषण की कमी
कम्प्यूटेशनल दक्षता समस्या: कम्प्यूटेशनल लागत और प्रदर्शन सुधार के बीच व्यापार-बंद पर पर्याप्त चर्चा नहीं
प्रॉम्प्ट संवेदनशीलता: विभिन्न प्रॉम्प्ट रणनीतियों के परिणामों पर प्रभाव की गहन खोज नहीं
त्रुटि विश्लेषण की कमी: LLM पूर्व-प्रसंस्करण त्रुटि प्रकारों का विस्तृत विश्लेषण की कमी

प्रभाव

शैक्षणिक योगदान: NLP पूर्व-प्रसंस्करण क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: विशेष रूप से कम संसाधन वाली भाषाओं के लिए उपयुक्त जहां पूर्ण पूर्व-प्रसंस्करण उपकरण नहीं हैं
विधि प्रेरणा: परंपरागत NLP कार्यों में LLMs की क्षमता प्रदर्शित करता है

लागू परिदृश्य

कम संसाधन वाली भाषा प्रसंस्करण: उच्च-गुणवत्ता लेम्मेटाइजर और शब्द मूल निकालने वाले की कमी वाली भाषाएं
डोमेन-विशिष्ट अनुप्रयोग: संदर्भ-संवेदनशील पूर्व-प्रसंस्करण की आवश्यकता वाले विशिष्ट डोमेन कार्य
बहुभाषी प्रणाली: एकीकृत पूर्व-प्रसंस्करण योजना की आवश्यकता वाले क्रॉस-भाषा अनुप्रयोग

संदर्भ

पेपर में 37 संबंधित संदर्भ उद्धृत किए गए हैं, जो LLMs, पाठ पूर्व-प्रसंस्करण, सूचना पुनर्प्राप्ति और बहुभाषी NLP जैसे मुख्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

सारांश: यह पेपर पाठ पूर्व-प्रसंस्करण में LLMs के अनुप्रयोग की अग्रणी खोज करता है, व्यापक बहुभाषी प्रयोगों के माध्यम से संदर्भ-जागरूक पूर्व-प्रसंस्करण में LLMs के लाभों को प्रमाणित करता है। हालांकि उच्च कम्प्यूटेशनल लागत जैसी सीमाएं हैं, लेकिन यह कम संसाधन वाली भाषाओं और संदर्भ-संवेदनशील पूर्व-प्रसंस्करण कार्यों के लिए मूल्यवान समाधान प्रदान करता है।