2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi

Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.

academic

التحقيق من القدرات اللغوية لنماذج اللغة الكبيرة في معالجة النصوص التمهيدية

المعلومات الأساسية

معرّف الورقة: 2510.11482
العنوان: التحقيق من القدرات اللغوية لنماذج اللغة الكبيرة في معالجة النصوص التمهيدية
المؤلفون: ماركو براغا (جامعة ميلانو-بيكوكا)، جيان كارلو ميلانيزي (جامعة ميلانو-بيكوكا)، غابريلا باسي (جامعة ميلانو-بيكوكا)
التصنيف: cs.CL (اللسانيات الحاسوبية)، cs.AI (الذكاء الاصطناعي)
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.11482

الملخص

تعتبر معالجة النصوص التمهيدية مكوناً أساسياً في معالجة اللغات الطبيعية، وتتضمن تقنيات مثل إزالة الكلمات الشائعة والاستخلاص الجذري والتصريف، وذلك لتحضير مدخلات النصوص للمعالجة والتحليل اللاحقة. على الرغم من أن هذه التقنيات تعتمد على السياق، فإن الطرق التقليدية عادة ما تتجاهل معلومات السياق. تبحث هذه الورقة في فكرة استخدام نماذج اللغة الكبيرة (LLMs) لتنفيذ مختلف مهام المعالجة التمهيدية، نظراً لقدرتها على الأخذ في الاعتبار السياق دون الحاجة إلى موارد تعليقية لغوية محددة كبيرة. من خلال تقييم شامل على بيانات الويب، قارنا المعالجة التمهيدية القائمة على نماذج اللغة الكبيرة مع الخوارزميات التقليدية في مهام تصنيف نصوص متعددة عبر ست لغات أوروبية. يشير التحليل إلى أن نماذج اللغة الكبيرة قادرة على تكرار طرق إزالة الكلمات الشائعة والتصريف والاستخلاص الجذري التقليدية بدقة تبلغ 97% و82% و74% على التوالي. علاوة على ذلك، حققت خوارزميات التعلم الآلي المدربة على نصوص معالجة بواسطة نماذج اللغة الكبيرة تحسناً يصل إلى 6% في مقياس F1 مقارنة بالتقنيات التقليدية.

الخلفية البحثية والدافع

تعريف المشكلة

تعتبر معالجة النصوص التمهيدية خطوة حاسمة في خط أنابيب معالجة اللغات الطبيعية، وتشمل عمليات مثل إزالة الكلمات الشائعة والاستخلاص الجذري والتصريف. الهدف من هذه العمليات هو توحيد النص وتقليل التكاليف الحسابية وتقليل الضوضاء والمعلومات غير ذات الصلة.

قيود الطرق الموجودة

الافتقار إلى الوعي بالسياق: تعتمد طرق المعالجة التمهيدية التقليدية بشكل أساسي على قوائم الكلمات الشائعة المحددة مسبقاً والقواعد الثابتة للاستخلاص الجذري والتصريف، مما يتجاهل المعلومات الخاصة بالمجال والسياق
مشكلة الغموض في الدور النحوي: على سبيل المثال، كلمة "saw" عند استخدامها كفعل يجب أن تُصرّف إلى "see"، بينما عند استخدامها كاسم يجب أن تبقى "saw"
الحساسية تجاه المجال: قد تتطلب نفس الكلمة معالجة مختلفة في مجالات مختلفة، مثل كلمة "leaves" في المستندات النباتية يجب أن تُصرّف إلى "leaf"، بينما في مستندات إجازات الموظفين يجب أن تُصرّف إلى "leave"

دافع البحث

تتمتع نماذج اللغة الكبيرة بقدرات فهم لغوية قوية، وقادرة على الأخذ في الاعتبار السياق اللغوي دون الحاجة إلى موارد تعليقية لغوية محددة كبيرة. تفترض هذه الدراسة أن نماذج اللغة الكبيرة يمكنها الكشف ديناميكياً عن الكلمات الشائعة والأشكال الصرفية والجذور بناءً على المستند المدخل والسياق والمهمة.

المساهمات الأساسية

التقييم المنهجي الأول: إجراء تقييم شامل لقدرات نماذج اللغة الكبيرة في مهام معالجة النصوص التمهيدية (إزالة الكلمات الشائعة والتصريف والاستخلاص الجذري)
التحليل متعدد اللغات: التحقق من فعالية الطريقة على ست لغات أوروبية (الإنجليزية والفرنسية والألمانية والإيطالية والبرتغالية والإسبانية)
تقييم المهام اللاحقة: إثبات تحسن الأداء للمعالجة التمهيدية القائمة على نماذج اللغة الكبيرة مقارنة بالطرق التقليدية في مهام تصنيف النصوص
المساهمة مفتوحة المصدر: نشر الكود والمحفزات ونتائج التجارب لتعزيز البحث القابل للتكرار

شرح الطريقة

تعريف المهام

تحدد هذه الدراسة ثلاث مهام معالجة أساسية:

إزالة الكلمات الشائعة: تحديد وإزالة المفردات غير المهمة لمهمة معينة
التصريف: تحويل المفردات إلى شكلها القاموسي (الكلمة الأساسية)
الاستخلاص الجذري: تبسيط المفردات إلى شكلها الجذري

طريقة المعالجة التمهيدية القائمة على نماذج اللغة الكبيرة

تعتمد الدراسة على طريقة التعلم في السياق (in-context learning)، حيث توفر لنماذج اللغة الكبيرة:

وصف المهمة: التعريف الرسمي لعملية المعالجة التمهيدية
الأمثلة: عدد قليل من أمثلة المعالجة التمهيدية
النص المدخل: النص المراد معالجته
معلومات اللغة: تحديد لغة النص
سياق المهمة: المعلومات المحددة للمهمة اللاحقة

هندسة المحفزات

تم تصميم قوالب محفزات متخصصة لمختلف مهام المعالجة التمهيدية:

مثال على إزالة الكلمات الشائعة:

أنت متخصص في إزالة الكلمات الشائعة من النص. الكلمات الشائعة هي الكلمات التي لا تكون ذات صلة بمعالجة النص. [...] في هذه الحالة، المهمة ذات الصلة هي الكشف عن المشاعر في التغريدة (إيجابية أو سلبية أو محايدة). في هذه المهمة، كلمة "not" غالباً ما لا تُعتبر كلمة شائعة، ويجب الاحتفاظ بها في النص.

مثال على التصريف:

أنت متخصص في تصريف النصوص. [...] يعتمد التصريف على تحديد الدور النحوي والمعنى المقصود للكلمة في الجملة بشكل صحيح، بالإضافة إلى السياق الأوسع المحيط بتلك الجملة.

استراتيجية المعالجة متعددة اللغات

بالنسبة للغات غير الإنجليزية، يتم استخدام كل من المحفزات الإنجليزية والمحفزات باللغة المستهدفة
تقييم ما إذا كانت المحفزات الخاصة باللغة توفر ميزة سياقية إضافية

إعداد التجارب

مجموعات البيانات

مجموعات البيانات الإنجليزية

سلسلة SemEval: تشمل التنبؤ بالرموز التعبيرية والكشف عن السخرية والكشف عن خطاب الكراهية وتحديد اللغة المسيئة وتحليل المشاعر
تصنيف الأخبار: مجموعات بيانات Reuters و AG News
التركيز الخاص: بيانات وسائل التواصل الاجتماعي مثل Twitter، نظراً للغة غير الرسمية ومستويات الضوضاء العالية

مجموعات البيانات متعددة اللغات

مجموعة Tweet Sentiment متعددة اللغات: تغطي الفرنسية والألمانية والإيطالية والبرتغالية والإسبانية
استراتيجية العينات: نظراً للتكاليف الحسابية، تم أخذ عينات عشوائية من ما يصل إلى 3000 مستند تدريب و3000 مستند اختبار

اختيار النموذج

تم تقييم خمسة نماذج لغة كبيرة مفتوحة المصدر متقدمة:

Gemma-2-9B و Gemma-3-4B: مدربة بشكل أساسي على بيانات اللغة الإنجليزية
LLama-3.1-8B: نموذج متعدد اللغات الأصلي
Phi-4-mini (3.8B): مدربة بشكل أساسي على اللغة الإنجليزية
Qwen-2.5-7B: نموذج متعدد اللغات الأصلي

طرق المقارنة الأساسية

إزالة الكلمات الشائعة: قوائم الكلمات الشائعة المقدمة من NLTK
الاستخلاص الجذري: خوارزميات Porter و Lancaster و Snowball
التصريف: معرّفات التصريف القائمة على القواعس أو الأشجار المحررة المقدمة من spaCy

مقاييس التقييم

تقييم RQ1

SW: نسبة المفردات التي أزالتها نموذج اللغة الكبيرة والتي تطابق قائمة الكلمات الشائعة من NLTK
NSW: نسبة الكلمات غير الشائعة التي أزالتها نموذج اللغة الكبيرة
L: نسبة نتائج التصريف من نموذج اللغة الكبيرة التي تطابق الطرق التقليدية
S: نسبة نتائج الاستخلاص الجذري من نموذج اللغة الكبيرة التي تطابق الطرق التقليدية

تقييم RQ2

استخدام درجة F1 المتوسطة الدقيقة لتقييم أداء التصنيف
حساب المتوسط على ثلاث خوارزميات تعلم آلي: شجرة القرار والانحدار اللوجستي وبايز الساذج

نتائج التجارب

تقييم القدرات على المعالجة التمهيدية (RQ1)

النتائج الإنجليزية

إزالة الكلمات الشائعة: حققت Gemma-2 أفضل أداء بدقة 84.29%
التصريف: تجاوزت جميع النماذج دقة 77%، حيث حققت Gemma-2 82.61%
الاستخلاص الجذري: أداء نسبياً أقل، حيث حققت Gemma-2 75.65% (مطابقة مع أي من الخوارزميات التقليدية)

النتائج متعددة اللغات

إزالة الكلمات الشائعة: حققت Gemma-2 دقة 97% في الفرنسية، وما لا يقل عن 79% في اللغات الأخرى
التصريف: حققت Qwen-2.5 أفضل أداء في الفرنسية والإيطالية والإسبانية
المحفزات الخاصة باللغة: لا توجد أدلة متسقة على أن استخدام المحفزات باللغة المستهدفة يوفر نتائج أفضل

أداء المهام اللاحقة (RQ2)

تصنيف النصوص الإنجليزية

الأداء العام: تجاوزت نماذج اللغة الكبيرة الطرق التقليدية في 25 من 35 مجموعة بيانات-مهمة معالجة تمهيدية
أفضل النتائج: حققت Gemma-2 تحسناً بنسبة 6.16% في مجموعة بيانات AG News في مهمة إزالة الكلمات الشائعة + التصريف مقارنة بالطرق التقليدية
قيود الاستخلاص الجذري: تجاوز الاستخلاص الجذري من نموذج اللغة الكبيرة الطرق التقليدية فقط في 3 من 7 مجموعات بيانات

تصنيف النصوص متعدد اللغات

الأداء المتوسط: حققت نماذج اللغة الكبيرة أداءً مساوياً أو أفضل من التقنيات التقليدية في نصف حالات التقييم
ميزة التصريف: حققت أعلى أداء في 4 من 5 مجموعات بيانات
الأنماط الخاصة باللغة: حسّنت Llama-3.1 الأداء باستخدام المحفزات الخاصة باللغة في 80% من المهام

النتائج الرئيسية

الحساسية تجاه السياق: غالباً ما تزيل نماذج اللغة الكبيرة كلمات لا تُعتبر تقليدياً كلمات شائعة، مما يدعم الفرضية القائلة بأن فهم السياق يؤثر على اختيار الكلمات الشائعة
عدم اتساق الاستخلاص الجذري: قد تنتج نماذج اللغة الكبيرة جذوراً مختلفة لنفس الكلمة في مستندات مختلفة، مما يؤدي إلى تمثيل نصوص غير موحد
تأثير حجم النموذج: حققت Gemma-3، على الرغم من أن عدد معاملات لها يبلغ حوالي نصف النماذج الكبيرة الأخرى، أداءً مماثلاً أو متفوقاً في كثير من الأحيان

الأعمال ذات الصلة

تطبيقات نماذج اللغة الكبيرة في معالجة اللغات الطبيعية

حققت نماذج اللغة الكبيرة أداءً متقدماً في مهام واسعة، خاصة في إعدادات التعلم القليل
يمكن تطبيقها على مهام أو مجالات لم تُرَ من قبل دون الحاجة إلى ضبط دقيق إضافي

المعالجة التمهيدية الحساسة للسياق

تمت دراسة العلاقة بين عمليات المعالجة التمهيدية وسياق النص المدخل لفترة طويلة
تطبيق تعريف الكلمات الشائعة الخاصة بالسياق في خطوط أنابيب استرجاع المعلومات

الأبحاث الموجودة حول معالجة نماذج اللغة الكبيرة

ركزت الأعمال السابقة بشكل أساسي على الاستخلاص الجذري في خطوط أنابيب استرجاع المعلومات
نقص التحليل الشامل لقدرات نماذج اللغة الكبيرة على معالجة النصوص التمهيدية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

القدرة على التكرار: قادرة نماذج اللغة الكبيرة على تكرار طرق المعالجة التمهيدية التقليدية بفعالية، حيث تبلغ دقة إزالة الكلمات الشائعة والتصريف والاستخلاص الجذري 97% و82% و74% على التوالي
تحسن الأداء: حققت خوارزميات التعلم الآلي المدربة على نصوص معالجة بواسطة نماذج اللغة الكبيرة تحسناً يصل إلى 6% في مقياس F1
الفعالية متعددة اللغات: أظهرت الطريقة فعالية على عدة لغات أوروبية

القيود

قيود التقييم: قد توجد حالات تتفوق فيها نماذج اللغة الكبيرة على المكتبات التقليدية لكن لم يتم التقاطها بواسطة مقاييس التقييم
التكاليف الحسابية: التكاليف الحسابية للمعالجة التمهيدية بواسطة نماذج اللغة الكبيرة أعلى بكثير من الطرق التقليدية
هندسة المحفزات: لم يتم إجراء هندسة محفزات واسعة النطاق، مما قد يؤثر على النتائج
اتساق الاستخلاص الجذري: تفتقر نماذج اللغة الكبيرة إلى الاتساق في الاستخلاص الجذري، مما يؤثر على أداء المهام اللاحقة

الاتجاهات المستقبلية

استكشاف نماذج اللغة الكبيرة كأدوات للاستخلاص الجذري والتصريف في اللغات منخفضة الموارد
البحث في استراتيجيات محفزات أكثر فعالية وطرق التعلم في السياق
تطوير حلول معالجة تمهيدية قائمة على نماذج اللغة الكبيرة بكفاءة حسابية أعلى

التقييم المتعمق

المميزات

جدة البحث: أول تقييم منهجي لقدرات نماذج اللغة الكبيرة في مهام معالجة النصوص التمهيدية
شمول التجارب: تقييم شامل يغطي لغات متعددة ومهام متعددة ونماذج متعددة
القيمة العملية: توفير حل جديد لمعالجة النصوص التمهيدية في اللغات منخفضة الموارد
المساهمة مفتوحة المصدر: توفير كود وبيانات كاملة لتعزيز البحث القابل للتكرار

أوجه القصور

نقص التحليل النظري: افتقار إلى تحليل نظري عميق لآليات المعالجة التمهيدية من نماذج اللغة الكبيرة
مشكلة الكفاءة الحسابية: عدم مناقشة كافية للمقارنة بين التكاليس الحسابية وتحسن الأداء
حساسية المحفزات: عدم استكشاف عميق لتأثير استراتيجيات محفزات مختلفة على النتائج
نقص تحليل الأخطاء: افتقار إلى تحليل مفصل لأنواع أخطاء المعالجة التمهيدية من نماذج اللغة الكبيرة

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد لمجال معالجة النصوص التمهيدية في معالجة اللغات الطبيعية
القيمة العملية: مناسبة بشكل خاص للغات منخفضة الموارد التي تفتقر إلى أدوات معالجة تمهيدية متقدمة
الإلهام المنهجي: عرض إمكانات نماذج اللغة الكبيرة في المهام التقليدية لمعالجة اللغات الطبيعية

السيناريوهات القابلة للتطبيق

معالجة اللغات منخفضة الموارد: اللغات التي تفتقر إلى معرّفات تصريف وأدوات استخلاص جذري عالية الجودة
التطبيقات الخاصة بالمجال: المهام التي تتطلب معالجة تمهيدية حساسة للسياق في مجالات محددة
الأنظمة متعددة اللغات: التطبيقات عبر اللغات التي تتطلب حل معالجة تمهيدية موحد

المراجع

تستشهد الورقة بـ 37 مرجعاً ذا صلة، تغطي الأعمال المهمة في مجالات نماذج اللغة الكبيرة ومعالجة النصوص التمهيدية واسترجاع المعلومات ومعالجة اللغات الطبيعية متعددة اللغات، مما يوفر أساساً نظرياً متيناً للبحث.

الملخص: تستكشف هذه الورقة بطريقة رائدة تطبيق نماذج اللغة الكبيرة في معالجة النصوص التمهيدية، وتثبت من خلال تجارب شاملة متعددة اللغات مزايا نماذج اللغة الكبيرة في المعالجة التمهيدية الحساسة للسياق. على الرغم من القيود مثل التكاليف الحسابية العالية، فإنها توفر حلاً قيماً لمهام معالجة النصوص التمهيدية في اللغات منخفضة الموارد والحساسة للسياق.