Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic
التحقيق من القدرات اللغوية لنماذج اللغة الكبيرة في معالجة النصوص التمهيدية
تعتبر معالجة النصوص التمهيدية مكوناً أساسياً في معالجة اللغات الطبيعية، وتتضمن تقنيات مثل إزالة الكلمات الشائعة والاستخلاص الجذري والتصريف، وذلك لتحضير مدخلات النصوص للمعالجة والتحليل اللاحقة. على الرغم من أن هذه التقنيات تعتمد على السياق، فإن الطرق التقليدية عادة ما تتجاهل معلومات السياق. تبحث هذه الورقة في فكرة استخدام نماذج اللغة الكبيرة (LLMs) لتنفيذ مختلف مهام المعالجة التمهيدية، نظراً لقدرتها على الأخذ في الاعتبار السياق دون الحاجة إلى موارد تعليقية لغوية محددة كبيرة. من خلال تقييم شامل على بيانات الويب، قارنا المعالجة التمهيدية القائمة على نماذج اللغة الكبيرة مع الخوارزميات التقليدية في مهام تصنيف نصوص متعددة عبر ست لغات أوروبية. يشير التحليل إلى أن نماذج اللغة الكبيرة قادرة على تكرار طرق إزالة الكلمات الشائعة والتصريف والاستخلاص الجذري التقليدية بدقة تبلغ 97% و82% و74% على التوالي. علاوة على ذلك، حققت خوارزميات التعلم الآلي المدربة على نصوص معالجة بواسطة نماذج اللغة الكبيرة تحسناً يصل إلى 6% في مقياس F1 مقارنة بالتقنيات التقليدية.
تعتبر معالجة النصوص التمهيدية خطوة حاسمة في خط أنابيب معالجة اللغات الطبيعية، وتشمل عمليات مثل إزالة الكلمات الشائعة والاستخلاص الجذري والتصريف. الهدف من هذه العمليات هو توحيد النص وتقليل التكاليف الحسابية وتقليل الضوضاء والمعلومات غير ذات الصلة.
الافتقار إلى الوعي بالسياق: تعتمد طرق المعالجة التمهيدية التقليدية بشكل أساسي على قوائم الكلمات الشائعة المحددة مسبقاً والقواعد الثابتة للاستخلاص الجذري والتصريف، مما يتجاهل المعلومات الخاصة بالمجال والسياق
مشكلة الغموض في الدور النحوي: على سبيل المثال، كلمة "saw" عند استخدامها كفعل يجب أن تُصرّف إلى "see"، بينما عند استخدامها كاسم يجب أن تبقى "saw"
الحساسية تجاه المجال: قد تتطلب نفس الكلمة معالجة مختلفة في مجالات مختلفة، مثل كلمة "leaves" في المستندات النباتية يجب أن تُصرّف إلى "leaf"، بينما في مستندات إجازات الموظفين يجب أن تُصرّف إلى "leave"
تتمتع نماذج اللغة الكبيرة بقدرات فهم لغوية قوية، وقادرة على الأخذ في الاعتبار السياق اللغوي دون الحاجة إلى موارد تعليقية لغوية محددة كبيرة. تفترض هذه الدراسة أن نماذج اللغة الكبيرة يمكنها الكشف ديناميكياً عن الكلمات الشائعة والأشكال الصرفية والجذور بناءً على المستند المدخل والسياق والمهمة.
تم تصميم قوالب محفزات متخصصة لمختلف مهام المعالجة التمهيدية:
مثال على إزالة الكلمات الشائعة:
أنت متخصص في إزالة الكلمات الشائعة من النص. الكلمات الشائعة هي الكلمات التي لا تكون ذات صلة بمعالجة النص. [...] في هذه الحالة، المهمة ذات الصلة هي الكشف عن المشاعر في التغريدة (إيجابية أو سلبية أو محايدة). في هذه المهمة، كلمة "not" غالباً ما لا تُعتبر كلمة شائعة، ويجب الاحتفاظ بها في النص.
مثال على التصريف:
أنت متخصص في تصريف النصوص. [...] يعتمد التصريف على تحديد الدور النحوي والمعنى المقصود للكلمة في الجملة بشكل صحيح، بالإضافة إلى السياق الأوسع المحيط بتلك الجملة.
الحساسية تجاه السياق: غالباً ما تزيل نماذج اللغة الكبيرة كلمات لا تُعتبر تقليدياً كلمات شائعة، مما يدعم الفرضية القائلة بأن فهم السياق يؤثر على اختيار الكلمات الشائعة
عدم اتساق الاستخلاص الجذري: قد تنتج نماذج اللغة الكبيرة جذوراً مختلفة لنفس الكلمة في مستندات مختلفة، مما يؤدي إلى تمثيل نصوص غير موحد
تأثير حجم النموذج: حققت Gemma-3، على الرغم من أن عدد معاملات لها يبلغ حوالي نصف النماذج الكبيرة الأخرى، أداءً مماثلاً أو متفوقاً في كثير من الأحيان
القدرة على التكرار: قادرة نماذج اللغة الكبيرة على تكرار طرق المعالجة التمهيدية التقليدية بفعالية، حيث تبلغ دقة إزالة الكلمات الشائعة والتصريف والاستخلاص الجذري 97% و82% و74% على التوالي
تحسن الأداء: حققت خوارزميات التعلم الآلي المدربة على نصوص معالجة بواسطة نماذج اللغة الكبيرة تحسناً يصل إلى 6% في مقياس F1
الفعالية متعددة اللغات: أظهرت الطريقة فعالية على عدة لغات أوروبية
تستشهد الورقة بـ 37 مرجعاً ذا صلة، تغطي الأعمال المهمة في مجالات نماذج اللغة الكبيرة ومعالجة النصوص التمهيدية واسترجاع المعلومات ومعالجة اللغات الطبيعية متعددة اللغات، مما يوفر أساساً نظرياً متيناً للبحث.
الملخص: تستكشف هذه الورقة بطريقة رائدة تطبيق نماذج اللغة الكبيرة في معالجة النصوص التمهيدية، وتثبت من خلال تجارب شاملة متعددة اللغات مزايا نماذج اللغة الكبيرة في المعالجة التمهيدية الحساسة للسياق. على الرغم من القيود مثل التكاليف الحسابية العالية، فإنها توفر حلاً قيماً لمهام معالجة النصوص التمهيدية في اللغات منخفضة الموارد والحساسة للسياق.