2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi

Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.

academic

Untersuchung der linguistischen Fähigkeiten großer Sprachmodelle zur Textvorverarbeitung

Grundlegende Informationen

Papier-ID: 2510.11482
Titel: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Autoren: Marco Braga (Universität Milano-Bicocca), Gian Carlo Milanese (Universität Milano-Bicocca), Gabriella Pasi (Universität Milano-Bicocca)
Klassifizierung: cs.CL (Computerlinguistik), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.11482

Zusammenfassung

Textvorverarbeitung ist eine grundlegende Komponente der Verarbeitung natürlicher Sprache (NLP), die Techniken wie Stoppwort-Entfernung, Stemming und Lemmatisierung umfasst, um Texteingaben für nachfolgende Verarbeitung und Analyse vorzubereiten. Obwohl diese Techniken kontextabhängig sind, ignorieren traditionelle Methoden typischerweise Kontextinformationen. Dieses Papier untersucht die Idee, große Sprachmodelle (LLMs) zur Durchführung verschiedener Vorverarbeitungsaufgaben einzusetzen, da sie in der Lage sind, Kontext zu berücksichtigen, ohne umfangreiche sprachspezifische annotierte Ressourcen zu benötigen. Durch eine umfassende Bewertung von Web-Daten vergleichen wir LLM-basierte Vorverarbeitung mit traditionellen Algorithmen in mehreren Textklassifizierungsaufgaben über sechs europäische Sprachen. Die Analyse zeigt, dass LLMs traditionelle Stoppwort-Entfernung, Lemmatisierung und Stemming-Methoden mit Genauigkeitsraten von 97%, 82% bzw. 74% replizieren können. Darüber hinaus erzielen ML-Algorithmen, die auf von LLMs vorverarbeiteten Texten trainiert werden, Verbesserungen von bis zu 6% in der F1-Metrik gegenüber traditionellen Techniken.

Forschungshintergrund und Motivation

Problemdefinition

Textvorverarbeitung ist ein kritischer Schritt in der NLP-Pipeline und umfasst Operationen wie Stoppwort-Entfernung, Stemming und Lemmatisierung. Diese Operationen zielen darauf ab, Text zu standardisieren, Rechenkosten zu senken und Rauschen sowie irrelevante Informationen zu reduzieren.

Einschränkungen bestehender Methoden

Mangelnde Kontextbewusstsein: Traditionelle Vorverarbeitungsmethoden basieren hauptsächlich auf vordefinierten Stoppwort-Listen und festen Stemming-/Lemmatisierungsregeln und ignorieren domänenspezifische Informationen und Kontext
Wortart-Mehrdeutigkeit: Beispielsweise sollte das Wort "saw" als Verb zu "see" lemmatisiert werden, als Substantiv aber als "saw" erhalten bleiben
Domänensensitivität: Dasselbe Wort kann in verschiedenen Domänen unterschiedlich behandelt werden, z.B. sollte "leaves" in botanischen Dokumenten zu "leaf" lemmatisiert werden, in Dokumenten über Mitarbeiterurlaub aber zu "leave"

Forschungsmotivation

LLMs verfügen über starke Sprachverständnisfähigkeiten und können Sprachkontext berücksichtigen, ohne umfangreiche sprachspezifische annotierte Ressourcen zu benötigen. Diese Forschung geht davon aus, dass LLMs Stoppwörter, Wortformen und Stämme dynamisch basierend auf dem Eingabedokument, dem Kontext und der Aufgabe erkennen können.

Kernbeiträge

Erste systematische Bewertung: Umfassende Bewertung der Fähigkeiten von LLMs bei Textvorverarbeitungsaufgaben (Stoppwort-Entfernung, Lemmatisierung, Stemming)
Mehrsprachige Analyse: Validierung der Methodeneffektivität über sechs europäische Sprachen (Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch)
Bewertung nachgelagerter Aufgaben: Nachweis von Leistungsverbesserungen der LLM-Vorverarbeitung gegenüber traditionellen Methoden bei Textklassifizierungsaufgaben
Open-Source-Beitrag: Veröffentlichung von Code, Prompts und Versuchsergebnissen zur Förderung reproduzierbarer Forschung

Methodische Details

Aufgabendefinition

Diese Forschung definiert drei Kernvorverarbeitungsaufgaben:

Stoppwort-Entfernung: Identifikation und Entfernung von Vokabeln, die für eine bestimmte Aufgabe nicht relevant sind
Lemmatisierung: Rückführung von Vokabeln auf ihre Wörterbuchform (Lemma)
Stemming: Vereinfachung von Vokabeln auf ihre Wurzelform

LLM-Vorverarbeitungsmethode

Die Forschung nutzt In-Context-Learning-Methoden und stellt LLMs folgende Informationen bereit:

Aufgabenbeschreibung: Formale Definition der Vorverarbeitungsoperation
Beispiele: Wenige Vorverarbeitungsbeispiele
Eingabetext: Der zu verarbeitende Text
Sprachinformation: Sprachidentifikation des Textes
Aufgabenkontext: Spezifische Informationen zur nachgelagerten Aufgabe

Prompt-Engineering

Spezialisierte Prompt-Vorlagen wurden für verschiedene Vorverarbeitungsaufgaben entwickelt:

Beispiel Stoppwort-Entfernung:

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

Beispiel Lemmatisierung:

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

Mehrsprachige Verarbeitungsstrategie

Für nicht-englische Sprachen werden sowohl englische als auch zielsprachige Prompts verwendet
Bewertung, ob sprachspezifische Prompts zusätzliche Kontextvorteil bieten

Experimentelle Einrichtung

Datensätze

Englische Datensätze

SemEval-Serie: Umfasst Emoji-Vorhersage, Ironie-Erkennung, Hassrede-Erkennung, Beleidigungserkennung und Sentimentanalyse
Nachrichtenklassifizierung: Reuters- und AG News-Datensätze
Schwerpunkt: Social-Media-Daten wie Twitter wegen ihrer informellen Sprache und hohen Rauschpegel

Mehrsprachige Datensätze

Tweet Sentiment Multilingual Corpus: Abdeckung von Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch
Sampling-Strategie: Aufgrund von Rechenkosten zufällige Stichprobennahme von maximal 3000 Trainings- und 3000 Testdokumenten

Modellauswahl

Bewertung von fünf Open-Source-SOTA-LLMs:

Gemma-2-9B und Gemma-3-4B: Hauptsächlich auf englischen Daten trainiert
LLama-3.1-8B: Nativ mehrsprachiges Modell
Phi-4-mini (3.8B): Hauptsächlich englisches Training
Qwen-2.5-7B: Nativ mehrsprachiges Modell

Baseline-Methoden

Stoppwort-Entfernung: Von NLTK bereitgestellte Stoppwort-Listen
Stemming: Porter-, Lancaster- und Snowball-Algorithmen
Lemmatisierung: Von spaCy bereitgestellte regelbasierte oder Edit-Tree-Lemmatisierer

Bewertungsmetriken

RQ1-Bewertung

SW: Prozentsatz der von LLM entfernten Vokabeln, die mit der NLTK-Stoppwort-Liste übereinstimmen
NSW: Prozentsatz der von LLM entfernten Nicht-Stoppwörter
L: Prozentsatz der LLM-Lemmatisierungsergebnisse, die mit traditionellen Methoden übereinstimmen
S: Prozentsatz der LLM-Stemming-Ergebnisse, die mit traditionellen Methoden übereinstimmen

RQ2-Bewertung

Verwendung von Mikro-durchschnittlicher F1-Punktzahl zur Bewertung der Klassifizierungsleistung
Durchschnittswertbildung über drei ML-Algorithmen: Entscheidungsbäume, logistische Regression, naiver Bayes

Versuchsergebnisse

Bewertung der Vorverarbeitungsfähigkeiten (RQ1)

Englische Ergebnisse

Stoppwort-Entfernung: Gemma-2 zeigt beste Leistung mit 84,29% Genauigkeit
Lemmatisierung: Alle Modelle überschreiten 77% Genauigkeit, Gemma-2 erreicht 82,61%
Stemming: Relativ niedrigere Leistung, Gemma-2 erreicht 75,65% (Übereinstimmung mit einem traditionellen Algorithmus)

Mehrsprachige Ergebnisse

Stoppwort-Entfernung: Gemma-2 erreicht 97% Genauigkeit im Französischen, andere Sprachen mindestens 79%
Lemmatisierung: Qwen-2.5 zeigt beste Leistung im Französischen, Italienischen und Spanischen
Sprachspezifische Prompts: Keine konsistenten Beweise dafür, dass zielsprachige Prompts bessere Ergebnisse liefern

Leistung nachgelagerter Aufgaben (RQ2)

Englische Textklassifizierung

Gesamtleistung: LLMs übertreffen traditionelle Methoden in 25 von 35 Datensatz-Vorverarbeitungsaufgaben-Kombinationen
Beste Ergebnisse: Gemma-2 auf AG News-Datensatz mit Stoppwort-Entfernung + Lemmatisierung-Aufgabe zeigt 6,16% Verbesserung gegenüber traditionellen Methoden
Stemming-Einschränkungen: LLM-Stemming übertrifft traditionelle Methoden nur in 3 von 7 Datensätzen

Mehrsprachige Textklassifizierung

Durchschnittliche Leistung: LLMs erreichen in etwa der Hälfte der Bewertungsfälle vergleichbare oder bessere Leistung als traditionelle Techniken
Lemmatisierungsvorteil: Erreicht beste Leistung in 4 von 5 Datensätzen
Sprachspezifische Muster: Llama-3.1 zeigt mit sprachspezifischen Prompts in 80% der Aufgaben Leistungsverbesserungen

Schlüsselfeststellungen

Kontextsensitivität: LLMs entfernen häufig Vokabeln, die traditionell nicht als Stoppwörter betrachtet werden, was die Hypothese unterstützt, dass Kontextverständnis die Stoppwortauswahl beeinflusst
Stemming-Inkonsistenz: LLMs können für dasselbe Wort in verschiedenen Dokumenten unterschiedliche Stämme erzeugen, was zu nicht standardisierter Textrepräsentation führt
Modellgrößeneffekt: Gemma-3 zeigt trotz etwa halb so vieler Parameter wie andere große Modelle oft vergleichbare oder überlegene Leistung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Replikationsfähigkeit: LLMs können traditionelle Vorverarbeitungsmethoden effektiv replizieren mit Genauigkeitsraten von 97%, 82% bzw. 74% für Stoppwort-Entfernung, Lemmatisierung und Stemming
Leistungsverbesserung: ML-Algorithmen basierend auf LLM-Vorverarbeitung erreichen bis zu 6% Verbesserung in der F1-Metrik
Mehrsprachige Effektivität: Methode zeigt Effektivität über mehrere europäische Sprachen

Einschränkungen

Bewertungseinschränkungen: Es können Fälle existieren, in denen LLMs traditionelle Bibliotheken übertreffen, aber nicht durch Bewertungsmetriken erfasst werden
Rechenkosten: Rechenkosten der LLM-Vorverarbeitung sind erheblich höher als traditionelle Methoden
Prompt-Engineering: Keine umfassende Prompt-Engineering-Exploration, die Ergebnisse beeinflussen könnte
Stemming-Konsistenz: LLMs zeigen Mangel an Konsistenz beim Stemming, was die Leistung nachgelagerter Aufgaben beeinflusst

Zukünftige Richtungen

Erkundung von LLMs als Stemming- und Lemmatisierungswerkzeuge für ressourcenarm Sprachen
Untersuchung effektiverer Prompt-Strategien und In-Context-Learning-Methoden
Entwicklung rechnerisch effizienter LLM-Vorverarbeitungslösungen

Tiefgreifende Bewertung

Stärken

Forschungsnovität: Erste systematische Bewertung der LLM-Fähigkeiten bei Textvorverarbeitungsaufgaben
Experimentelle Umfassendheit: Umfassende Bewertung über mehrere Sprachen, Aufgaben und Modelle
Praktischer Wert: Bietet neue Lösungen für Textvorverarbeitung in ressourcenarm Sprachen
Open-Source-Beitrag: Bereitstellung vollständiger Code und Daten zur Förderung reproduzierbarer Forschung

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse der LLM-Vorverarbeitungsmechanismen
Recheneffizienzprobleme: Unzureichende Diskussion des Kompromisses zwischen Rechenkosten und Leistungsverbesserung
Prompt-Sensitivität: Unzureichende Erkundung der Auswirkungen verschiedener Prompt-Strategien auf Ergebnisse
Fehlende Fehleranalyse: Mangel an detaillierter Analyse von LLM-Vorverarbeitungsfehlertypologie

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für NLP-Vorverarbeitungsfeld
Praktischer Wert: Besonders anwendbar auf ressourcenarm Sprachen mit mangelnden Vorverarbeitungswerkzeugen
Methodische Inspiration: Zeigt Potenzial von LLMs bei traditionellen NLP-Aufgaben

Anwendungsszenarien

Verarbeitung ressourcenarm Sprachen: Sprachen mit mangelnden hochwertigen Lemmatisierern und Stemmern
Domänenspezifische Anwendungen: Spezifische Domänenaufgaben, die kontextbewusste Vorverarbeitung erfordern
Mehrsprachige Systeme: Sprachübergreifende Anwendungen, die einheitliche Vorverarbeitungslösungen benötigen

Literaturverzeichnis

Das Papier zitiert 37 relevante Arbeiten, die wichtige Werke in Bereichen wie LLMs, Textvorverarbeitung, Information Retrieval und mehrsprachige NLP abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Zusammenfassung: Dieses Papier erforscht bahnbrechend die Anwendung von LLMs bei der Textvorverarbeitung und beweist durch umfassende mehrsprachige Experimente die Vorteile von LLMs bei kontextbewusster Vorverarbeitung. Trotz Einschränkungen wie hoher Rechenkosten bietet es wertvolle Lösungen für ressourcenarm Sprachen und kontextbewusste Vorverarbeitungsaufgaben.