2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic

Untersuchung der linguistischen Fähigkeiten großer Sprachmodelle zur Textvorverarbeitung

Grundlegende Informationen

  • Papier-ID: 2510.11482
  • Titel: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
  • Autoren: Marco Braga (Universität Milano-Bicocca), Gian Carlo Milanese (Universität Milano-Bicocca), Gabriella Pasi (Universität Milano-Bicocca)
  • Klassifizierung: cs.CL (Computerlinguistik), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.11482

Zusammenfassung

Textvorverarbeitung ist eine grundlegende Komponente der Verarbeitung natürlicher Sprache (NLP), die Techniken wie Stoppwort-Entfernung, Stemming und Lemmatisierung umfasst, um Texteingaben für nachfolgende Verarbeitung und Analyse vorzubereiten. Obwohl diese Techniken kontextabhängig sind, ignorieren traditionelle Methoden typischerweise Kontextinformationen. Dieses Papier untersucht die Idee, große Sprachmodelle (LLMs) zur Durchführung verschiedener Vorverarbeitungsaufgaben einzusetzen, da sie in der Lage sind, Kontext zu berücksichtigen, ohne umfangreiche sprachspezifische annotierte Ressourcen zu benötigen. Durch eine umfassende Bewertung von Web-Daten vergleichen wir LLM-basierte Vorverarbeitung mit traditionellen Algorithmen in mehreren Textklassifizierungsaufgaben über sechs europäische Sprachen. Die Analyse zeigt, dass LLMs traditionelle Stoppwort-Entfernung, Lemmatisierung und Stemming-Methoden mit Genauigkeitsraten von 97%, 82% bzw. 74% replizieren können. Darüber hinaus erzielen ML-Algorithmen, die auf von LLMs vorverarbeiteten Texten trainiert werden, Verbesserungen von bis zu 6% in der F1-Metrik gegenüber traditionellen Techniken.

Forschungshintergrund und Motivation

Problemdefinition

Textvorverarbeitung ist ein kritischer Schritt in der NLP-Pipeline und umfasst Operationen wie Stoppwort-Entfernung, Stemming und Lemmatisierung. Diese Operationen zielen darauf ab, Text zu standardisieren, Rechenkosten zu senken und Rauschen sowie irrelevante Informationen zu reduzieren.

Einschränkungen bestehender Methoden

  1. Mangelnde Kontextbewusstsein: Traditionelle Vorverarbeitungsmethoden basieren hauptsächlich auf vordefinierten Stoppwort-Listen und festen Stemming-/Lemmatisierungsregeln und ignorieren domänenspezifische Informationen und Kontext
  2. Wortart-Mehrdeutigkeit: Beispielsweise sollte das Wort "saw" als Verb zu "see" lemmatisiert werden, als Substantiv aber als "saw" erhalten bleiben
  3. Domänensensitivität: Dasselbe Wort kann in verschiedenen Domänen unterschiedlich behandelt werden, z.B. sollte "leaves" in botanischen Dokumenten zu "leaf" lemmatisiert werden, in Dokumenten über Mitarbeiterurlaub aber zu "leave"

Forschungsmotivation

LLMs verfügen über starke Sprachverständnisfähigkeiten und können Sprachkontext berücksichtigen, ohne umfangreiche sprachspezifische annotierte Ressourcen zu benötigen. Diese Forschung geht davon aus, dass LLMs Stoppwörter, Wortformen und Stämme dynamisch basierend auf dem Eingabedokument, dem Kontext und der Aufgabe erkennen können.

Kernbeiträge

  1. Erste systematische Bewertung: Umfassende Bewertung der Fähigkeiten von LLMs bei Textvorverarbeitungsaufgaben (Stoppwort-Entfernung, Lemmatisierung, Stemming)
  2. Mehrsprachige Analyse: Validierung der Methodeneffektivität über sechs europäische Sprachen (Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch)
  3. Bewertung nachgelagerter Aufgaben: Nachweis von Leistungsverbesserungen der LLM-Vorverarbeitung gegenüber traditionellen Methoden bei Textklassifizierungsaufgaben
  4. Open-Source-Beitrag: Veröffentlichung von Code, Prompts und Versuchsergebnissen zur Förderung reproduzierbarer Forschung

Methodische Details

Aufgabendefinition

Diese Forschung definiert drei Kernvorverarbeitungsaufgaben:

  • Stoppwort-Entfernung: Identifikation und Entfernung von Vokabeln, die für eine bestimmte Aufgabe nicht relevant sind
  • Lemmatisierung: Rückführung von Vokabeln auf ihre Wörterbuchform (Lemma)
  • Stemming: Vereinfachung von Vokabeln auf ihre Wurzelform

LLM-Vorverarbeitungsmethode

Die Forschung nutzt In-Context-Learning-Methoden und stellt LLMs folgende Informationen bereit:

  1. Aufgabenbeschreibung: Formale Definition der Vorverarbeitungsoperation
  2. Beispiele: Wenige Vorverarbeitungsbeispiele
  3. Eingabetext: Der zu verarbeitende Text
  4. Sprachinformation: Sprachidentifikation des Textes
  5. Aufgabenkontext: Spezifische Informationen zur nachgelagerten Aufgabe

Prompt-Engineering

Spezialisierte Prompt-Vorlagen wurden für verschiedene Vorverarbeitungsaufgaben entwickelt:

Beispiel Stoppwort-Entfernung:

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

Beispiel Lemmatisierung:

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

Mehrsprachige Verarbeitungsstrategie

  • Für nicht-englische Sprachen werden sowohl englische als auch zielsprachige Prompts verwendet
  • Bewertung, ob sprachspezifische Prompts zusätzliche Kontextvorteil bieten

Experimentelle Einrichtung

Datensätze

Englische Datensätze

  • SemEval-Serie: Umfasst Emoji-Vorhersage, Ironie-Erkennung, Hassrede-Erkennung, Beleidigungserkennung und Sentimentanalyse
  • Nachrichtenklassifizierung: Reuters- und AG News-Datensätze
  • Schwerpunkt: Social-Media-Daten wie Twitter wegen ihrer informellen Sprache und hohen Rauschpegel

Mehrsprachige Datensätze

  • Tweet Sentiment Multilingual Corpus: Abdeckung von Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch
  • Sampling-Strategie: Aufgrund von Rechenkosten zufällige Stichprobennahme von maximal 3000 Trainings- und 3000 Testdokumenten

Modellauswahl

Bewertung von fünf Open-Source-SOTA-LLMs:

  • Gemma-2-9B und Gemma-3-4B: Hauptsächlich auf englischen Daten trainiert
  • LLama-3.1-8B: Nativ mehrsprachiges Modell
  • Phi-4-mini (3.8B): Hauptsächlich englisches Training
  • Qwen-2.5-7B: Nativ mehrsprachiges Modell

Baseline-Methoden

  • Stoppwort-Entfernung: Von NLTK bereitgestellte Stoppwort-Listen
  • Stemming: Porter-, Lancaster- und Snowball-Algorithmen
  • Lemmatisierung: Von spaCy bereitgestellte regelbasierte oder Edit-Tree-Lemmatisierer

Bewertungsmetriken

RQ1-Bewertung

  • SW: Prozentsatz der von LLM entfernten Vokabeln, die mit der NLTK-Stoppwort-Liste übereinstimmen
  • NSW: Prozentsatz der von LLM entfernten Nicht-Stoppwörter
  • L: Prozentsatz der LLM-Lemmatisierungsergebnisse, die mit traditionellen Methoden übereinstimmen
  • S: Prozentsatz der LLM-Stemming-Ergebnisse, die mit traditionellen Methoden übereinstimmen

RQ2-Bewertung

  • Verwendung von Mikro-durchschnittlicher F1-Punktzahl zur Bewertung der Klassifizierungsleistung
  • Durchschnittswertbildung über drei ML-Algorithmen: Entscheidungsbäume, logistische Regression, naiver Bayes

Versuchsergebnisse

Bewertung der Vorverarbeitungsfähigkeiten (RQ1)

Englische Ergebnisse

  • Stoppwort-Entfernung: Gemma-2 zeigt beste Leistung mit 84,29% Genauigkeit
  • Lemmatisierung: Alle Modelle überschreiten 77% Genauigkeit, Gemma-2 erreicht 82,61%
  • Stemming: Relativ niedrigere Leistung, Gemma-2 erreicht 75,65% (Übereinstimmung mit einem traditionellen Algorithmus)

Mehrsprachige Ergebnisse

  • Stoppwort-Entfernung: Gemma-2 erreicht 97% Genauigkeit im Französischen, andere Sprachen mindestens 79%
  • Lemmatisierung: Qwen-2.5 zeigt beste Leistung im Französischen, Italienischen und Spanischen
  • Sprachspezifische Prompts: Keine konsistenten Beweise dafür, dass zielsprachige Prompts bessere Ergebnisse liefern

Leistung nachgelagerter Aufgaben (RQ2)

Englische Textklassifizierung

  • Gesamtleistung: LLMs übertreffen traditionelle Methoden in 25 von 35 Datensatz-Vorverarbeitungsaufgaben-Kombinationen
  • Beste Ergebnisse: Gemma-2 auf AG News-Datensatz mit Stoppwort-Entfernung + Lemmatisierung-Aufgabe zeigt 6,16% Verbesserung gegenüber traditionellen Methoden
  • Stemming-Einschränkungen: LLM-Stemming übertrifft traditionelle Methoden nur in 3 von 7 Datensätzen

Mehrsprachige Textklassifizierung

  • Durchschnittliche Leistung: LLMs erreichen in etwa der Hälfte der Bewertungsfälle vergleichbare oder bessere Leistung als traditionelle Techniken
  • Lemmatisierungsvorteil: Erreicht beste Leistung in 4 von 5 Datensätzen
  • Sprachspezifische Muster: Llama-3.1 zeigt mit sprachspezifischen Prompts in 80% der Aufgaben Leistungsverbesserungen

Schlüsselfeststellungen

  1. Kontextsensitivität: LLMs entfernen häufig Vokabeln, die traditionell nicht als Stoppwörter betrachtet werden, was die Hypothese unterstützt, dass Kontextverständnis die Stoppwortauswahl beeinflusst
  2. Stemming-Inkonsistenz: LLMs können für dasselbe Wort in verschiedenen Dokumenten unterschiedliche Stämme erzeugen, was zu nicht standardisierter Textrepräsentation führt
  3. Modellgrößeneffekt: Gemma-3 zeigt trotz etwa halb so vieler Parameter wie andere große Modelle oft vergleichbare oder überlegene Leistung

Verwandte Arbeiten

Anwendung von LLMs in NLP

  • LLMs erreichen SOTA-Leistung in breiten Aufgaben, besonders effektiv in Few-Shot-Einstellungen
  • Anwendbar auf ungesehene Aufgaben oder Domänen ohne zusätzliches überwachtes Fine-Tuning

Kontextbewusste Vorverarbeitung

  • Die Beziehung zwischen Vorverarbeitungsoperationen und Eingabetextkontext wird lange erforscht
  • Anwendung von kontextspezifischen Stoppwort-Definitionen in Information-Retrieval-Pipelines

Bestehende LLM-Vorverarbeitungsforschung

  • Frühere Arbeiten konzentrieren sich hauptsächlich auf Stemming in Information-Retrieval-Pipelines
  • Mangel an umfassender Analyse der LLM-Textvorverarbeitungsfähigkeiten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Replikationsfähigkeit: LLMs können traditionelle Vorverarbeitungsmethoden effektiv replizieren mit Genauigkeitsraten von 97%, 82% bzw. 74% für Stoppwort-Entfernung, Lemmatisierung und Stemming
  2. Leistungsverbesserung: ML-Algorithmen basierend auf LLM-Vorverarbeitung erreichen bis zu 6% Verbesserung in der F1-Metrik
  3. Mehrsprachige Effektivität: Methode zeigt Effektivität über mehrere europäische Sprachen

Einschränkungen

  1. Bewertungseinschränkungen: Es können Fälle existieren, in denen LLMs traditionelle Bibliotheken übertreffen, aber nicht durch Bewertungsmetriken erfasst werden
  2. Rechenkosten: Rechenkosten der LLM-Vorverarbeitung sind erheblich höher als traditionelle Methoden
  3. Prompt-Engineering: Keine umfassende Prompt-Engineering-Exploration, die Ergebnisse beeinflussen könnte
  4. Stemming-Konsistenz: LLMs zeigen Mangel an Konsistenz beim Stemming, was die Leistung nachgelagerter Aufgaben beeinflusst

Zukünftige Richtungen

  • Erkundung von LLMs als Stemming- und Lemmatisierungswerkzeuge für ressourcenarm Sprachen
  • Untersuchung effektiverer Prompt-Strategien und In-Context-Learning-Methoden
  • Entwicklung rechnerisch effizienter LLM-Vorverarbeitungslösungen

Tiefgreifende Bewertung

Stärken

  1. Forschungsnovität: Erste systematische Bewertung der LLM-Fähigkeiten bei Textvorverarbeitungsaufgaben
  2. Experimentelle Umfassendheit: Umfassende Bewertung über mehrere Sprachen, Aufgaben und Modelle
  3. Praktischer Wert: Bietet neue Lösungen für Textvorverarbeitung in ressourcenarm Sprachen
  4. Open-Source-Beitrag: Bereitstellung vollständiger Code und Daten zur Förderung reproduzierbarer Forschung

Mängel

  1. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse der LLM-Vorverarbeitungsmechanismen
  2. Recheneffizienzprobleme: Unzureichende Diskussion des Kompromisses zwischen Rechenkosten und Leistungsverbesserung
  3. Prompt-Sensitivität: Unzureichende Erkundung der Auswirkungen verschiedener Prompt-Strategien auf Ergebnisse
  4. Fehlende Fehleranalyse: Mangel an detaillierter Analyse von LLM-Vorverarbeitungsfehlertypologie

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für NLP-Vorverarbeitungsfeld
  2. Praktischer Wert: Besonders anwendbar auf ressourcenarm Sprachen mit mangelnden Vorverarbeitungswerkzeugen
  3. Methodische Inspiration: Zeigt Potenzial von LLMs bei traditionellen NLP-Aufgaben

Anwendungsszenarien

  1. Verarbeitung ressourcenarm Sprachen: Sprachen mit mangelnden hochwertigen Lemmatisierern und Stemmern
  2. Domänenspezifische Anwendungen: Spezifische Domänenaufgaben, die kontextbewusste Vorverarbeitung erfordern
  3. Mehrsprachige Systeme: Sprachübergreifende Anwendungen, die einheitliche Vorverarbeitungslösungen benötigen

Literaturverzeichnis

Das Papier zitiert 37 relevante Arbeiten, die wichtige Werke in Bereichen wie LLMs, Textvorverarbeitung, Information Retrieval und mehrsprachige NLP abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Zusammenfassung: Dieses Papier erforscht bahnbrechend die Anwendung von LLMs bei der Textvorverarbeitung und beweist durch umfassende mehrsprachige Experimente die Vorteile von LLMs bei kontextbewusster Vorverarbeitung. Trotz Einschränkungen wie hoher Rechenkosten bietet es wertvolle Lösungen für ressourcenarm Sprachen und kontextbewusste Vorverarbeitungsaufgaben.