Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic
Untersuchung der linguistischen Fähigkeiten großer Sprachmodelle zur Textvorverarbeitung
Textvorverarbeitung ist eine grundlegende Komponente der Verarbeitung natürlicher Sprache (NLP), die Techniken wie Stoppwort-Entfernung, Stemming und Lemmatisierung umfasst, um Texteingaben für nachfolgende Verarbeitung und Analyse vorzubereiten. Obwohl diese Techniken kontextabhängig sind, ignorieren traditionelle Methoden typischerweise Kontextinformationen. Dieses Papier untersucht die Idee, große Sprachmodelle (LLMs) zur Durchführung verschiedener Vorverarbeitungsaufgaben einzusetzen, da sie in der Lage sind, Kontext zu berücksichtigen, ohne umfangreiche sprachspezifische annotierte Ressourcen zu benötigen. Durch eine umfassende Bewertung von Web-Daten vergleichen wir LLM-basierte Vorverarbeitung mit traditionellen Algorithmen in mehreren Textklassifizierungsaufgaben über sechs europäische Sprachen. Die Analyse zeigt, dass LLMs traditionelle Stoppwort-Entfernung, Lemmatisierung und Stemming-Methoden mit Genauigkeitsraten von 97%, 82% bzw. 74% replizieren können. Darüber hinaus erzielen ML-Algorithmen, die auf von LLMs vorverarbeiteten Texten trainiert werden, Verbesserungen von bis zu 6% in der F1-Metrik gegenüber traditionellen Techniken.
Textvorverarbeitung ist ein kritischer Schritt in der NLP-Pipeline und umfasst Operationen wie Stoppwort-Entfernung, Stemming und Lemmatisierung. Diese Operationen zielen darauf ab, Text zu standardisieren, Rechenkosten zu senken und Rauschen sowie irrelevante Informationen zu reduzieren.
Mangelnde Kontextbewusstsein: Traditionelle Vorverarbeitungsmethoden basieren hauptsächlich auf vordefinierten Stoppwort-Listen und festen Stemming-/Lemmatisierungsregeln und ignorieren domänenspezifische Informationen und Kontext
Wortart-Mehrdeutigkeit: Beispielsweise sollte das Wort "saw" als Verb zu "see" lemmatisiert werden, als Substantiv aber als "saw" erhalten bleiben
Domänensensitivität: Dasselbe Wort kann in verschiedenen Domänen unterschiedlich behandelt werden, z.B. sollte "leaves" in botanischen Dokumenten zu "leaf" lemmatisiert werden, in Dokumenten über Mitarbeiterurlaub aber zu "leave"
LLMs verfügen über starke Sprachverständnisfähigkeiten und können Sprachkontext berücksichtigen, ohne umfangreiche sprachspezifische annotierte Ressourcen zu benötigen. Diese Forschung geht davon aus, dass LLMs Stoppwörter, Wortformen und Stämme dynamisch basierend auf dem Eingabedokument, dem Kontext und der Aufgabe erkennen können.
Erste systematische Bewertung: Umfassende Bewertung der Fähigkeiten von LLMs bei Textvorverarbeitungsaufgaben (Stoppwort-Entfernung, Lemmatisierung, Stemming)
Mehrsprachige Analyse: Validierung der Methodeneffektivität über sechs europäische Sprachen (Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch)
Bewertung nachgelagerter Aufgaben: Nachweis von Leistungsverbesserungen der LLM-Vorverarbeitung gegenüber traditionellen Methoden bei Textklassifizierungsaufgaben
Open-Source-Beitrag: Veröffentlichung von Code, Prompts und Versuchsergebnissen zur Förderung reproduzierbarer Forschung
Spezialisierte Prompt-Vorlagen wurden für verschiedene Vorverarbeitungsaufgaben entwickelt:
Beispiel Stoppwort-Entfernung:
You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.
Beispiel Lemmatisierung:
You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.
Gesamtleistung: LLMs übertreffen traditionelle Methoden in 25 von 35 Datensatz-Vorverarbeitungsaufgaben-Kombinationen
Beste Ergebnisse: Gemma-2 auf AG News-Datensatz mit Stoppwort-Entfernung + Lemmatisierung-Aufgabe zeigt 6,16% Verbesserung gegenüber traditionellen Methoden
Stemming-Einschränkungen: LLM-Stemming übertrifft traditionelle Methoden nur in 3 von 7 Datensätzen
Kontextsensitivität: LLMs entfernen häufig Vokabeln, die traditionell nicht als Stoppwörter betrachtet werden, was die Hypothese unterstützt, dass Kontextverständnis die Stoppwortauswahl beeinflusst
Stemming-Inkonsistenz: LLMs können für dasselbe Wort in verschiedenen Dokumenten unterschiedliche Stämme erzeugen, was zu nicht standardisierter Textrepräsentation führt
Modellgrößeneffekt: Gemma-3 zeigt trotz etwa halb so vieler Parameter wie andere große Modelle oft vergleichbare oder überlegene Leistung
Replikationsfähigkeit: LLMs können traditionelle Vorverarbeitungsmethoden effektiv replizieren mit Genauigkeitsraten von 97%, 82% bzw. 74% für Stoppwort-Entfernung, Lemmatisierung und Stemming
Leistungsverbesserung: ML-Algorithmen basierend auf LLM-Vorverarbeitung erreichen bis zu 6% Verbesserung in der F1-Metrik
Mehrsprachige Effektivität: Methode zeigt Effektivität über mehrere europäische Sprachen
Bewertungseinschränkungen: Es können Fälle existieren, in denen LLMs traditionelle Bibliotheken übertreffen, aber nicht durch Bewertungsmetriken erfasst werden
Rechenkosten: Rechenkosten der LLM-Vorverarbeitung sind erheblich höher als traditionelle Methoden
Prompt-Engineering: Keine umfassende Prompt-Engineering-Exploration, die Ergebnisse beeinflussen könnte
Stemming-Konsistenz: LLMs zeigen Mangel an Konsistenz beim Stemming, was die Leistung nachgelagerter Aufgaben beeinflusst
Das Papier zitiert 37 relevante Arbeiten, die wichtige Werke in Bereichen wie LLMs, Textvorverarbeitung, Information Retrieval und mehrsprachige NLP abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Zusammenfassung: Dieses Papier erforscht bahnbrechend die Anwendung von LLMs bei der Textvorverarbeitung und beweist durch umfassende mehrsprachige Experimente die Vorteile von LLMs bei kontextbewusster Vorverarbeitung. Trotz Einschränkungen wie hoher Rechenkosten bietet es wertvolle Lösungen für ressourcenarm Sprachen und kontextbewusste Vorverarbeitungsaufgaben.