Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic
Indagine sulle Capacità Linguistiche dei Modelli di Linguaggio di Grandi Dimensioni per la Preprocessazione del Testo
La preprocessazione del testo rappresenta una componente fondamentale dell'elaborazione del linguaggio naturale, coinvolgendo tecniche quali la rimozione delle parole vuote, l'estrazione del tema e la lemmatizzazione, utilizzate per preparare l'input testuale per l'elaborazione e l'analisi successiva. Sebbene queste tecniche presentino dipendenze contestuali, i metodi tradizionali generalmente trascurano le informazioni di contesto. Questo articolo esamina l'idea di utilizzare modelli di linguaggio di grandi dimensioni (LLM) per eseguire vari compiti di preprocessazione, poiché possiedono la capacità di considerare il contesto senza richiedere ingenti risorse annotate specifiche per la lingua. Attraverso una valutazione completa su dati web, confrontiamo la preprocessazione basata su LLM con gli algoritmi tradizionali in molteplici compiti di classificazione testuale in sei lingue europee. L'analisi dimostra che gli LLM sono in grado di replicare i metodi tradizionali di rimozione delle parole vuote, lemmatizzazione ed estrazione del tema, raggiungendo rispettivamente accuratezze del 97%, 82% e 74%. Inoltre, gli algoritmi di machine learning addestrati su testi preprocessati da LLM mostrano miglioramenti fino al 6% nella metrica F1 rispetto alle tecniche tradizionali.
La preprocessazione del testo rappresenta un passaggio critico nella pipeline dell'NLP, includendo operazioni quali la rimozione delle parole vuote, l'estrazione del tema e la lemmatizzazione. Lo scopo di queste operazioni è standardizzare il testo, ridurre i costi computazionali e diminuire il rumore e le informazioni irrilevanti.
Mancanza di Consapevolezza Contestuale: I metodi tradizionali di preprocessazione si basano principalmente su liste predefinite di parole vuote e regole fisse di tema/lemmatizzazione, trascurando le informazioni specifiche del dominio e il contesto
Problema dell'Ambiguità Morfosintattica: Ad esempio, la parola "saw" dovrebbe essere lemmatizzata a "see" quando utilizzata come verbo, ma mantenuta come "saw" quando utilizzata come sostantivo
Sensibilità al Dominio: La stessa parola può richiedere trattamenti diversi in domini differenti, come "leaves" che dovrebbe essere lemmatizzato a "leaf" in documenti di botanica, ma a "leave" in documenti relativi alle ferie dei dipendenti
Gli LLM possiedono forti capacità di comprensione linguistica e sono in grado di considerare il contesto linguistico senza necessitare di ingenti risorse annotate specifiche per la lingua. Questa ricerca ipotizza che gli LLM possano rilevare dinamicamente parole vuote, forme e temi sulla base del documento di input, del contesto e del compito.
Prima Valutazione Sistematica: Valutazione completa delle capacità degli LLM nei compiti di preprocessazione del testo (rimozione delle parole vuote, lemmatizzazione, estrazione del tema)
Analisi Multilingue: Verifica dell'efficacia del metodo su sei lingue europee (inglese, francese, tedesco, italiano, portoghese, spagnolo)
Valutazione dei Compiti Downstream: Dimostrazione del miglioramento delle prestazioni della preprocessazione basata su LLM rispetto ai metodi tradizionali nei compiti di classificazione testuale
Contributo Open Source: Divulgazione di codice, prompt e risultati sperimentali per promuovere la ricerca riproducibile
Sono stati progettati modelli di prompt specializzati per diversi compiti di preprocessazione:
Esempio di Rimozione delle Parole Vuote:
You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.
Esempio di Lemmatizzazione:
You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.
Serie SemEval: Include previsione di emoji, rilevamento dell'ironia, rilevamento del discorso d'odio, identificazione del linguaggio offensivo e analisi del sentimento
Classificazione di Notizie: Dataset Reuters e AG News
Focus Particolare: Dati dai social media come Twitter, a causa del linguaggio informale e dell'elevato livello di rumore
Strategia di Campionamento: A causa dei costi computazionali, campionamento casuale di massimo 3000 documenti di addestramento e 3000 documenti di test
Prestazioni Complessive: Gli LLM superano i metodi tradizionali in 25 su 35 combinazioni dataset-compito di preprocessazione
Risultati Migliori: Gemma-2 nel dataset AG News nel compito di rimozione delle parole vuote + lemmatizzazione mostra un miglioramento del 6,16% rispetto ai metodi tradizionali
Limitazioni dell'Estrazione del Tema: L'estrazione del tema basata su LLM supera i metodi tradizionali solo in 3 su 7 dataset
Sensibilità Contestuale: Gli LLM spesso rimuovono vocabolario non tradizionalmente considerato come parole vuote, supportando l'ipotesi che la comprensione contestuale influenzi la selezione delle parole vuote
Incoerenza nell'Estrazione del Tema: Gli LLM possono produrre temi diversi per lo stesso vocabolario in documenti diversi, risultando in rappresentazioni testuali non standardizzate
Effetto della Dimensione del Modello: Gemma-3, nonostante abbia circa la metà dei parametri di altri modelli più grandi, spesso mostra prestazioni comparabili o superiori
Capacità di Replicazione: Gli LLM sono in grado di replicare efficacemente i metodi tradizionali di preprocessazione, raggiungendo accuratezze rispettivamente del 97%, 82% e 74% per la rimozione delle parole vuote, la lemmatizzazione e l'estrazione del tema
Miglioramento delle Prestazioni: Gli algoritmi di machine learning addestrati su testi preprocessati da LLM mostrano miglioramenti fino al 6% nella metrica F1
Efficacia Multilingue: Il metodo dimostra efficacia su molteplici lingue europee
Limitazioni della Valutazione: Potrebbero esistere casi in cui gli LLM superano le librerie tradizionali ma non vengono catturati dalle metriche di valutazione
Costi Computazionali: I costi computazionali della preprocessazione con LLM sono significativamente superiori ai metodi tradizionali
Ingegneria dei Prompt: Non è stata condotta un'ampia ingegneria dei prompt, che potrebbe influenzare i risultati
Coerenza nell'Estrazione del Tema: Gli LLM mancano di coerenza nell'estrazione del tema, influenzando le prestazioni dei compiti downstream
L'articolo cita 37 lavori correlati, coprendo importanti contributi nei campi degli LLM, della preprocessazione testuale, del recupero dell'informazione e dell'NLP multilingue, fornendo una solida base teorica per la ricerca.
Sintesi: Questo articolo esplora in modo innovativo l'applicazione degli LLM nella preprocessazione testuale, dimostrando attraverso esperimenti multilingui completi i vantaggi degli LLM nella preprocessazione consapevole del contesto. Sebbene presenti limitazioni quali i costi computazionali elevati, fornisce soluzioni preziose per le lingue a basse risorse e i compiti di preprocessazione sensibili al contesto.