2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic

Indagine sulle Capacità Linguistiche dei Modelli di Linguaggio di Grandi Dimensioni per la Preprocessazione del Testo

Informazioni Fondamentali

  • ID Articolo: 2510.11482
  • Titolo: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
  • Autori: Marco Braga (Università di Milano-Bicocca), Gian Carlo Milanese (Università di Milano-Bicocca), Gabriella Pasi (Università di Milano-Bicocca)
  • Classificazione: cs.CL (Linguistica Computazionale), cs.AI (Intelligenza Artificiale)
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.11482

Riassunto

La preprocessazione del testo rappresenta una componente fondamentale dell'elaborazione del linguaggio naturale, coinvolgendo tecniche quali la rimozione delle parole vuote, l'estrazione del tema e la lemmatizzazione, utilizzate per preparare l'input testuale per l'elaborazione e l'analisi successiva. Sebbene queste tecniche presentino dipendenze contestuali, i metodi tradizionali generalmente trascurano le informazioni di contesto. Questo articolo esamina l'idea di utilizzare modelli di linguaggio di grandi dimensioni (LLM) per eseguire vari compiti di preprocessazione, poiché possiedono la capacità di considerare il contesto senza richiedere ingenti risorse annotate specifiche per la lingua. Attraverso una valutazione completa su dati web, confrontiamo la preprocessazione basata su LLM con gli algoritmi tradizionali in molteplici compiti di classificazione testuale in sei lingue europee. L'analisi dimostra che gli LLM sono in grado di replicare i metodi tradizionali di rimozione delle parole vuote, lemmatizzazione ed estrazione del tema, raggiungendo rispettivamente accuratezze del 97%, 82% e 74%. Inoltre, gli algoritmi di machine learning addestrati su testi preprocessati da LLM mostrano miglioramenti fino al 6% nella metrica F1 rispetto alle tecniche tradizionali.

Contesto di Ricerca e Motivazione

Definizione del Problema

La preprocessazione del testo rappresenta un passaggio critico nella pipeline dell'NLP, includendo operazioni quali la rimozione delle parole vuote, l'estrazione del tema e la lemmatizzazione. Lo scopo di queste operazioni è standardizzare il testo, ridurre i costi computazionali e diminuire il rumore e le informazioni irrilevanti.

Limitazioni dei Metodi Esistenti

  1. Mancanza di Consapevolezza Contestuale: I metodi tradizionali di preprocessazione si basano principalmente su liste predefinite di parole vuote e regole fisse di tema/lemmatizzazione, trascurando le informazioni specifiche del dominio e il contesto
  2. Problema dell'Ambiguità Morfosintattica: Ad esempio, la parola "saw" dovrebbe essere lemmatizzata a "see" quando utilizzata come verbo, ma mantenuta come "saw" quando utilizzata come sostantivo
  3. Sensibilità al Dominio: La stessa parola può richiedere trattamenti diversi in domini differenti, come "leaves" che dovrebbe essere lemmatizzato a "leaf" in documenti di botanica, ma a "leave" in documenti relativi alle ferie dei dipendenti

Motivazione della Ricerca

Gli LLM possiedono forti capacità di comprensione linguistica e sono in grado di considerare il contesto linguistico senza necessitare di ingenti risorse annotate specifiche per la lingua. Questa ricerca ipotizza che gli LLM possano rilevare dinamicamente parole vuote, forme e temi sulla base del documento di input, del contesto e del compito.

Contributi Principali

  1. Prima Valutazione Sistematica: Valutazione completa delle capacità degli LLM nei compiti di preprocessazione del testo (rimozione delle parole vuote, lemmatizzazione, estrazione del tema)
  2. Analisi Multilingue: Verifica dell'efficacia del metodo su sei lingue europee (inglese, francese, tedesco, italiano, portoghese, spagnolo)
  3. Valutazione dei Compiti Downstream: Dimostrazione del miglioramento delle prestazioni della preprocessazione basata su LLM rispetto ai metodi tradizionali nei compiti di classificazione testuale
  4. Contributo Open Source: Divulgazione di codice, prompt e risultati sperimentali per promuovere la ricerca riproducibile

Dettagli Metodologici

Definizione dei Compiti

Questo studio definisce tre compiti di preprocessazione fondamentali:

  • Rimozione delle Parole Vuote: Identificazione e rimozione del vocabolario non rilevante per un compito specifico
  • Lemmatizzazione: Riduzione del vocabolario alla sua forma dizionariale (lemma)
  • Estrazione del Tema: Semplificazione del vocabolario alla sua forma radicale

Metodo di Preprocessazione con LLM

Lo studio impiega il metodo dell'apprendimento in contesto (in-context learning), fornendo agli LLM:

  1. Descrizione del Compito: Definizione formale dell'operazione di preprocessazione
  2. Esempi: Pochi esempi di preprocessazione
  3. Testo di Input: Testo da preprocessare
  4. Informazioni Linguistiche: Identificazione della lingua del testo
  5. Contesto del Compito: Informazioni specifiche del compito downstream

Ingegneria dei Prompt

Sono stati progettati modelli di prompt specializzati per diversi compiti di preprocessazione:

Esempio di Rimozione delle Parole Vuote:

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

Esempio di Lemmatizzazione:

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

Strategia di Elaborazione Multilingue

  • Per le lingue non inglesi, vengono utilizzati sia prompt in inglese che prompt nella lingua target
  • Valutazione se i prompt specifici della lingua forniscono vantaggi contestuali aggiuntivi

Configurazione Sperimentale

Dataset

Dataset in Inglese

  • Serie SemEval: Include previsione di emoji, rilevamento dell'ironia, rilevamento del discorso d'odio, identificazione del linguaggio offensivo e analisi del sentimento
  • Classificazione di Notizie: Dataset Reuters e AG News
  • Focus Particolare: Dati dai social media come Twitter, a causa del linguaggio informale e dell'elevato livello di rumore

Dataset Multilingui

  • Tweet Sentiment Multilingual Corpus: Copre francese, tedesco, italiano, portoghese, spagnolo
  • Strategia di Campionamento: A causa dei costi computazionali, campionamento casuale di massimo 3000 documenti di addestramento e 3000 documenti di test

Selezione dei Modelli

Valutazione di cinque LLM open-source SOTA:

  • Gemma-2-9B e Gemma-3-4B: Addestrati principalmente su dati in inglese
  • LLama-3.1-8B: Modello multilingue nativo
  • Phi-4-mini (3.8B): Addestramento principalmente in inglese
  • Qwen-2.5-7B: Modello multilingue nativo

Metodi di Base

  • Rimozione delle Parole Vuote: Lista di parole vuote fornita da NLTK
  • Estrazione del Tema: Algoritmi Porter, Lancaster e Snowball
  • Lemmatizzazione: Lemmatizzatori basati su regole o alberi di modifica forniti da spaCy

Metriche di Valutazione

Valutazione RQ1

  • SW: Percentuale di vocabolario rimosso da LLM che corrisponde alla lista di parole vuote di NLTK
  • NSW: Percentuale di parole non vuote rimosse da LLM
  • L: Percentuale di risultati di lemmatizzazione di LLM che corrispondono ai metodi tradizionali
  • S: Percentuale di risultati di estrazione del tema di LLM che corrispondono ai metodi tradizionali

Valutazione RQ2

  • Valutazione delle prestazioni di classificazione utilizzando il punteggio F1 micro-medio
  • Media su tre algoritmi di ML: albero decisionale, regressione logistica, naive Bayes

Risultati Sperimentali

Valutazione delle Capacità di Preprocessazione (RQ1)

Risultati in Inglese

  • Rimozione delle Parole Vuote: Gemma-2 mostra le migliori prestazioni con accuratezza del 84,29%
  • Lemmatizzazione: Tutti i modelli superano il 77% di accuratezza, Gemma-2 raggiunge l'82,61%
  • Estrazione del Tema: Prestazioni relativamente inferiori, Gemma-2 raggiunge il 75,65% (corrispondenza con uno qualsiasi degli algoritmi tradizionali)

Risultati Multilingui

  • Rimozione delle Parole Vuote: Gemma-2 raggiunge il 97% di accuratezza in francese, almeno il 79% nelle altre lingue
  • Lemmatizzazione: Qwen-2.5 mostra le migliori prestazioni in francese, italiano e spagnolo
  • Prompt Specifici della Lingua: Nessuna evidenza coerente che l'utilizzo di prompt nella lingua target produca risultati migliori

Prestazioni dei Compiti Downstream (RQ2)

Classificazione Testuale in Inglese

  • Prestazioni Complessive: Gli LLM superano i metodi tradizionali in 25 su 35 combinazioni dataset-compito di preprocessazione
  • Risultati Migliori: Gemma-2 nel dataset AG News nel compito di rimozione delle parole vuote + lemmatizzazione mostra un miglioramento del 6,16% rispetto ai metodi tradizionali
  • Limitazioni dell'Estrazione del Tema: L'estrazione del tema basata su LLM supera i metodi tradizionali solo in 3 su 7 dataset

Classificazione Testuale Multilingue

  • Prestazioni Medie: Gli LLM raggiungono prestazioni comparabili o superiori alle tecniche tradizionali in metà dei casi valutati
  • Vantaggio della Lemmatizzazione: Realizza le migliori prestazioni in 4 su 5 dataset
  • Modelli Specifici della Lingua: Llama-3.1 mostra miglioramenti delle prestazioni nell'80% dei compiti quando utilizza prompt specifici della lingua

Scoperte Chiave

  1. Sensibilità Contestuale: Gli LLM spesso rimuovono vocabolario non tradizionalmente considerato come parole vuote, supportando l'ipotesi che la comprensione contestuale influenzi la selezione delle parole vuote
  2. Incoerenza nell'Estrazione del Tema: Gli LLM possono produrre temi diversi per lo stesso vocabolario in documenti diversi, risultando in rappresentazioni testuali non standardizzate
  3. Effetto della Dimensione del Modello: Gemma-3, nonostante abbia circa la metà dei parametri di altri modelli più grandi, spesso mostra prestazioni comparabili o superiori

Lavori Correlati

Applicazioni degli LLM nell'NLP

  • Gli LLM raggiungono prestazioni SOTA in un'ampia gamma di compiti, particolarmente efficaci in contesti con pochi esempi
  • Applicabili a compiti non visti o domini senza richiedere ulteriore fine-tuning supervisionato

Preprocessazione Consapevole del Contesto

  • La relazione tra le operazioni di preprocessazione e il contesto del testo di input è stata a lungo oggetto di ricerca
  • Applicazione della definizione di parole vuote specifiche del contesto nelle pipeline di recupero dell'informazione

Ricerca Esistente sulla Preprocessazione con LLM

  • I lavori precedenti si sono principalmente concentrati sull'estrazione del tema nelle pipeline di recupero dell'informazione
  • Mancanza di un'analisi completa delle capacità di preprocessazione testuale degli LLM

Conclusioni e Discussione

Conclusioni Principali

  1. Capacità di Replicazione: Gli LLM sono in grado di replicare efficacemente i metodi tradizionali di preprocessazione, raggiungendo accuratezze rispettivamente del 97%, 82% e 74% per la rimozione delle parole vuote, la lemmatizzazione e l'estrazione del tema
  2. Miglioramento delle Prestazioni: Gli algoritmi di machine learning addestrati su testi preprocessati da LLM mostrano miglioramenti fino al 6% nella metrica F1
  3. Efficacia Multilingue: Il metodo dimostra efficacia su molteplici lingue europee

Limitazioni

  1. Limitazioni della Valutazione: Potrebbero esistere casi in cui gli LLM superano le librerie tradizionali ma non vengono catturati dalle metriche di valutazione
  2. Costi Computazionali: I costi computazionali della preprocessazione con LLM sono significativamente superiori ai metodi tradizionali
  3. Ingegneria dei Prompt: Non è stata condotta un'ampia ingegneria dei prompt, che potrebbe influenzare i risultati
  4. Coerenza nell'Estrazione del Tema: Gli LLM mancano di coerenza nell'estrazione del tema, influenzando le prestazioni dei compiti downstream

Direzioni Future

  • Esplorazione degli LLM come strumenti per l'estrazione del tema e la lemmatizzazione in lingue a basse risorse
  • Ricerca di strategie di prompt più efficaci e metodi di apprendimento in contesto
  • Sviluppo di soluzioni di preprocessazione con LLM computazionalmente più efficienti

Valutazione Approfondita

Punti di Forza

  1. Novità della Ricerca: Prima valutazione sistematica delle capacità degli LLM nei compiti di preprocessazione testuale
  2. Completezza Sperimentale: Valutazione completa che copre molteplici lingue, compiti e modelli
  3. Valore Pratico: Fornisce nuove soluzioni per la preprocessazione testuale in lingue a basse risorse
  4. Contributo Open Source: Fornisce codice e dati completi, promuovendo la ricerca riproducibile

Insufficienze

  1. Analisi Teorica Insufficiente: Mancanza di analisi teorica approfondita dei meccanismi di preprocessazione degli LLM
  2. Problemi di Efficienza Computazionale: Discussione insufficiente del compromesso tra costi computazionali e miglioramento delle prestazioni
  3. Sensibilità ai Prompt: Esplorazione insufficiente dell'impatto di diverse strategie di prompt sui risultati
  4. Analisi degli Errori Mancante: Mancanza di analisi dettagliata dei tipi di errori nella preprocessazione degli LLM

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca nel campo della preprocessazione dell'NLP
  2. Valore Pratico: Particolarmente applicabile a lingue a basse risorse prive di strumenti di preprocessazione sofisticati
  3. Ispirazione Metodologica: Dimostra il potenziale degli LLM nei compiti tradizionali dell'NLP

Scenari Applicabili

  1. Elaborazione di Lingue a Basse Risorse: Lingue prive di lemmatizzatori e estrattori di tema di alta qualità
  2. Applicazioni Specifiche del Dominio: Compiti che richiedono preprocessazione sensibile al contesto in domini specifici
  3. Sistemi Multilingui: Applicazioni cross-linguistiche che richiedono uno schema di preprocessazione unificato

Bibliografia

L'articolo cita 37 lavori correlati, coprendo importanti contributi nei campi degli LLM, della preprocessazione testuale, del recupero dell'informazione e dell'NLP multilingue, fornendo una solida base teorica per la ricerca.


Sintesi: Questo articolo esplora in modo innovativo l'applicazione degli LLM nella preprocessazione testuale, dimostrando attraverso esperimenti multilingui completi i vantaggi degli LLM nella preprocessazione consapevole del contesto. Sebbene presenti limitazioni quali i costi computazionali elevati, fornisce soluzioni preziose per le lingue a basse risorse e i compiti di preprocessazione sensibili al contesto.