2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi

Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.

academic

Investigation des Capacités Linguistiques des Grands Modèles de Langage pour le Prétraitement de Texte

Informations Fondamentales

ID de l'article : 2510.11482
Titre : Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Auteurs : Marco Braga (Université de Milano-Bicocca), Gian Carlo Milanese (Université de Milano-Bicocca), Gabriella Pasi (Université de Milano-Bicocca)
Classification : cs.CL (Linguistique Computationnelle), cs.AI (Intelligence Artificielle)
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.11482

Résumé

Le prétraitement de texte constitue un composant fondamental du traitement automatique des langues naturelles, englobant des techniques telles que la suppression des mots vides, l'extraction de radicaux et la lemmatisation, destinées à préparer les entrées textuelles pour les traitements et analyses ultérieurs. Bien que ces techniques dépendent du contexte, les méthodes traditionnelles ignorent généralement les informations contextuelles. Cet article examine l'utilisation de grands modèles de langage (LLMs) pour exécuter diverses tâches de prétraitement, en raison de leur capacité à considérer le contexte sans nécessiter des ressources d'annotation spécifiques à la langue en grande quantité. Par le biais d'une évaluation exhaustive sur des données web, nous comparons le prétraitement basé sur les LLMs aux algorithmes traditionnels dans plusieurs tâches de classification de texte sur six langues européennes. L'analyse révèle que les LLMs peuvent reproduire les méthodes traditionnelles de suppression des mots vides, de lemmatisation et d'extraction de radicaux avec des précisions respectives de 97 %, 82 % et 74 %. De plus, les algorithmes d'apprentissage automatique entraînés sur des textes prétraités par LLM surpassent les techniques traditionnelles avec une amélioration maximale de 6 % en termes de score F1.

Contexte et Motivation de la Recherche

Définition du Problème

Le prétraitement de texte constitue une étape critique du pipeline de traitement automatique des langues naturelles, incluant des opérations telles que la suppression des mots vides, l'extraction de radicaux et la lemmatisation. Ces opérations visent à normaliser le texte, réduire les coûts computationnels et diminuer le bruit et les informations non pertinentes.

Limitations des Approches Existantes

Absence de sensibilité contextuelle : Les méthodes de prétraitement traditionnelles dépendent principalement de listes prédéfinies de mots vides et de règles fixes de radicaux/lemmatisation, ignorant les informations spécifiques au domaine et le contexte
Problème d'ambiguïté morphosyntaxique : Par exemple, le mot « saw » devrait être lemmatisé en « see » lorsqu'il fonctionne comme verbe, mais conservé comme « saw » lorsqu'il fonctionne comme nom
Sensibilité au domaine : Un même mot peut nécessiter des traitements différents selon les domaines. Par exemple, « leaves » devrait être lemmatisé en « leaf » dans les documents botaniques, mais en « leave » dans les documents concernant les congés des employés

Motivation de la Recherche

Les LLMs possèdent des capacités de compréhension linguistique puissantes, permettant de considérer le contexte linguistique sans nécessiter d'importantes ressources d'annotation spécifiques à la langue. Cette recherche suppose que les LLMs peuvent détecter dynamiquement les mots vides, les formes et les radicaux en fonction du document d'entrée, du contexte et de la tâche.

Contributions Principales

Première évaluation systématique : Évaluation exhaustive des capacités des LLMs dans les tâches de prétraitement de texte (suppression des mots vides, lemmatisation, extraction de radicaux)
Analyse multilingue : Validation de l'efficacité de la méthode sur six langues européennes (anglais, français, allemand, italien, portugais, espagnol)
Évaluation des tâches en aval : Démonstration de l'amélioration des performances du prétraitement par LLM par rapport aux méthodes traditionnelles dans les tâches de classification de texte
Contribution open-source : Publication du code, des invites et des résultats expérimentaux pour promouvoir la recherche reproductible

Détails Méthodologiques

Définition des Tâches

Cette recherche définit trois tâches de prétraitement fondamentales :

Suppression des mots vides : Identification et suppression des vocabulaires non pertinents pour une tâche spécifique
Lemmatisation : Réduction du vocabulaire à sa forme dictionnaire (lemme)
Extraction de radicaux : Simplification du vocabulaire à sa forme racinaire

Méthode de Prétraitement par LLM

L'étude adopte une approche d'apprentissage en contexte (in-context learning), fournissant aux LLMs :

Description de la tâche : Définition formelle de l'opération de prétraitement
Exemples : Quelques exemples de prétraitement
Texte d'entrée : Texte à traiter
Information linguistique : Identification de la langue du texte
Contexte de la tâche : Informations spécifiques sur la tâche en aval

Ingénierie des Invites

Des modèles d'invites spécialisés ont été conçus pour différentes tâches de prétraitement :

Exemple de suppression des mots vides :

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

Exemple de lemmatisation :

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

Stratégie de Traitement Multilingue

Pour les langues non anglaises, deux approches sont utilisées : invites en anglais et invites en langue cible
Évaluation de la question de savoir si les invites spécifiques à la langue fournissent des avantages contextuels supplémentaires

Configuration Expérimentale

Ensembles de Données

Ensembles de données en anglais

Série SemEval : Incluant la prédiction d'emoji, la détection d'ironie, la détection de discours haineux, l'identification de langage offensant et l'analyse des sentiments
Classification de nouvelles : Ensembles de données Reuters et AG News
Accent particulier : Données de médias sociaux comme Twitter, en raison du langage informel et du haut niveau de bruit

Ensembles de données multilingues

Corpus Tweet Sentiment Multilingue : Couvrant le français, l'allemand, l'italien, le portugais et l'espagnol
Stratégie d'échantillonnage : En raison des coûts computationnels, échantillonnage aléatoire d'au maximum 3000 documents d'entraînement et 3000 documents de test

Sélection des Modèles

Évaluation de cinq LLMs open-source de pointe :

Gemma-2-9B et Gemma-3-4B : Entraînés principalement sur des données en anglais
LLama-3.1-8B : Modèle multilingue natif
Phi-4-mini (3.8B) : Entraînement principalement en anglais
Qwen-2.5-7B : Modèle multilingue natif

Méthodes de Référence

Suppression des mots vides : Listes de mots vides fournies par NLTK
Extraction de radicaux : Algorithmes Porter, Lancaster et Snowball
Lemmatisation : Lemmatiseurs basés sur des règles ou des arbres d'édition fournis par spaCy

Métriques d'Évaluation

Évaluation RQ1

SW : Pourcentage de vocabulaire supprimé par le LLM correspondant à la liste de mots vides NLTK
NSW : Pourcentage de mots non vides supprimés par le LLM
L : Pourcentage de résultats de lemmatisation du LLM correspondant aux méthodes traditionnelles
S : Pourcentage de résultats d'extraction de radicaux du LLM correspondant aux méthodes traditionnelles

Évaluation RQ2

Utilisation du score F1 micro-moyenné pour évaluer les performances de classification
Moyenne sur trois algorithmes d'apprentissage automatique : arbres de décision, régression logistique, naïve Bayes

Résultats Expérimentaux

Évaluation des Capacités de Prétraitement (RQ1)

Résultats en Anglais

Suppression des mots vides : Gemma-2 affiche les meilleures performances avec une précision de 84,29 %
Lemmatisation : Tous les modèles dépassent 77 % de précision, Gemma-2 atteint 82,61 %
Extraction de radicaux : Performances relativement plus faibles, Gemma-2 atteint 75,65 % (correspondant à n'importe quel algorithme traditionnel)

Résultats Multilingues

Suppression des mots vides : Gemma-2 atteint 97 % de précision en français, au moins 79 % dans les autres langues
Lemmatisation : Qwen-2.5 affiche les meilleures performances en français, italien et espagnol
Invites spécifiques à la langue : Aucune preuve cohérente que l'utilisation d'invites en langue cible produit de meilleurs résultats

Performance des Tâches en Aval (RQ2)

Classification de Texte en Anglais

Performance globale : Les LLMs surpassent les méthodes traditionnelles dans 25 des 35 combinaisons ensemble de données-tâche de prétraitement
Meilleurs résultats : Gemma-2 sur l'ensemble de données AG News dans la tâche de suppression des mots vides + lemmatisation surpasse la méthode traditionnelle de 6,16 %
Limitations de l'extraction de radicaux : L'extraction de radicaux par LLM ne surpasse la méthode traditionnelle que dans 3 des 7 ensembles de données

Classification de Texte Multilingue

Performance moyenne : Les LLMs atteignent des performances comparables ou supérieures aux techniques traditionnelles dans la moitié des cas d'évaluation
Avantage de la lemmatisation : Réalisation des performances maximales dans 4 des 5 ensembles de données
Modèles spécifiques à la langue : Llama-3.1 utilisant des invites spécifiques à la langue améliore les performances dans 80 % des tâches

Découvertes Clés

Sensibilité contextuelle : Les LLMs suppriment fréquemment des vocabulaires non traditionnellement considérés comme des mots vides, soutenant l'hypothèse que la compréhension contextuelle influence la sélection des mots vides
Incohérence de l'extraction de radicaux : Les LLMs peuvent produire différents radicaux pour le même vocabulaire dans différents documents, entraînant une représentation textuelle non standardisée
Effet de la taille du modèle : Gemma-3, malgré un nombre de paramètres environ moitié moins important que les autres grands modèles, affiche souvent des performances comparables ou supérieures aux modèles plus grands

Travaux Connexes

Application des LLMs en Traitement Automatique des Langues Naturelles

Les LLMs atteignent des performances de pointe dans un large éventail de tâches, particulièrement efficaces dans les configurations peu nombreuses
Applicables à des tâches ou domaines non vus sans nécessiter de micro-ajustement supervisé supplémentaire

Prétraitement Sensible au Contexte

La relation entre les opérations de prétraitement et le contexte du texte d'entrée a été longtemps étudiée
Application de la définition de mots vides spécifiques au contexte dans les pipelines de récupération d'information

Recherche Existante sur le Prétraitement par LLM

Les travaux antérieurs se concentrent principalement sur l'extraction de radicaux dans les pipelines de récupération d'information
Absence d'analyse exhaustive des capacités de prétraitement de texte des LLMs

Conclusions et Discussion

Conclusions Principales

Capacité de reproduction : Les LLMs peuvent reproduire efficacement les méthodes de prétraitement traditionnelles, avec des précisions respectives de 97 %, 82 % et 74 % pour la suppression des mots vides, la lemmatisation et l'extraction de radicaux
Amélioration des performances : Les algorithmes d'apprentissage automatique basés sur le prétraitement par LLM surpassent les techniques traditionnelles avec une amélioration maximale de 6 % en termes de score F1
Efficacité multilingue : La méthode démontre son efficacité sur plusieurs langues européennes

Limitations

Limitations d'évaluation : Il est possible que les LLMs surpassent les bibliothèques traditionnelles mais que cela ne soit pas capturé par les métriques d'évaluation
Coûts computationnels : Les coûts computationnels du prétraitement par LLM sont significativement plus élevés que les méthodes traditionnelles
Ingénierie des invites : Absence d'ingénierie extensive des invites, pouvant affecter les résultats
Cohérence de l'extraction de radicaux : Les LLMs manquent de cohérence dans l'extraction de radicaux, affectant les performances des tâches en aval

Directions Futures

Exploration des LLMs comme outils d'extraction de radicaux et de lemmatisation pour les langues à faibles ressources
Étude de stratégies d'invites plus efficaces et de méthodes d'apprentissage en contexte
Développement de solutions de prétraitement par LLM plus efficaces sur le plan computationnel

Évaluation Approfondie

Points Forts

Nouveauté de la recherche : Première évaluation systématique des capacités des LLMs dans les tâches de prétraitement de texte
Exhaustivité expérimentale : Évaluation exhaustive couvrant plusieurs langues, plusieurs tâches et plusieurs modèles
Valeur pratique : Fournit une nouvelle solution pour le prétraitement de texte dans les langues à faibles ressources
Contribution open-source : Fourniture de code et de données complets pour promouvoir la recherche reproductible

Insuffisances

Analyse théorique insuffisante : Manque d'analyse théorique approfondie des mécanismes de prétraitement des LLMs
Problèmes d'efficacité computationnelle : Discussion insuffisante du compromis entre coûts computationnels et amélioration des performances
Sensibilité aux invites : Exploration insuffisante de l'impact de différentes stratégies d'invites sur les résultats
Absence d'analyse d'erreurs : Manque d'analyse détaillée des types d'erreurs de prétraitement des LLMs

Impact

Contribution académique : Fournit une nouvelle direction de recherche pour le domaine du prétraitement en traitement automatique des langues naturelles
Valeur pratique : Particulièrement applicable aux langues à faibles ressources manquant d'outils de prétraitement sophistiqués
Inspiration méthodologique : Démontre le potentiel des LLMs dans les tâches traditionnelles de traitement automatique des langues naturelles

Scénarios d'Application

Traitement des langues à faibles ressources : Langues manquant de lemmatiseurs et d'extracteurs de radicaux de haute qualité
Applications spécifiques au domaine : Tâches spécifiques au domaine nécessitant un prétraitement sensible au contexte
Systèmes multilingues : Applications multilingues nécessitant un schéma de prétraitement unifié

Références

L'article cite 37 références pertinentes, couvrant les travaux importants dans les domaines clés des LLMs, du prétraitement de texte, de la récupération d'information et du traitement automatique des langues naturelles multilingues, fournissant une base théorique solide pour la recherche.

Résumé : Cet article explore de manière pionnière l'application des LLMs au prétraitement de texte, démontrant par le biais d'expériences multilingues exhaustives les avantages des LLMs dans le prétraitement sensible au contexte. Malgré les limitations telles que les coûts computationnels élevés, il fournit une solution précieuse pour les langues à faibles ressources et les tâches de prétraitement sensibles au contexte.