Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic
Investigation des Capacités Linguistiques des Grands Modèles de Langage pour le Prétraitement de Texte
Titre : Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Auteurs : Marco Braga (Université de Milano-Bicocca), Gian Carlo Milanese (Université de Milano-Bicocca), Gabriella Pasi (Université de Milano-Bicocca)
Le prétraitement de texte constitue un composant fondamental du traitement automatique des langues naturelles, englobant des techniques telles que la suppression des mots vides, l'extraction de radicaux et la lemmatisation, destinées à préparer les entrées textuelles pour les traitements et analyses ultérieurs. Bien que ces techniques dépendent du contexte, les méthodes traditionnelles ignorent généralement les informations contextuelles. Cet article examine l'utilisation de grands modèles de langage (LLMs) pour exécuter diverses tâches de prétraitement, en raison de leur capacité à considérer le contexte sans nécessiter des ressources d'annotation spécifiques à la langue en grande quantité. Par le biais d'une évaluation exhaustive sur des données web, nous comparons le prétraitement basé sur les LLMs aux algorithmes traditionnels dans plusieurs tâches de classification de texte sur six langues européennes. L'analyse révèle que les LLMs peuvent reproduire les méthodes traditionnelles de suppression des mots vides, de lemmatisation et d'extraction de radicaux avec des précisions respectives de 97 %, 82 % et 74 %. De plus, les algorithmes d'apprentissage automatique entraînés sur des textes prétraités par LLM surpassent les techniques traditionnelles avec une amélioration maximale de 6 % en termes de score F1.
Le prétraitement de texte constitue une étape critique du pipeline de traitement automatique des langues naturelles, incluant des opérations telles que la suppression des mots vides, l'extraction de radicaux et la lemmatisation. Ces opérations visent à normaliser le texte, réduire les coûts computationnels et diminuer le bruit et les informations non pertinentes.
Absence de sensibilité contextuelle : Les méthodes de prétraitement traditionnelles dépendent principalement de listes prédéfinies de mots vides et de règles fixes de radicaux/lemmatisation, ignorant les informations spécifiques au domaine et le contexte
Problème d'ambiguïté morphosyntaxique : Par exemple, le mot « saw » devrait être lemmatisé en « see » lorsqu'il fonctionne comme verbe, mais conservé comme « saw » lorsqu'il fonctionne comme nom
Sensibilité au domaine : Un même mot peut nécessiter des traitements différents selon les domaines. Par exemple, « leaves » devrait être lemmatisé en « leaf » dans les documents botaniques, mais en « leave » dans les documents concernant les congés des employés
Les LLMs possèdent des capacités de compréhension linguistique puissantes, permettant de considérer le contexte linguistique sans nécessiter d'importantes ressources d'annotation spécifiques à la langue. Cette recherche suppose que les LLMs peuvent détecter dynamiquement les mots vides, les formes et les radicaux en fonction du document d'entrée, du contexte et de la tâche.
Première évaluation systématique : Évaluation exhaustive des capacités des LLMs dans les tâches de prétraitement de texte (suppression des mots vides, lemmatisation, extraction de radicaux)
Analyse multilingue : Validation de l'efficacité de la méthode sur six langues européennes (anglais, français, allemand, italien, portugais, espagnol)
Évaluation des tâches en aval : Démonstration de l'amélioration des performances du prétraitement par LLM par rapport aux méthodes traditionnelles dans les tâches de classification de texte
Contribution open-source : Publication du code, des invites et des résultats expérimentaux pour promouvoir la recherche reproductible
Des modèles d'invites spécialisés ont été conçus pour différentes tâches de prétraitement :
Exemple de suppression des mots vides :
You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.
Exemple de lemmatisation :
You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.
Série SemEval : Incluant la prédiction d'emoji, la détection d'ironie, la détection de discours haineux, l'identification de langage offensant et l'analyse des sentiments
Classification de nouvelles : Ensembles de données Reuters et AG News
Accent particulier : Données de médias sociaux comme Twitter, en raison du langage informel et du haut niveau de bruit
Corpus Tweet Sentiment Multilingue : Couvrant le français, l'allemand, l'italien, le portugais et l'espagnol
Stratégie d'échantillonnage : En raison des coûts computationnels, échantillonnage aléatoire d'au maximum 3000 documents d'entraînement et 3000 documents de test
Performance globale : Les LLMs surpassent les méthodes traditionnelles dans 25 des 35 combinaisons ensemble de données-tâche de prétraitement
Meilleurs résultats : Gemma-2 sur l'ensemble de données AG News dans la tâche de suppression des mots vides + lemmatisation surpasse la méthode traditionnelle de 6,16 %
Limitations de l'extraction de radicaux : L'extraction de radicaux par LLM ne surpasse la méthode traditionnelle que dans 3 des 7 ensembles de données
Performance moyenne : Les LLMs atteignent des performances comparables ou supérieures aux techniques traditionnelles dans la moitié des cas d'évaluation
Avantage de la lemmatisation : Réalisation des performances maximales dans 4 des 5 ensembles de données
Modèles spécifiques à la langue : Llama-3.1 utilisant des invites spécifiques à la langue améliore les performances dans 80 % des tâches
Sensibilité contextuelle : Les LLMs suppriment fréquemment des vocabulaires non traditionnellement considérés comme des mots vides, soutenant l'hypothèse que la compréhension contextuelle influence la sélection des mots vides
Incohérence de l'extraction de radicaux : Les LLMs peuvent produire différents radicaux pour le même vocabulaire dans différents documents, entraînant une représentation textuelle non standardisée
Effet de la taille du modèle : Gemma-3, malgré un nombre de paramètres environ moitié moins important que les autres grands modèles, affiche souvent des performances comparables ou supérieures aux modèles plus grands
Capacité de reproduction : Les LLMs peuvent reproduire efficacement les méthodes de prétraitement traditionnelles, avec des précisions respectives de 97 %, 82 % et 74 % pour la suppression des mots vides, la lemmatisation et l'extraction de radicaux
Amélioration des performances : Les algorithmes d'apprentissage automatique basés sur le prétraitement par LLM surpassent les techniques traditionnelles avec une amélioration maximale de 6 % en termes de score F1
Efficacité multilingue : La méthode démontre son efficacité sur plusieurs langues européennes
Limitations d'évaluation : Il est possible que les LLMs surpassent les bibliothèques traditionnelles mais que cela ne soit pas capturé par les métriques d'évaluation
Coûts computationnels : Les coûts computationnels du prétraitement par LLM sont significativement plus élevés que les méthodes traditionnelles
Ingénierie des invites : Absence d'ingénierie extensive des invites, pouvant affecter les résultats
Cohérence de l'extraction de radicaux : Les LLMs manquent de cohérence dans l'extraction de radicaux, affectant les performances des tâches en aval
Contribution académique : Fournit une nouvelle direction de recherche pour le domaine du prétraitement en traitement automatique des langues naturelles
Valeur pratique : Particulièrement applicable aux langues à faibles ressources manquant d'outils de prétraitement sophistiqués
Inspiration méthodologique : Démontre le potentiel des LLMs dans les tâches traditionnelles de traitement automatique des langues naturelles
L'article cite 37 références pertinentes, couvrant les travaux importants dans les domaines clés des LLMs, du prétraitement de texte, de la récupération d'information et du traitement automatique des langues naturelles multilingues, fournissant une base théorique solide pour la recherche.
Résumé : Cet article explore de manière pionnière l'application des LLMs au prétraitement de texte, démontrant par le biais d'expériences multilingues exhaustives les avantages des LLMs dans le prétraitement sensible au contexte. Malgré les limitations telles que les coûts computationnels élevés, il fournit une solution précieuse pour les langues à faibles ressources et les tâches de prétraitement sensibles au contexte.