2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi

Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.

academic

Investigación de las Capacidades Lingüísticas de Modelos de Lenguaje Grande para Preprocesamiento de Texto

Información Básica

ID del Artículo: 2510.11482
Título: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Autores: Marco Braga (Universidad de Milano-Bicocca), Gian Carlo Milanese (Universidad de Milano-Bicocca), Gabriella Pasi (Universidad de Milano-Bicocca)
Clasificación: cs.CL (Lingüística Computacional), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.11482

Resumen

El preprocesamiento de texto es un componente fundamental del procesamiento del lenguaje natural, que implica técnicas como la eliminación de palabras vacías, extracción de raíces y lematización, utilizadas para preparar entradas de texto para procesamiento y análisis posteriores. Aunque estas técnicas dependen del contexto, los métodos tradicionales generalmente ignoran la información contextual. Este artículo investiga la idea de utilizar modelos de lenguaje grande (LLMs) para ejecutar diversas tareas de preprocesamiento, ya que pueden considerar el contexto sin requerir grandes recursos de anotación específicos del idioma. Mediante una evaluación exhaustiva de datos web, comparamos el preprocesamiento basado en LLM con algoritmos tradicionales en múltiples tareas de clasificación de texto en seis idiomas europeos. El análisis muestra que los LLMs pueden replicar métodos tradicionales de eliminación de palabras vacías, lematización y extracción de raíces con precisiones del 97%, 82% y 74%, respectivamente. Además, los algoritmos de aprendizaje automático entrenados en texto preprocesado por LLM muestran mejoras de hasta el 6% en la métrica F1 en comparación con técnicas tradicionales.

Antecedentes y Motivación de la Investigación

Definición del Problema

El preprocesamiento de texto es un paso crítico en la tubería de PNL, que incluye operaciones como eliminación de palabras vacías, extracción de raíces y lematización. El propósito de estas operaciones es normalizar el texto, reducir costos computacionales y disminuir ruido e información irrelevante.

Limitaciones de los Métodos Existentes

Falta de Conciencia Contextual: Los métodos de preprocesamiento tradicionales dependen principalmente de listas predefinidas de palabras vacías y reglas fijas de raíces/lematización, ignorando información específica del dominio y contexto
Problema de Ambigüedad de Categoría Gramatical: Por ejemplo, la palabra "saw" (sierra/vio), que como verbo debe lematizarse a "see" (ver), pero como sustantivo debe mantenerse como "saw"
Sensibilidad al Dominio: La misma palabra puede requerir procesamiento diferente en distintos dominios, como "leaves" (hojas/permisos) que en documentos botánicos debe lematizarse a "leaf" (hoja), pero en documentos de recursos humanos debe lematizarse a "leave" (permiso)

Motivación de la Investigación

Los LLMs poseen capacidades sólidas de comprensión del lenguaje y pueden considerar el contexto lingüístico sin requerir grandes recursos de anotación específicos del idioma. Esta investigación asume que los LLMs pueden detectar dinámicamente palabras vacías, formas de palabras y raíces basándose en el documento de entrada, contexto e información de la tarea.

Contribuciones Principales

Primera Evaluación Sistemática: Evaluación exhaustiva de las capacidades de los LLMs en tareas de preprocesamiento de texto (eliminación de palabras vacías, lematización, extracción de raíces)
Análisis Multilingüe: Validación de la efectividad del método en seis idiomas europeos (inglés, francés, alemán, italiano, portugués, español)
Evaluación de Tareas Posteriores: Demostración de mejoras de rendimiento del preprocesamiento basado en LLM en comparación con métodos tradicionales en tareas de clasificación de texto
Contribución de Código Abierto: Publicación de código, indicaciones y resultados experimentales para promover investigación reproducible

Explicación Detallada del Método

Definición de Tareas

Este estudio define tres tareas de preprocesamiento fundamentales:

Eliminación de Palabras Vacías: Identificación y eliminación de vocabulario no relevante para una tarea específica
Lematización: Reducción del vocabulario a su forma de diccionario (lema)
Extracción de Raíces: Simplificación del vocabulario a su forma de raíz

Método de Preprocesamiento con LLM

La investigación adopta un enfoque de aprendizaje en contexto (in-context learning), proporcionando a los LLMs:

Descripción de la Tarea: Definición formal de la operación de preprocesamiento
Ejemplos: Pocos ejemplos de preprocesamiento
Texto de Entrada: Texto a procesar
Información del Idioma: Identificación del idioma del texto
Contexto de la Tarea: Información específica de la tarea posterior

Ingeniería de Indicaciones

Se diseñaron plantillas de indicaciones especializadas para diferentes tareas de preprocesamiento:

Ejemplo de Eliminación de Palabras Vacías:

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

Ejemplo de Lematización:

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

Estrategia de Procesamiento Multilingüe

Para idiomas no ingleses, se utilizan tanto indicaciones en inglés como en el idioma objetivo
Evaluación de si las indicaciones específicas del idioma proporcionan ventajas contextuales adicionales

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos en Inglés

Serie SemEval: Incluye predicción de emoji, detección de ironía, detección de discurso de odio, identificación de lenguaje ofensivo y análisis de sentimientos
Clasificación de Noticias: Conjuntos de datos Reuters y AG News
Enfoque Especial: Datos de redes sociales como Twitter, debido a su lenguaje informal y alto nivel de ruido

Conjuntos de Datos Multilingües

Corpus de Sentimientos de Tweets Multilingüe: Cubre francés, alemán, italiano, portugués, español
Estrategia de Muestreo: Debido a costos computacionales, muestreo aleatorio de hasta 3000 documentos de entrenamiento y 3000 de prueba

Selección de Modelos

Evaluación de cinco LLMs de código abierto SOTA:

Gemma-2-9B y Gemma-3-4B: Entrenados principalmente en datos en inglés
LLama-3.1-8B: Modelo multilingüe nativo
Phi-4-mini (3.8B): Entrenamiento principalmente en inglés
Qwen-2.5-7B: Modelo multilingüe nativo

Métodos de Referencia

Eliminación de Palabras Vacías: Listas de palabras vacías proporcionadas por NLTK
Extracción de Raíces: Algoritmos Porter, Lancaster y Snowball
Lematización: Lematizadores basados en reglas o árboles de edición proporcionados por spaCy

Métricas de Evaluación

Evaluación RQ1

SW: Porcentaje de vocabulario eliminado por LLM que coincide con la lista de palabras vacías de NLTK
NSW: Porcentaje de palabras no vacías eliminadas por LLM
L: Porcentaje de resultados de lematización de LLM que coinciden con métodos tradicionales
S: Porcentaje de resultados de extracción de raíces de LLM que coinciden con métodos tradicionales

Evaluación RQ2

Evaluación del rendimiento de clasificación utilizando puntuación F1 promediada por micromedias
Promedio en tres algoritmos de aprendizaje automático: árbol de decisión, regresión logística, clasificador Naive Bayes

Resultados Experimentales

Evaluación de Capacidades de Preprocesamiento (RQ1)

Resultados en Inglés

Eliminación de Palabras Vacías: Gemma-2 mostró el mejor rendimiento con precisión del 84.29%
Lematización: Todos los modelos superaron el 77% de precisión, Gemma-2 alcanzó 82.61%
Extracción de Raíces: Rendimiento relativamente más bajo, Gemma-2 alcanzó 75.65% (coincidencia con cualquier algoritmo tradicional)

Resultados Multilingües

Eliminación de Palabras Vacías: Gemma-2 alcanzó 97% de precisión en francés, al menos 79% en otros idiomas
Lematización: Qwen-2.5 mostró el mejor rendimiento en francés, italiano y español
Indicaciones Específicas del Idioma: Sin evidencia consistente de que el uso de indicaciones en el idioma objetivo produzca mejores resultados

Rendimiento de Tareas Posteriores (RQ2)

Clasificación de Texto en Inglés

Rendimiento General: Los LLMs superaron métodos tradicionales en 25 de 35 combinaciones de conjunto de datos-tarea de preprocesamiento
Mejor Resultado: Gemma-2 en el conjunto de datos AG News con la tarea de eliminación de palabras vacías + lematización mostró una mejora del 6.16% sobre métodos tradicionales
Limitaciones de Extracción de Raíces: La extracción de raíces con LLM solo superó métodos tradicionales en 3 de 7 conjuntos de datos

Clasificación de Texto Multilingüe

Rendimiento Promedio: Los LLMs alcanzaron rendimiento comparable o mejor que técnicas tradicionales en la mitad de los casos evaluados
Ventaja de Lematización: Logró el rendimiento más alto en 4 de 5 conjuntos de datos
Patrones Específicos del Idioma: Llama-3.1 utilizando indicaciones específicas del idioma mostró mejora de rendimiento en el 80% de las tareas

Hallazgos Clave

Sensibilidad Contextual: Los LLMs frecuentemente eliminan palabras que tradicionalmente no se consideran palabras vacías, apoyando la hipótesis de que la comprensión contextual afecta la selección de palabras vacías
Inconsistencia en Extracción de Raíces: Los LLMs pueden producir diferentes raíces para la misma palabra en diferentes documentos, resultando en representación de texto no estandarizada
Efecto del Tamaño del Modelo: Gemma-3, a pesar de tener aproximadamente la mitad de parámetros que otros modelos grandes, frecuentemente mostró rendimiento comparable o superior

Trabajo Relacionado

Aplicaciones de LLMs en PNL

Los LLMs alcanzan rendimiento SOTA en tareas amplias, siendo particularmente efectivos en configuraciones de pocos ejemplos
Aplicables a tareas o dominios no vistos sin necesidad de ajuste fino supervisado adicional

Preprocesamiento Consciente del Contexto

La relación entre operaciones de preprocesamiento y el contexto del texto de entrada ha sido estudiada durante mucho tiempo
Aplicación de definiciones de palabras vacías específicas del contexto en tuberías de recuperación de información

Investigación Existente sobre Preprocesamiento con LLM

Trabajos anteriores se enfocaron principalmente en extracción de raíces en tuberías de recuperación de información
Falta de análisis exhaustivo de las capacidades de preprocesamiento de texto de LLM

Conclusiones y Discusión

Conclusiones Principales

Capacidad de Replicación: Los LLMs pueden replicar efectivamente métodos de preprocesamiento tradicionales, con precisiones del 97%, 82% y 74% para eliminación de palabras vacías, lematización y extracción de raíces, respectivamente
Mejora de Rendimiento: Los algoritmos de aprendizaje automático basados en preprocesamiento con LLM muestran mejoras de hasta el 6% en la métrica F1
Efectividad Multilingüe: El método muestra efectividad en múltiples idiomas europeos

Limitaciones

Limitaciones de Evaluación: Puede haber casos donde los LLMs superan a las bibliotecas tradicionales pero no son capturados por las métricas de evaluación
Costo Computacional: El costo computacional del preprocesamiento con LLM es significativamente mayor que los métodos tradicionales
Ingeniería de Indicaciones: No se realizó ingeniería de indicaciones extensiva, lo que puede afectar los resultados
Consistencia en Extracción de Raíces: Los LLMs carecen de consistencia en la extracción de raíces, afectando el rendimiento de tareas posteriores

Direcciones Futuras

Exploración de LLMs como herramientas para extracción de raíces y lematización en idiomas de bajos recursos
Investigación de estrategias de indicaciones más efectivas y métodos de aprendizaje en contexto
Desarrollo de esquemas de preprocesamiento con LLM computacionalmente más eficientes

Evaluación Profunda

Fortalezas

Novedad de la Investigación: Primera evaluación sistemática de las capacidades de los LLMs en tareas de preprocesamiento de texto
Exhaustividad Experimental: Evaluación exhaustiva que abarca múltiples idiomas, tareas y modelos
Valor Práctico: Proporciona nuevas soluciones para preprocesamiento de texto en idiomas de bajos recursos
Contribución de Código Abierto: Proporciona código y datos completos, promoviendo investigación reproducible

Deficiencias

Análisis Teórico Insuficiente: Falta de análisis teórico profundo de los mecanismos de preprocesamiento con LLM
Problemas de Eficiencia Computacional: Discusión insuficiente del equilibrio entre costo computacional y mejora de rendimiento
Sensibilidad a Indicaciones: Exploración insuficiente del impacto de diferentes estrategias de indicaciones en los resultados
Análisis de Errores Faltante: Falta de análisis detallado de tipos de errores en preprocesamiento con LLM

Impacto

Contribución Académica: Proporciona nueva dirección de investigación para el campo del preprocesamiento en PNL
Valor Práctico: Particularmente aplicable a idiomas de bajos recursos que carecen de herramientas de preprocesamiento de calidad
Inspiración Metodológica: Demuestra el potencial de los LLMs en tareas tradicionales de PNL

Escenarios de Aplicación

Procesamiento de Idiomas de Bajos Recursos: Idiomas que carecen de lematizadores y extractores de raíces de alta calidad
Aplicaciones Específicas del Dominio: Tareas que requieren preprocesamiento sensible al contexto en dominios específicos
Sistemas Multilingües: Aplicaciones multilingües que requieren esquemas de preprocesamiento unificados

Referencias

El artículo cita 37 referencias relacionadas, cubriendo trabajos importantes en LLMs, preprocesamiento de texto, recuperación de información y PNL multilingüe, proporcionando una base teórica sólida para la investigación.

Resumen: Este artículo explora de manera pionera la aplicación de LLMs en preprocesamiento de texto, demostrando a través de experimentos multilingües exhaustivos las ventajas de los LLMs en preprocesamiento consciente del contexto. Aunque existen limitaciones como el alto costo computacional, proporciona soluciones valiosas para idiomas de bajos recursos y tareas de preprocesamiento sensibles al contexto.