Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic
Investigación de las Capacidades Lingüísticas de Modelos de Lenguaje Grande para Preprocesamiento de Texto
Título: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Autores: Marco Braga (Universidad de Milano-Bicocca), Gian Carlo Milanese (Universidad de Milano-Bicocca), Gabriella Pasi (Universidad de Milano-Bicocca)
El preprocesamiento de texto es un componente fundamental del procesamiento del lenguaje natural, que implica técnicas como la eliminación de palabras vacías, extracción de raíces y lematización, utilizadas para preparar entradas de texto para procesamiento y análisis posteriores. Aunque estas técnicas dependen del contexto, los métodos tradicionales generalmente ignoran la información contextual. Este artículo investiga la idea de utilizar modelos de lenguaje grande (LLMs) para ejecutar diversas tareas de preprocesamiento, ya que pueden considerar el contexto sin requerir grandes recursos de anotación específicos del idioma. Mediante una evaluación exhaustiva de datos web, comparamos el preprocesamiento basado en LLM con algoritmos tradicionales en múltiples tareas de clasificación de texto en seis idiomas europeos. El análisis muestra que los LLMs pueden replicar métodos tradicionales de eliminación de palabras vacías, lematización y extracción de raíces con precisiones del 97%, 82% y 74%, respectivamente. Además, los algoritmos de aprendizaje automático entrenados en texto preprocesado por LLM muestran mejoras de hasta el 6% en la métrica F1 en comparación con técnicas tradicionales.
El preprocesamiento de texto es un paso crítico en la tubería de PNL, que incluye operaciones como eliminación de palabras vacías, extracción de raíces y lematización. El propósito de estas operaciones es normalizar el texto, reducir costos computacionales y disminuir ruido e información irrelevante.
Falta de Conciencia Contextual: Los métodos de preprocesamiento tradicionales dependen principalmente de listas predefinidas de palabras vacías y reglas fijas de raíces/lematización, ignorando información específica del dominio y contexto
Problema de Ambigüedad de Categoría Gramatical: Por ejemplo, la palabra "saw" (sierra/vio), que como verbo debe lematizarse a "see" (ver), pero como sustantivo debe mantenerse como "saw"
Sensibilidad al Dominio: La misma palabra puede requerir procesamiento diferente en distintos dominios, como "leaves" (hojas/permisos) que en documentos botánicos debe lematizarse a "leaf" (hoja), pero en documentos de recursos humanos debe lematizarse a "leave" (permiso)
Los LLMs poseen capacidades sólidas de comprensión del lenguaje y pueden considerar el contexto lingüístico sin requerir grandes recursos de anotación específicos del idioma. Esta investigación asume que los LLMs pueden detectar dinámicamente palabras vacías, formas de palabras y raíces basándose en el documento de entrada, contexto e información de la tarea.
Primera Evaluación Sistemática: Evaluación exhaustiva de las capacidades de los LLMs en tareas de preprocesamiento de texto (eliminación de palabras vacías, lematización, extracción de raíces)
Análisis Multilingüe: Validación de la efectividad del método en seis idiomas europeos (inglés, francés, alemán, italiano, portugués, español)
Evaluación de Tareas Posteriores: Demostración de mejoras de rendimiento del preprocesamiento basado en LLM en comparación con métodos tradicionales en tareas de clasificación de texto
Contribución de Código Abierto: Publicación de código, indicaciones y resultados experimentales para promover investigación reproducible
Se diseñaron plantillas de indicaciones especializadas para diferentes tareas de preprocesamiento:
Ejemplo de Eliminación de Palabras Vacías:
You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.
Ejemplo de Lematización:
You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.
Serie SemEval: Incluye predicción de emoji, detección de ironía, detección de discurso de odio, identificación de lenguaje ofensivo y análisis de sentimientos
Clasificación de Noticias: Conjuntos de datos Reuters y AG News
Enfoque Especial: Datos de redes sociales como Twitter, debido a su lenguaje informal y alto nivel de ruido
Rendimiento General: Los LLMs superaron métodos tradicionales en 25 de 35 combinaciones de conjunto de datos-tarea de preprocesamiento
Mejor Resultado: Gemma-2 en el conjunto de datos AG News con la tarea de eliminación de palabras vacías + lematización mostró una mejora del 6.16% sobre métodos tradicionales
Limitaciones de Extracción de Raíces: La extracción de raíces con LLM solo superó métodos tradicionales en 3 de 7 conjuntos de datos
Sensibilidad Contextual: Los LLMs frecuentemente eliminan palabras que tradicionalmente no se consideran palabras vacías, apoyando la hipótesis de que la comprensión contextual afecta la selección de palabras vacías
Inconsistencia en Extracción de Raíces: Los LLMs pueden producir diferentes raíces para la misma palabra en diferentes documentos, resultando en representación de texto no estandarizada
Efecto del Tamaño del Modelo: Gemma-3, a pesar de tener aproximadamente la mitad de parámetros que otros modelos grandes, frecuentemente mostró rendimiento comparable o superior
Capacidad de Replicación: Los LLMs pueden replicar efectivamente métodos de preprocesamiento tradicionales, con precisiones del 97%, 82% y 74% para eliminación de palabras vacías, lematización y extracción de raíces, respectivamente
Mejora de Rendimiento: Los algoritmos de aprendizaje automático basados en preprocesamiento con LLM muestran mejoras de hasta el 6% en la métrica F1
Efectividad Multilingüe: El método muestra efectividad en múltiples idiomas europeos
Limitaciones de Evaluación: Puede haber casos donde los LLMs superan a las bibliotecas tradicionales pero no son capturados por las métricas de evaluación
Costo Computacional: El costo computacional del preprocesamiento con LLM es significativamente mayor que los métodos tradicionales
Ingeniería de Indicaciones: No se realizó ingeniería de indicaciones extensiva, lo que puede afectar los resultados
Consistencia en Extracción de Raíces: Los LLMs carecen de consistencia en la extracción de raíces, afectando el rendimiento de tareas posteriores
El artículo cita 37 referencias relacionadas, cubriendo trabajos importantes en LLMs, preprocesamiento de texto, recuperación de información y PNL multilingüe, proporcionando una base teórica sólida para la investigación.
Resumen: Este artículo explora de manera pionera la aplicación de LLMs en preprocesamiento de texto, demostrando a través de experimentos multilingües exhaustivos las ventajas de los LLMs en preprocesamiento consciente del contexto. Aunque existen limitaciones como el alto costo computacional, proporciona soluciones valiosas para idiomas de bajos recursos y tareas de preprocesamiento sensibles al contexto.