Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic
Исследование лингвистических способностей больших языковых моделей для предварительной обработки текста
Предварительная обработка текста является фундаментальным компонентом обработки естественного языка, включающим такие методы, как удаление стоп-слов, стемминг и лемматизация, для подготовки текстовых входных данных к последующей обработке и анализу. Несмотря на контекстную зависимость этих методов, традиционные подходы обычно игнорируют контекстную информацию. В данной работе исследуется идея использования больших языковых моделей (LLMs) для выполнения различных задач предварительной обработки благодаря их способности учитывать контекст без необходимости в большом объёме аннотированных ресурсов для конкретного языка. На основе комплексной оценки веб-данных мы сравниваем предварительную обработку на основе LLM с традиционными алгоритмами в нескольких задачах классификации текста на шести европейских языках. Анализ показывает, что LLMs способны воспроизводить традиционные методы удаления стоп-слов, лемматизации и стемминга с точностью 97%, 82% и 74% соответственно. Кроме того, алгоритмы машинного обучения, обученные на текстах, предварительно обработанных LLM, показывают улучшение метрики F1 на 6% по сравнению с традиционными методами.
Предварительная обработка текста является критическим этапом в конвейере обработки естественного языка, включающим операции удаления стоп-слов, стемминга и лемматизации. Целью этих операций является нормализация текста, снижение вычислительных затрат и уменьшение шума и нерелевантной информации.
Отсутствие контекстной осведомлённости: Традиционные методы предварительной обработки в основном полагаются на предопределённые списки стоп-слов и фиксированные правила стемминга/лемматизации, игнорируя информацию, специфичную для предметной области, и контекст
Проблема омонимии частей речи: Например, слово "saw" при использовании в качестве глагола должно быть приведено к "see", а при использовании в качестве существительного должно остаться "saw"
Чувствительность к предметной области: Одно и то же слово в разных предметных областях может требовать различной обработки, например "leaves" в ботанических документах должно быть приведено к "leaf", а в документах об отпусках сотрудников — к "leave"
LLMs обладают мощными способностями к пониманию языка и могут учитывать языковой контекст без необходимости в большом объёме аннотированных ресурсов для конкретного языка. В данном исследовании предполагается, что LLMs могут динамически определять стоп-слова, словоформы и основы на основе входного документа, контекста и задачи.
Первая систематическая оценка: Проведена комплексная оценка способностей LLMs в задачах предварительной обработки текста (удаление стоп-слов, лемматизация, стемминг)
Многоязычный анализ: Методология проверена на шести европейских языках (английский, французский, немецкий, итальянский, португальский, испанский)
Оценка нижестоящих задач: Продемонстрировано улучшение производительности предварительной обработки LLM по сравнению с традиционными методами в задачах классификации текста
Вклад в открытый исходный код: Опубликованы код, подсказки и результаты экспериментов для содействия воспроизводимым исследованиям
Для различных задач предварительной обработки разработаны специализированные шаблоны подсказок:
Пример удаления стоп-слов:
You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.
Пример лемматизации:
You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.
Общая производительность: LLMs превосходят традиционные методы в 25 из 35 комбинаций набора данных-задачи предварительной обработки
Лучший результат: Gemma-2 на наборе данных AG News в задаче удаления стоп-слов + лемматизация показала улучшение на 6,16% по сравнению с традиционными методами
Ограничения стемминга: Стемминг LLM превосходит традиционные методы только в 3 из 7 наборов данных
Контекстная чувствительность: LLMs часто удаляют лексические единицы, которые традиционно не рассматриваются как стоп-слова, что подтверждает гипотезу о том, что контекстное понимание влияет на выбор стоп-слов
Несогласованность стемминга: LLMs могут производить различные основы для одной и той же лексической единицы в разных документах, что приводит к нестандартизированному представлению текста
Эффект размера модели: Gemma-3, несмотря на примерно половину параметров других крупных моделей, часто показывает сравнимую или превосходящую производительность
Способность к воспроизведению: LLMs способны эффективно воспроизводить традиционные методы предварительной обработки с точностью удаления стоп-слов, лемматизации и стемминга 97%, 82% и 74% соответственно
Улучшение производительности: Алгоритмы машинного обучения, обученные на текстах, предварительно обработанных LLM, показывают улучшение метрики F1 на 6%
Многоязычная эффективность: Методология демонстрирует эффективность на различных европейских языках
Статья цитирует 37 связанных работ, охватывающих важные исследования в ключевых областях, включая LLMs, предварительную обработку текста, поиск информации и многоязычную обработку естественного языка, обеспечивая прочную теоретическую основу для исследования.
Резюме: Данная статья пионерски исследует применение LLMs в предварительной обработке текста, демонстрируя преимущества LLMs в контекстно-осведомлённой предварительной обработке посредством комплексных многоязычных экспериментов. Несмотря на ограничения, такие как высокие вычислительные затраты, исследование предоставляет ценное решение для языков с ограниченными ресурсами и задач предварительной обработки, требующих контекстной осведомлённости.