2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi

Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.

academic

Исследование лингвистических способностей больших языковых моделей для предварительной обработки текста

Основная информация

ID статьи: 2510.11482
Название: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
Авторы: Марко Брага (Университет Милано-Бикокка), Джан Карло Миланезе (Университет Милано-Бикокка), Габриэлла Пази (Университет Милано-Бикокка)
Классификация: cs.CL (Компьютерная лингвистика), cs.AI (Искусственный интеллект)
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.11482

Аннотация

Предварительная обработка текста является фундаментальным компонентом обработки естественного языка, включающим такие методы, как удаление стоп-слов, стемминг и лемматизация, для подготовки текстовых входных данных к последующей обработке и анализу. Несмотря на контекстную зависимость этих методов, традиционные подходы обычно игнорируют контекстную информацию. В данной работе исследуется идея использования больших языковых моделей (LLMs) для выполнения различных задач предварительной обработки благодаря их способности учитывать контекст без необходимости в большом объёме аннотированных ресурсов для конкретного языка. На основе комплексной оценки веб-данных мы сравниваем предварительную обработку на основе LLM с традиционными алгоритмами в нескольких задачах классификации текста на шести европейских языках. Анализ показывает, что LLMs способны воспроизводить традиционные методы удаления стоп-слов, лемматизации и стемминга с точностью 97%, 82% и 74% соответственно. Кроме того, алгоритмы машинного обучения, обученные на текстах, предварительно обработанных LLM, показывают улучшение метрики F1 на 6% по сравнению с традиционными методами.

Исследовательский контекст и мотивация

Определение проблемы

Предварительная обработка текста является критическим этапом в конвейере обработки естественного языка, включающим операции удаления стоп-слов, стемминга и лемматизации. Целью этих операций является нормализация текста, снижение вычислительных затрат и уменьшение шума и нерелевантной информации.

Ограничения существующих методов

Отсутствие контекстной осведомлённости: Традиционные методы предварительной обработки в основном полагаются на предопределённые списки стоп-слов и фиксированные правила стемминга/лемматизации, игнорируя информацию, специфичную для предметной области, и контекст
Проблема омонимии частей речи: Например, слово "saw" при использовании в качестве глагола должно быть приведено к "see", а при использовании в качестве существительного должно остаться "saw"
Чувствительность к предметной области: Одно и то же слово в разных предметных областях может требовать различной обработки, например "leaves" в ботанических документах должно быть приведено к "leaf", а в документах об отпусках сотрудников — к "leave"

Исследовательская мотивация

LLMs обладают мощными способностями к пониманию языка и могут учитывать языковой контекст без необходимости в большом объёме аннотированных ресурсов для конкретного языка. В данном исследовании предполагается, что LLMs могут динамически определять стоп-слова, словоформы и основы на основе входного документа, контекста и задачи.

Основные вклады

Первая систематическая оценка: Проведена комплексная оценка способностей LLMs в задачах предварительной обработки текста (удаление стоп-слов, лемматизация, стемминг)
Многоязычный анализ: Методология проверена на шести европейских языках (английский, французский, немецкий, итальянский, португальский, испанский)
Оценка нижестоящих задач: Продемонстрировано улучшение производительности предварительной обработки LLM по сравнению с традиционными методами в задачах классификации текста
Вклад в открытый исходный код: Опубликованы код, подсказки и результаты экспериментов для содействия воспроизводимым исследованиям

Подробное описание методологии

Определение задач

Исследование определяет три основные задачи предварительной обработки:

Удаление стоп-слов: Выявление и удаление лексических единиц, нерелевантных для конкретной задачи
Лемматизация: Приведение лексических единиц к их словарной форме (лемме)
Стемминг: Упрощение лексических единиц до их корневой формы

Метод предварительной обработки LLM

Исследование использует метод обучения в контексте (in-context learning), предоставляя LLMs:

Описание задачи: Формальное определение операции предварительной обработки
Примеры: Небольшое количество примеров предварительной обработки
Входной текст: Текст, подлежащий обработке
Языковая информация: Идентификация языка текста
Контекст задачи: Конкретная информация о нижестоящей задаче

Инженерия подсказок

Для различных задач предварительной обработки разработаны специализированные шаблоны подсказок:

Пример удаления стоп-слов:

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

Пример лемматизации:

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

Стратегия многоязычной обработки

Для неанглийских языков используются как англоязычные подсказки, так и подсказки на целевом языке
Оценивается, обеспечивают ли языкоспецифичные подсказки дополнительное контекстное преимущество

Экспериментальная установка

Наборы данных

Англоязычные наборы данных

Серия SemEval: Включает предсказание эмодзи, обнаружение иронии, обнаружение речи ненависти, определение оскорбительного языка и анализ тональности
Классификация новостей: Наборы данных Reuters и AG News
Особый акцент: Данные социальных сетей, таких как Twitter, из-за неформального языка и высокого уровня шума

Многоязычные наборы данных

Многоязычный корпус тональности твитов: Охватывает французский, немецкий, итальянский, португальский и испанский языки
Стратегия выборки: Из-за вычислительных затрат случайная выборка до 3000 документов обучающего набора и 3000 документов тестового набора

Выбор моделей

Оценены пять моделей LLM с открытым исходным кодом, являющихся SOTA:

Gemma-2-9B и Gemma-3-4B: Главным образом обучены на англоязычных данных
LLama-3.1-8B: Исходно многоязычная модель
Phi-4-mini (3.8B): Главным образом англоязычное обучение
Qwen-2.5-7B: Исходно многоязычная модель

Базовые методы

Удаление стоп-слов: Списки стоп-слов, предоставляемые NLTK
Стемминг: Алгоритмы Porter, Lancaster и Snowball
Лемматизация: Лемматизаторы на основе правил или редакционных деревьев, предоставляемые spaCy

Метрики оценки

Оценка RQ1

SW: Процент лексических единиц, удалённых LLM, совпадающих со списком стоп-слов NLTK
NSW: Процент нестоп-слов, удалённых LLM
L: Процент результатов лемматизации LLM, совпадающих с традиционными методами
S: Процент результатов стемминга LLM, совпадающих с традиционными методами

Оценка RQ2

Использование микроусреднённой оценки F1 для оценки производительности классификации
Усреднение по трём алгоритмам машинного обучения: дерево решений, логистическая регрессия, наивный Байес

Результаты экспериментов

Оценка способностей предварительной обработки (RQ1)

Результаты на английском языке

Удаление стоп-слов: Gemma-2 показала лучший результат с точностью 84,29%
Лемматизация: Все модели превысили точность 77%, Gemma-2 достигла 82,61%
Стемминг: Относительно низкая производительность, Gemma-2 достигла 75,65% (совпадение с любым традиционным алгоритмом)

Многоязычные результаты

Удаление стоп-слов: Gemma-2 достигла 97% точности на французском языке, на других языках не менее 79%
Лемматизация: Qwen-2.5 показала лучшие результаты на французском, итальянском и испанском языках
Языкоспецифичные подсказки: Нет последовательных свидетельств того, что использование подсказок на целевом языке даёт лучшие результаты

Производительность нижестоящих задач (RQ2)

Классификация англоязычного текста

Общая производительность: LLMs превосходят традиционные методы в 25 из 35 комбинаций набора данных-задачи предварительной обработки
Лучший результат: Gemma-2 на наборе данных AG News в задаче удаления стоп-слов + лемматизация показала улучшение на 6,16% по сравнению с традиционными методами
Ограничения стемминга: Стемминг LLM превосходит традиционные методы только в 3 из 7 наборов данных

Многоязычная классификация текста

Средняя производительность: LLMs достигают сравнимой или лучшей производительности с традиционными методами в половине оценённых случаев
Преимущество лемматизации: Достигнута наивысшая производительность в 4 из 5 наборов данных
Языкоспецифичные закономерности: Llama-3.1 с использованием языкоспецифичных подсказок показала улучшение производительности в 80% задач

Ключевые выводы

Контекстная чувствительность: LLMs часто удаляют лексические единицы, которые традиционно не рассматриваются как стоп-слова, что подтверждает гипотезу о том, что контекстное понимание влияет на выбор стоп-слов
Несогласованность стемминга: LLMs могут производить различные основы для одной и той же лексической единицы в разных документах, что приводит к нестандартизированному представлению текста
Эффект размера модели: Gemma-3, несмотря на примерно половину параметров других крупных моделей, часто показывает сравнимую или превосходящую производительность

Связанные работы

Применение LLMs в NLP

LLMs достигают производительности SOTA в широком спектре задач, особенно эффективны в условиях малого количества примеров
Применимы к невидимым задачам или предметным областям без дополнительной контролируемой тонкой настройки

Контекстно-осведомлённая предварительная обработка

Взаимосвязь операций предварительной обработки с контекстом входного текста долгое время изучается
Определение контекстно-специфичных стоп-слов применяется в конвейерах поиска информации

Существующие исследования предварительной обработки LLM

Предыдущие работы в основном сосредоточены на стеммингу в конвейерах поиска информации
Отсутствует комплексный анализ способностей LLM к предварительной обработке текста

Заключение и обсуждение

Основные выводы

Способность к воспроизведению: LLMs способны эффективно воспроизводить традиционные методы предварительной обработки с точностью удаления стоп-слов, лемматизации и стемминга 97%, 82% и 74% соответственно
Улучшение производительности: Алгоритмы машинного обучения, обученные на текстах, предварительно обработанных LLM, показывают улучшение метрики F1 на 6%
Многоязычная эффективность: Методология демонстрирует эффективность на различных европейских языках

Ограничения

Ограничения оценки: Возможны случаи, когда LLM превосходит традиционные библиотеки, но это не захватывается метриками оценки
Вычислительные затраты: Вычислительные затраты на предварительную обработку LLM значительно выше, чем у традиционных методов
Инженерия подсказок: Не проведена обширная инженерия подсказок, что может повлиять на результаты
Согласованность стемминга: LLMs демонстрируют недостаток согласованности в стеммингу, что влияет на производительность нижестоящих задач

Направления будущих исследований

Исследование LLMs как инструментов для стемминга и лемматизации языков с ограниченными ресурсами
Изучение более эффективных стратегий подсказок и методов обучения в контексте
Разработка вычислительно эффективных решений для предварительной обработки LLM

Глубокая оценка

Преимущества

Новизна исследования: Первая систематическая оценка способностей LLMs в задачах предварительной обработки текста
Полнота экспериментов: Комплексная оценка, охватывающая несколько языков, множество задач и различные модели
Практическая ценность: Предоставляет новое решение для предварительной обработки текста на языках с ограниченными ресурсами
Вклад в открытый исходный код: Предоставлены полный код и данные для содействия воспроизводимым исследованиям

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ механизмов предварительной обработки LLM
Проблемы вычислительной эффективности: Недостаточно обсуждается компромисс между вычислительными затратами и улучшением производительности
Чувствительность к подсказкам: Не проведено глубокое исследование влияния различных стратегий подсказок на результаты
Отсутствие анализа ошибок: Отсутствует детальный анализ типов ошибок при предварительной обработке LLM

Влияние

Академический вклад: Предоставляет новое направление исследований в области предварительной обработки NLP
Практическая ценность: Особенно применимо к языкам с ограниченными ресурсами, где отсутствуют высококачественные инструменты предварительной обработки
Методологическое вдохновение: Демонстрирует потенциал LLMs в традиционных задачах NLP

Сценарии применения

Обработка языков с ограниченными ресурсами: Языки, в которых отсутствуют высококачественные лемматизаторы и стеммеры
Приложения, специфичные для предметной области: Задачи, требующие контекстно-осведомлённой предварительной обработки в конкретных предметных областях
Многоязычные системы: Кроссязычные приложения, требующие единого решения для предварительной обработки

Библиография

Статья цитирует 37 связанных работ, охватывающих важные исследования в ключевых областях, включая LLMs, предварительную обработку текста, поиск информации и многоязычную обработку естественного языка, обеспечивая прочную теоретическую основу для исследования.

Резюме: Данная статья пионерски исследует применение LLMs в предварительной обработке текста, демонстрируя преимущества LLMs в контекстно-осведомлённой предварительной обработке посредством комплексных многоязычных экспериментов. Несмотря на ограничения, такие как высокие вычислительные затраты, исследование предоставляет ценное решение для языков с ограниченными ресурсами и задач предварительной обработки, требующих контекстной осведомлённости.