2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

基本信息

  • 论文ID: 2510.11482
  • 标题: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
  • 作者: Marco Braga (University of Milano-Bicocca), Gian Carlo Milanese (University of Milano-Bicocca), Gabriella Pasi (University of Milano-Bicocca)
  • 分类: cs.CL (Computational Linguistics), cs.AI (Artificial Intelligence)
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.11482

摘要

文本预处理是自然语言处理的基础组件,涉及停用词移除、词干提取和词形还原等技术,用于为后续处理和分析准备文本输入。尽管这些技术具有上下文依赖性,传统方法通常忽略上下文信息。本文研究使用大语言模型(LLMs)执行各种预处理任务的想法,因为它们能够考虑上下文而无需大量特定语言的标注资源。通过对网络数据的全面评估,我们在六种欧洲语言的多个文本分类任务中比较了基于LLM的预处理与传统算法。分析表明,LLMs能够复制传统的停用词移除、词形还原和词干提取方法,准确率分别达到97%、82%和74%。此外,在LLM预处理文本上训练的ML算法相比传统技术在F1指标上最高提升6%。

研究背景与动机

问题定义

文本预处理是NLP流水线中的关键步骤,包括停用词移除、词干提取和词形还原等操作。这些操作的目的是标准化文本、降低计算成本并减少噪声和无关信息。

现有方法的局限性

  1. 缺乏上下文感知:传统预处理方法主要依赖预定义的停用词列表和固定的词干/词形还原规则,忽略了领域特定信息和上下文
  2. 词性歧义问题:例如"saw"一词,作为动词时应还原为"see",作为名词时应保持"saw"
  3. 领域敏感性:同一个词在不同领域可能有不同的处理方式,如"leaves"在植物学文档中应还原为"leaf",在员工请假文档中应还原为"leave"

研究动机

LLMs具有强大的语言理解能力,能够在不需要大量特定语言标注资源的情况下考虑语言上下文。本研究假设LLMs可以基于输入文档、上下文和任务动态检测停用词、词形和词干。

核心贡献

  1. 首次系统性评估:对LLMs在文本预处理任务(停用词移除、词形还原、词干提取)上的能力进行了全面评估
  2. 多语言分析:在六种欧洲语言(英语、法语、德语、意大利语、葡萄牙语、西班牙语)上验证了方法的有效性
  3. 下游任务评估:证明了LLM预处理相比传统方法在文本分类任务上的性能提升
  4. 开源贡献:公开了代码、提示和实验结果,促进可重现性研究

方法详解

任务定义

本研究定义了三个核心预处理任务:

  • 停用词移除:识别并移除对特定任务不重要的词汇
  • 词形还原:将词汇还原为其字典形式(词元)
  • 词干提取:将词汇简化为其词根形式

LLM预处理方法

研究采用上下文学习(in-context learning)方法,为LLMs提供:

  1. 任务描述:预处理操作的正式定义
  2. 示例:少量预处理示例
  3. 输入文本:待处理的文本
  4. 语言信息:文本的语言标识
  5. 任务上下文:下游任务的具体信息

提示工程

针对不同预处理任务设计了专门的提示模板:

停用词移除示例

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

词形还原示例

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

多语言处理策略

  • 对于非英语语言,使用英语提示和目标语言提示两种方式
  • 评估语言特定提示是否提供额外的上下文优势

实验设置

数据集

英语数据集

  • SemEval系列:包括emoji预测、讽刺检测、仇恨言论检测、攻击性语言识别和情感分析
  • 新闻分类:Reuters和AG News数据集
  • 重点关注:Twitter等社交媒体数据,因其非正式语言和高噪声水平

多语言数据集

  • Tweet Sentiment Multilingual corpus:覆盖法语、德语、意大利语、葡萄牙语、西班牙语
  • 采样策略:由于计算成本,随机采样最多3000个训练文档和3000个测试文档

模型选择

评估了五个开源SOTA LLMs:

  • Gemma-2-9BGemma-3-4B:主要训练于英语数据
  • LLama-3.1-8B:原生多语言模型
  • Phi-4-mini (3.8B):主要英语训练
  • Qwen-2.5-7B:原生多语言模型

基线方法

  • 停用词移除:NLTK提供的停用词列表
  • 词干提取:Porter、Lancaster和Snowball算法
  • 词形还原:spaCy提供的基于规则或编辑树的词形还原器

评价指标

RQ1评估

  • SW:LLM移除的词汇中与NLTK停用词列表匹配的百分比
  • NSW:LLM移除的非停用词百分比
  • L:LLM词形还原结果与传统方法匹配的百分比
  • S:LLM词干提取结果与传统方法匹配的百分比

RQ2评估

  • 使用微平均F1分数评估分类性能
  • 在三种ML算法上取平均:决策树、逻辑回归、朴素贝叶斯

实验结果

预处理能力评估(RQ1)

英语结果

  • 停用词移除:Gemma-2表现最佳,准确率达84.29%
  • 词形还原:所有模型都超过77%的准确率,Gemma-2达到82.61%
  • 词干提取:性能相对较低,Gemma-2达到75.65%(与任一传统算法匹配)

多语言结果

  • 停用词移除:Gemma-2在法语上达到97%的准确率,其他语言至少79%
  • 词形还原:Qwen-2.5在法语、意大利语和西班牙语上表现最佳
  • 语言特定提示:没有一致证据表明使用目标语言提示能带来更好结果

下游任务性能(RQ2)

英语文本分类

  • 总体表现:LLMs在35个数据集-预处理任务组合中的25个超越传统方法
  • 最佳结果:Gemma-2在AG News数据集上的停用词移除+词形还原任务中比传统方法提升6.16%
  • 词干提取局限:LLM词干提取仅在7个数据集中的3个超越传统方法

多语言文本分类

  • 平均表现:LLMs在一半的评估案例中达到与传统技术相当或更好的性能
  • 词形还原优势:在5个数据集中的4个实现最高性能
  • 语言特定模式:Llama-3.1使用语言特定提示在80%的任务中性能提升

关键发现

  1. 上下文敏感性:LLMs经常移除传统上不被视为停用词的词汇,支持了上下文理解影响停用词选择的假设
  2. 词干提取不一致性:LLMs在不同文档中可能对同一词汇产生不同的词干,导致非标准化的文本表示
  3. 模型规模效应:Gemma-3尽管参数量约为其他大型模型的一半,但性能经常可比甚至超越更大的模型

相关工作

LLMs在NLP中的应用

  • LLMs在广泛任务中达到SOTA性能,特别在少样本设置中有效
  • 无需额外监督微调即可应用于未见任务或领域

上下文感知预处理

  • 预处理操作与输入文本上下文的关系长期被研究
  • 上下文特定停用词的定义在信息检索流水线中的应用

现有LLM预处理研究

  • 先前工作主要关注信息检索流水线中的词干提取
  • 缺乏对LLM文本预处理能力的全面分析

结论与讨论

主要结论

  1. 复制能力:LLMs能够有效复制传统预处理方法,停用词移除、词形还原和词干提取的准确率分别达到97%、82%和74%
  2. 性能提升:基于LLM预处理的ML算法在F1指标上最高提升6%
  3. 多语言有效性:方法在多种欧洲语言上都显示出有效性

局限性

  1. 评估局限:可能存在LLM优于传统库但未被评估指标捕捉的情况
  2. 计算成本:LLM预处理的计算成本显著高于传统方法
  3. 提示工程:未进行广泛的提示工程,可能影响结果
  4. 词干提取一致性:LLMs在词干提取中缺乏一致性,影响下游任务性能

未来方向

  • 探索LLMs作为低资源语言的词干提取和词形还原工具
  • 研究更有效的提示策略和上下文学习方法
  • 开发计算效率更高的LLM预处理方案

深度评价

优点

  1. 研究新颖性:首次系统性评估LLMs在文本预处理任务上的能力
  2. 实验全面性:涵盖多种语言、多个任务和多种模型的全面评估
  3. 实用价值:为低资源语言的文本预处理提供了新的解决方案
  4. 开源贡献:提供了完整的代码和数据,促进可重现研究

不足

  1. 理论分析不足:缺乏对LLM预处理机制的深入理论分析
  2. 计算效率问题:未充分讨论计算成本与性能提升的权衡
  3. 提示敏感性:未深入探讨不同提示策略对结果的影响
  4. 错误分析缺失:缺乏对LLM预处理错误类型的详细分析

影响力

  1. 学术贡献:为NLP预处理领域提供了新的研究方向
  2. 实用价值:特别适用于缺乏完善预处理工具的低资源语言
  3. 方法启发:展示了LLMs在传统NLP任务中的潜力

适用场景

  1. 低资源语言处理:缺乏高质量词形还原器和词干提取器的语言
  2. 领域特定应用:需要上下文敏感预处理的特定领域任务
  3. 多语言系统:需要统一预处理方案的跨语言应用

参考文献

论文引用了37篇相关文献,涵盖了LLMs、文本预处理、信息检索和多语言NLP等关键领域的重要工作,为研究提供了坚实的理论基础。


总结:本文开创性地探索了LLMs在文本预处理中的应用,通过全面的多语言实验证明了LLMs在上下文感知预处理方面的优势。尽管存在计算成本高等局限性,但为低资源语言和上下文敏感的预处理任务提供了有价值的解决方案。