2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi
Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
academic

大規模言語モデルのテキスト前処理に対する言語能力の調査

基本情報

  • 論文ID: 2510.11482
  • タイトル: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
  • 著者: Marco Braga (ミラノ・ビコッカ大学)、Gian Carlo Milanese (ミラノ・ビコッカ大学)、Gabriella Pasi (ミラノ・ビコッカ大学)
  • 分類: cs.CL (計算言語学)、cs.AI (人工知能)
  • 発表日: 2025年10月13日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.11482

要約

テキスト前処理は自然言語処理の基礎的な構成要素であり、ストップワード除去、語幹抽出、見出し語化などの技術を含み、後続の処理と分析のためにテキスト入力を準備する。これらの技術は文脈に依存しているにもかかわらず、従来の方法は通常文脈情報を無視している。本論文は、大規模言語モデル(LLM)を使用して様々な前処理タスクを実行するという考えを調査している。LLMは大量の言語固有の注釈付きリソースを必要とせずに文脈を考慮することができるからである。ウェブデータの包括的な評価を通じて、6つのヨーロッパ言語の複数のテキスト分類タスクにおいて、LLMベースの前処理と従来のアルゴリズムを比較した。分析結果は、LLMがストップワード除去、見出し語化、語幹抽出の従来の方法をそれぞれ97%、82%、74%の精度で複製できることを示している。さらに、LLM前処理されたテキストで訓練された機械学習アルゴリズムは、従来の技術と比較してF1指標で最大6%の改善を達成した。

研究背景と動機

問題定義

テキスト前処理はNLPパイプラインの重要なステップであり、ストップワード除去、語幹抽出、見出し語化などの操作を含む。これらの操作の目的は、テキストを標準化し、計算コストを削減し、ノイズと無関連情報を減らすことである。

既存方法の限界

  1. 文脈認識の欠如:従来の前処理方法は主に事前定義されたストップワードリストと固定の語幹/見出し語化ルールに依存し、領域固有情報と文脈を無視している
  2. 品詞曖昧性の問題:例えば「saw」という単語は、動詞として使用される場合は「see」に見出し語化されるべきであり、名詞として使用される場合は「saw」のままである
  3. 領域感度:同じ単語が異なる領域では異なる処理方法を必要とする場合がある。例えば「leaves」は植物学文書では「leaf」に見出し語化されるべきであり、従業員休暇文書では「leave」に見出し語化されるべきである

研究動機

LLMは強力な言語理解能力を持ち、大量の言語固有の注釈付きリソースを必要とせずに言語文脈を考慮することができる。本研究は、LLMが入力文書、文脈、タスクに基づいて動的にストップワード、見出し語、語幹を検出できるという仮説を立てている。

核心的貢献

  1. 初の体系的評価:テキスト前処理タスク(ストップワード除去、見出し語化、語幹抽出)に対するLLMの能力の包括的な評価を実施した
  2. 多言語分析:6つのヨーロッパ言語(英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)での方法の有効性を検証した
  3. 下流タスク評価:従来の方法と比較してテキスト分類タスクにおけるLLM前処理の性能向上を実証した
  4. オープンソース貢献:コード、プロンプト、実験結果を公開し、再現可能な研究を促進した

方法の詳細

タスク定義

本研究は3つの核心的な前処理タスクを定義した:

  • ストップワード除去:特定のタスクに対して重要でない語彙を識別して除去する
  • 見出し語化:語彙を辞書形式(見出し語)に還元する
  • 語幹抽出:語彙をその語根形式に簡略化する

LLM前処理方法

本研究は文脈内学習(in-context learning)アプローチを採用し、LLMに以下を提供した:

  1. タスク説明:前処理操作の正式な定義
  2. :少数の前処理例
  3. 入力テキスト:処理対象のテキスト
  4. 言語情報:テキストの言語識別
  5. タスク文脈:下流タスクの具体的情報

プロンプトエンジニアリング

異なる前処理タスクのために専門的なプロンプトテンプレートを設計した:

ストップワード除去の例

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

見出し語化の例

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

多言語処理戦略

  • 非英語言語については、英語プロンプトと目標言語プロンプトの両方を使用した
  • 言語固有プロンプトが追加の文脈上の利点を提供するかどうかを評価した

実験設定

データセット

英語データセット

  • SemEval系列:絵文字予測、皮肉検出、ヘイトスピーチ検出、攻撃的言語識別、感情分析を含む
  • ニュース分類:ReutersおよびAG Newsデータセット
  • 重点:非公式言語と高いノイズレベルのため、Twitterなどのソーシャルメディアデータに焦点を当てた

多言語データセット

  • Tweet Sentiment Multilingual corpus:フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語をカバー
  • サンプリング戦略:計算コストのため、最大3000の訓練文書と3000のテスト文書をランダムにサンプリングした

モデル選択

5つのオープンソースSOTA LLMを評価した:

  • Gemma-2-9B および Gemma-3-4B:主に英語データで訓練
  • LLama-3.1-8B:ネイティブ多言語モデル
  • Phi-4-mini (3.8B):主に英語訓練
  • Qwen-2.5-7B:ネイティブ多言語モデル

ベースライン方法

  • ストップワード除去:NLTKが提供するストップワードリスト
  • 語幹抽出:Porter、Lancaster、Snowballアルゴリズム
  • 見出し語化:spaCyが提供するルールベースまたは編集木ベースの見出し語化器

評価指標

RQ1評価

  • SW:LLMが除去した語彙のうちNLTKストップワードリストと一致する割合
  • NSW:LLMが除去した非ストップワードの割合
  • L:LLM見出し語化結果が従来の方法と一致する割合
  • S:LLM語幹抽出結果が従来の方法と一致する割合

RQ2評価

  • マイクロ平均F1スコアを使用して分類性能を評価
  • 3つの機械学習アルゴリズムで平均化:決定木、ロジスティック回帰、ナイーブベイズ

実験結果

前処理能力評価(RQ1)

英語の結果

  • ストップワード除去:Gemma-2が最高性能で84.29%の精度を達成
  • 見出し語化:すべてのモデルが77%以上の精度を超え、Gemma-2は82.61%を達成
  • 語幹抽出:性能は相対的に低く、Gemma-2は75.65%を達成(任意の従来のアルゴリズムと一致)

多言語の結果

  • ストップワード除去:Gemma-2がフランス語で97%の精度を達成し、他の言語では少なくとも79%
  • 見出し語化:Qwen-2.5がフランス語、イタリア語、スペイン語で最高性能を発揮
  • 言語固有プロンプト:目標言語プロンプトを使用することでより良い結果が得られるという一貫した証拠はない

下流タスク性能(RQ2)

英語テキスト分類

  • 全体的性能:LLMが35のデータセット前処理タスク組み合わせのうち25で従来の方法を上回った
  • 最高結果:Gemma-2がAG Newsデータセットのストップワード除去+見出し語化タスクで従来の方法を6.16%上回った
  • 語幹抽出の限界:LLM語幹抽出はデータセットの7つのうち3つでのみ従来の方法を上回った

多言語テキスト分類

  • 平均性能:LLMが評価ケースの半分で従来の技術と同等またはそれ以上の性能を達成
  • 見出し語化の利点:5つのデータセットのうち4つで最高性能を実現
  • 言語固有パターン:Llama-3.1は言語固有プロンプトを使用して80%のタスクで性能が向上

主要な発見

  1. 文脈感度:LLMは従来上ストップワードと見なされない語彙をしばしば除去し、文脈理解がストップワード選択に影響を与えるという仮説を支持している
  2. 語幹抽出の不一貫性:LLMは異なる文書で同じ語彙に対して異なる語幹を生成する可能性があり、非標準化されたテキスト表現につながる
  3. モデルサイズ効果:Gemma-3は他の大規模モデルの約半分のパラメータを持つにもかかわらず、性能は比較可能またはそれ以上である場合が多い

関連研究

NLPにおけるLLMの応用

  • LLMは広範なタスクでSOTA性能を達成し、特に少数ショット設定で有効である
  • 追加の監督微調整なしに未見のタスクまたは領域に適用できる

文脈認識前処理

  • 前処理操作と入力テキスト文脈の関係は長期間研究されている
  • 情報検索パイプラインにおける文脈固有ストップワード定義の応用

既存のLLM前処理研究

  • 先行研究は主に情報検索パイプラインにおける語幹抽出に焦点を当てている
  • LLMテキスト前処理能力の包括的な分析が不足している

結論と議論

主要な結論

  1. 複製能力:LLMはストップワード除去、見出し語化、語幹抽出の従来の前処理方法をそれぞれ97%、82%、74%の精度で効果的に複製できる
  2. 性能向上:LLM前処理に基づく機械学習アルゴリズムはF1指標で最大6%の改善を達成した
  3. 多言語有効性:方法は複数のヨーロッパ言語で有効性を示している

限界

  1. 評価の限界:LLMが従来のライブラリより優れているが、評価指標によって捕捉されていない場合がある可能性がある
  2. 計算コスト:LLM前処理の計算コストは従来の方法よりも大幅に高い
  3. プロンプトエンジニアリング:広範なプロンプトエンジニアリングが実施されておらず、結果に影響を与える可能性がある
  4. 語幹抽出の一貫性:LLMは語幹抽出で一貫性を欠き、下流タスク性能に影響を与える

今後の方向性

  • 低資源言語の語幹抽出と見出し語化ツールとしてのLLMの探索
  • より効果的なプロンプト戦略と文脈内学習方法の研究
  • 計算効率がより高いLLM前処理スキームの開発

深層的評価

利点

  1. 研究の新規性:テキスト前処理タスクに対するLLM能力の初の体系的評価
  2. 実験の包括性:複数の言語、タスク、モデルを含む包括的な評価
  3. 実用的価値:低資源言語のテキスト前処理に新しいソリューションを提供
  4. オープンソース貢献:完全なコードとデータを提供し、再現可能な研究を促進

不足

  1. 理論分析の不足:LLM前処理メカニズムの深い理論的分析が不足している
  2. 計算効率の問題:計算コストと性能向上のトレードオフについて十分に議論されていない
  3. プロンプト感度:異なるプロンプト戦略が結果に与える影響について深く探索されていない
  4. エラー分析の欠落:LLM前処理エラーのタイプの詳細な分析が不足している

影響力

  1. 学術的貢献:NLP前処理分野に新しい研究方向を提供
  2. 実用的価値:特に完全な前処理ツールを欠く低資源言語に適用可能
  3. 方法的示唆:従来のNLPタスクにおけるLLMの可能性を示す

適用シーン

  1. 低資源言語処理:高品質な見出し語化器と語幹抽出器を欠く言語
  2. 領域固有アプリケーション:文脈感度の高い前処理が必要な特定領域タスク
  3. 多言語システム:統一された前処理スキームを必要とする言語間アプリケーション

参考文献

論文は計算言語学、テキスト前処理、情報検索、多言語NLPなどの主要分野の重要な研究を含む37の関連文献を引用し、研究に堅実な理論的基礎を提供している。


要約:本論文はテキスト前処理におけるLLMの応用を先駆的に探索し、包括的な多言語実験を通じて、文脈認識前処理におけるLLMの利点を実証している。計算コストが高いなどの限界があるにもかかわらず、低資源言語と文脈感度の高い前処理タスクに対して価値のあるソリューションを提供している。