2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.
The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.
academic

QLoRAを用いたローマン・ウルドゥー語-英語コード混合テキストにおける攻撃的言語検出のための大規模言語モデルの微調整

基本情報

  • 論文ID: 2510.03683
  • タイトル: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
  • 著者: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
  • 所属機関: Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), メキシコ
  • 分類: cs.CL(計算言語学)
  • 論文リンク: https://arxiv.org/abs/2510.03683

概要

本研究は、ローマン・ウルドゥー語-英語コード混合テキストにおける攻撃的言語検出の問題に対して、QLoRAベースの大規模言語モデル微調整フレームワークを提案しています。ローマン・ウルドゥー語における文法の不規則性、スペルの不一貫性、および注釈付きデータの稀少性という課題に対応するため、研究者らはGoogle翻訳を使用してコード混合テキストを英語に変換し、英語の大規模言語モデルの能力を十分に活用しています。実験は複数のモデルで実施されており、Meta-LLaMA-3-8B、Mistral-7B-v0.1、LLaMA 2-7B、ModernBERT、およびRoBERTaが含まれています。結果として、Meta-LLaMA-3-8Bは91.45%の最高F1スコアを達成し、Mistral-7Bは89.66%に達し、従来のTransformerベースラインモデルを上回っています。

研究背景と動機

問題定義

本研究が解決する中核的な問題は、ローマン・ウルドゥー語-英語コード混合テキストにおける攻撃的言語の検出です。ローマン・ウルドゥー語はパキスタンとインドの一部地域における主要なデジタルコミュニケーション形式であり、ユーザーはラテン文字を使用してウルドゥー語を記述し、頻繁に英語の語彙を混合します。

問題の重要性

  1. ソーシャルメディアのセキュリティ需要:Twitter、Facebook、YouTubeなどのプラットフォームの普及に伴い、攻撃的で有害なコンテンツの拡散がますます深刻化しており、そのようなコンテンツの識別と削減はデジタル環境の健全性維持とユーザーの心理的害の防止に不可欠です。
  2. コード混合言語の特殊な課題:ローマン・ウルドゥー語-英語コード混合テキストは、非標準的な文法、スペルの不一貫性、注釈付きデータセットの欠如などの特性を有しており、これらの特性は従来のNLPモデルの精度を著しく低下させます。

既存方法の限界

  1. 従来の機械学習手法:初期段階ではSVM、ナイーブベイズ、ロジスティック回帰などの手法をTF-IDFまたはn-gramの特徴と組み合わせて使用していましたが、異なる文脈と言語間での汎化能力が低く、特に非形式的、ノイズの多い、またはコード混合データでの性能が不十分です。
  2. 深層学習モデル:CNNおよびRNNは文脈情報の捉え方において従来の手法より優れていますが、形態が豊かな低資源言語(ローマン・ウルドゥー語など)に対しては依然として課題があります。
  3. 事前学習モデルの稀少性:ローマン・ウルドゥー語は専門的な事前学習モデルまたは大規模な注釈付きコーパスに欠けており、既存の手法の適用を制限しています。

中核的な貢献

  1. ローマン・ウルドゥー語-英語攻撃的言語検出のエンドツーエンドパイプラインの提案:データ前処理からモデル評価までの完全な処理フローを構築しました。
  2. QLoRAのLLaMAおよびMistralモデルへの適用:量化低ランク適応技術をローマン・ウルドゥー語攻撃的言語検出タスクに初めて適用しました。
  3. 包括的な比較評価の実施:QLoRA微調整された大規模言語モデルと従来の微調整されたModernBERTおよびRoBERTaモデルの性能を比較しました。
  4. 翻訳ベースの前処理戦略の採用:翻訳方法を通じて英語の大規模言語モデルを使用して低資源コード混合テキストを処理しました。

方法の詳細説明

タスク定義

入力:ローマン・ウルドゥー語-英語コード混合テキスト 出力:二値分類ラベル(攻撃的/非攻撃的) 制約:低資源、非標準文法、コード混合特性の処理

モデルアーキテクチャ

全体的なフロー

研究は体系的な処理パイプラインを採用しました:

  1. データ収集と前処理
    • データセットは46,026個のサンプルを含む(24,026個の「攻撃的」、22,000個の「非攻撃的」)
    • 主にFacebookの公開コメントとYouTubeの返信からスクレイピング
    • 3名のバイリンガル注釈者による手動注釈、Cohen's Kappaの一致性は0.86
  2. 翻訳処理
    • deep_translatorパッケージのGoogleTranslatorライブラリを使用
    • ローマン・ウルドゥー語テキストを英語に翻訳して英語LLMを活用
    • 翻訳段階まで元のコード混合特性を保持
  3. データセット分割と注釈付け
    • ラベルマッピング:「攻撃的」→1、「非攻撃的」→0
    • 層化サンプリングを使用して80%訓練、20%テスト分割
    • デコーダーモデルの場合、入力はプロンプトスタイルにフォーマット化

モデル選択

性能評価のため多様なモデルを選択しました:

  • 大規模言語モデル:LLaMA 3 (8B)、LLaMA 2 (7B)、Mistral (7B)、QLoRA微調整を使用
  • 従来のTransformer:RoBERTaおよびModernBERT、従来の教師あり学習方法で微調整

QLoRA微調整技術

中核的なパラメータ設定

  • ランク (r=8)
  • アルファ (32)
  • ドロップアウト (0.05)
  • 適応層:q_projおよびv_proj

技術的利点

  • 低ランク適応器と量化重みを通じてメモリ効率的な微調整を実現
  • 性能を維持しながらGPUメモリ使用量を大幅に削減

技術的革新点

  1. 量化低ランク適応の適用:QLoRA技術をローマン・ウルドゥー語攻撃的言語検出に初めて適用し、大規模モデルの効率的な微調整を実現しました。
  2. 翻訳支援のクロスリンガル転移:翻訳戦略を通じて言語ギャップを埋め、基礎的なセマンティクスに対するモデルの理解を向上させました。
  3. マルチモデル比較フレームワーク:LLMと従来のTransformerモデルの体系的な比較評価フレームワークを構築しました。

実験設定

データセット

  • 規模:46,026個のサンプル
  • 出典:Facebookのコメントとユーチューブの返信
  • 注釈付け:3名のバイリンガル注釈者、Cohen's Kappa = 0.86
  • 分割:80%訓練、20%テスト(層化サンプリング)
  • 前処理:文脈の完全性を保つため最小限のクリーニング

評価指標

  • 精度(Accuracy)
  • 適合率(Precision)
  • 再現率(Recall)
  • F1スコア(F1 Score)

比較方法

  • LLaMA 3 (8B) + QLoRA
  • Mistral 7B + QLoRA
  • LLaMA 2 (7B) + QLoRA
  • RoBERTa(従来の微調整)
  • ModernBERT(従来の微調整)

実装の詳細

  • ハードウェア:NVIDIA A100 (80GB VRAM)、128GB RAM、32コアCPU
  • ソフトウェア環境:Python 3.13.2、PyTorch、Transformers、PEFTなど
  • ハイパーパラメータ:学習率2e-5、バッチサイズ2、訓練エポック10、重み減衰0.01
  • 最適化戦略:勾配チェックポイント、早期停止メカニズム

実験結果

主要な結果

モデル精度適合率再現率F1スコア
LLaMA 3 (8B)91.6291.491.591.45
Mistral 7B89.8889.589.889.66
LLaMA 2 (7B)88.7488.288.688.4
RoBERTa85.6585.285.785.44
ModernBERT83.9283.184.083.55

主要な知見

  1. LLaMA 3 (8B)は最高の性能を達成し、F1スコアは91.45%
  2. QLoRAベースの大規模言語モデルは従来のTransformerモデルを大幅に上回る
  3. 性能差はコード混合言語タスクにおけるQLoRA微調整の利点を示しています

訓練動作の分析

  • 収束速度:最適なモデルは2~3エポック内に最適な検証F1スコアに達する
  • 訓練の安定性:すべてのモデルは平滑な損失低下を示し、過学習の兆候なし
  • メモリ効率:QLoRAは大規模モデル微調整のメモリ要件を大幅に削減

推論効率の比較

  • LLaMA 3 (8B):約1.0秒/1000サンプル
  • Mistral 7B:約0.80秒/1000サンプル
  • LLaMA 2 (7B):約0.78秒/1000サンプル
  • RoBERTa:約0.35秒/1000サンプル
  • ModernBERT:約0.30秒/1000サンプル

モデルサイズと推論速度のトレードオフを反映しています。

モデル解釈可能性の分析

LIMEおよびSHAPの分析を通じて以下を発見:

  • 高影響攻撃的語彙:「saalon」、「naacho」、「maaregi」など
  • モデルの決定パターン:LLaMA 3は文脈的攻撃的言語に焦点を当て、従来のモデルはより分散した重み配分
  • バイアス識別:特定の中立的な語彙が分類を誤導する可能性があり、データ品質の重要性を強調

関連研究

攻撃的言語検出研究

  1. 従来の手法:手工特徴ベースの機械学習手法(SVM、ナイーブベイズなど)
  2. 深層学習手法:CNN、RNNおよびTransformerアーキテクチャ(BERTおよびその変種)
  3. 多言語処理:クロスリンガル転移学習とゼロショット学習手法

低資源言語処理

  1. ローマン・ウルドゥー語研究:少数の研究者がローマン・ウルドゥー語データセットと埋め込み方法を構築
  2. コード混合処理:多言語埋め込みと機械翻訳支援方法
  3. リソース稀少性の課題:事前学習モデルと大規模注釈付きコーパスの欠如

大規模言語モデルの微調整

  1. パラメータ効率的な微調整:QLoRA、LoRAなどの技術の発展
  2. LLM応用:テキスト分類タスクにおけるGPT、LLaMA、Mistralの応用
  3. 量化技術:性能を維持しながら計算リソース要件を削減

結論と考察

主要な結論

  1. QLoRA微調整の有効性:ローマン・ウルドゥー語-英語コード混合テキスト攻撃的言語検出タスクにおいて、QLoRA微調整された大規模言語モデルは従来の手法を大幅に上回る
  2. 翻訳戦略の実行可能性:翻訳前処理を通じて英語LLMを使用して低資源コード混合言語を効果的に処理できる
  3. モデルサイズの重要性:より大きなモデルパラメータサイズは複雑なNLPタスクで明らかな利点を示す

限界

  1. コード混合特性の喪失:翻訳プロセスにより元のコード切り替え構造が失われ、モデルは実際には元のコード混合テキストではなく英語翻訳版を処理
  2. 計算リソース要件:大規模言語モデルの推論遅延は高く、リアルタイムアプリケーションを制限する可能性
  3. データセットサイズ:比較的小さなデータセットはモデルの汎化能力に影響を与える可能性
  4. 翻訳品質への依存:方法の有効性はGoogle翻訳の品質に大きく依存

今後の方向性

  1. コード混合テキストの直接処理:翻訳なしでローマン・ウルドゥー語を直接処理できるLLMの開発
  2. ゼロショットおよび少数ショット学習:注釈付きデータへの依存を削減
  3. クロスリンガル転移の最適化:コード混合特性をより良く保持するためのクロスリンガル転移方法の改善
  4. リアルタイム最適化:実際の展開ニーズに対応するための推論速度の最適化

深い評価

利点

  1. 方法の革新性:QLoRA技術をローマン・ウルドゥー語攻撃的言語検出に初めて適用し、新しい解決アプローチを提供
  2. 実験の包括性:異なるサイズとアーキテクチャの複数のモデルを比較し、包括的な性能ベンチマークを提供
  3. 実用的価値:ソーシャルメディアコンテンツモデレーションのための実行可能な技術ソリューション
  4. 技術の先進性:最新のパラメータ効率的微調整技術を採用し、リソース制約環境で良好な性能を実現

不足

  1. 方法の限界:翻訳前処理戦略は実用的ですが、コード混合の本質的な特性を失う
  2. データセット制限:データセットは比較的小さく、特定のプラットフォームからのみ出典しており、汎化性に影響を与える可能性
  3. 評価の次元:異なるタイプの攻撃的言語の細粒度分析が不足
  4. 理論的貢献:主にエンジニアリング実装であり、理論的革新は相対的に限定的

影響力

  1. 学術的貢献:低資源コード混合言語の攻撃的コンテンツ検出に有効な方法を提供
  2. 実際の応用:ローマン・ウルドゥー語ソーシャルメディアコンテンツモデレーションに直接適用可能
  3. 技術推進:特定の領域タスクにおけるQLoRAの応用可能性を実証
  4. 研究への示唆:他の低資源言語の類似タスクのための参考フレームワークを提供

適用シナリオ

  1. ソーシャルメディアプラットフォーム:Facebook、Twitterなどのプラットフォームのローマン・ウルドゥー語コンテンツモデレーション
  2. オンラインコミュニティ管理:パキスタンとインド地域のオンラインフォーラムとコミュニティ
  3. 教育応用:ネットいじめ検出と予防システム
  4. 研究基盤:多言語攻撃的言語検出システム開発の基盤

参考文献

論文は46の関連文献を引用しており、攻撃的言語検出、大規模言語モデル、コード混合言語処理など複数の分野の重要な研究をカバーしており、研究に堅実な理論的基礎と技術的サポートを提供しています。


総合評価:本論文は技術実装において比較的成熟しており、実験設計は合理的で、結果は説得力があります。理論的革新の面では相対的に限定的ですが、低資源コード混合言語の実際の応用に価値のあるソリューションを提供しており、良好な実用的価値と推進意義を有しています。