2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.

The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.

academic

Ajustement fin des grands modèles de langage avec QLoRA pour la détection du langage offensant dans le texte code-mixte Roman Ourdou-Anglais

Informations de base

ID de l'article : 2510.03683
Titre : Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
Auteurs : Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
Institution : Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), Mexique
Classification : cs.CL (Linguistique informatique)
Lien de l'article : https://arxiv.org/abs/2510.03683

Résumé

Cette étude propose un cadre d'ajustement fin des grands modèles de langage basé sur QLoRA pour la détection du langage offensant dans le texte code-mixte Roman Ourdou-Anglais. Face aux défis posés par la langue ourdoue romaine, notamment la grammaire non-normalisée, les incohérences orthographiques et la rareté des données annotées, les chercheurs ont adopté Google Traduction pour convertir le texte code-mixte en anglais, afin de tirer pleinement parti des capacités des grands modèles de langage anglais. Les expériences ont été menées sur plusieurs modèles, notamment Meta-LLaMA-3-8B, Mistral-7B-v0.1, LLaMA 2-7B, ModernBERT et RoBERTa. Les résultats montrent que Meta-LLaMA-3-8B a obtenu le score F1 le plus élevé de 91,45 %, tandis que Mistral-7B a atteint 89,66 %, surpassant tous deux les modèles de base Transformer traditionnels.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental abordé par cette étude est la détection du langage offensant dans le texte code-mixte Roman Ourdou-Anglais. Le Roman Ourdou est la principale forme de communication numérique dans certaines régions du Pakistan et de l'Inde, où les utilisateurs écrivent l'ourdou en caractères latins et mélangent fréquemment du vocabulaire anglais.

Importance du problème

Besoins de sécurité des réseaux sociaux : Avec la prolifération de plateformes telles que Twitter, Facebook et YouTube, la propagation de contenu offensant et nuisible s'intensifie. L'identification et la réduction de tels contenus sont essentielles pour maintenir la santé numérique et prévenir les préjudices psychologiques aux utilisateurs.
Défis spécifiques du langage code-mixte : Le texte code-mixte Roman Ourdou-Anglais présente des caractéristiques telles que la grammaire non-standard, les incohérences orthographiques et l'absence de corpus annotés, ce qui réduit considérablement la précision des modèles de traitement du langage naturel traditionnels.

Limitations des méthodes existantes

Méthodes d'apprentissage automatique traditionnel : Les approches antérieures utilisant SVM, naïve Bayes et régression logistique combinées avec TF-IDF ou des caractéristiques n-gramme présentent une faible capacité de généralisation entre les contextes et les langues, en particulier sur les données informelles, bruitées ou code-mixtes.
Modèles d'apprentissage profond : Bien que CNN et RNN surpassent les méthodes traditionnelles dans la capture d'informations contextuelles, ils font face à des défis pour les langues morphologiquement riches et peu dotées en ressources comme le Roman Ourdou.
Rareté des modèles pré-entraînés : L'absence de modèles pré-entraînés spécialisés ou de corpus annotés à grande échelle pour le Roman Ourdou limite l'application des méthodes existantes.

Contributions principales

Proposition d'un pipeline de détection du langage offensant Roman Ourdou-Anglais de bout en bout : Construction d'un processus complet allant du prétraitement des données à l'évaluation du modèle.
Application de QLoRA aux modèles LLaMA et Mistral : Application pionnière de la technique d'adaptation de faible rang quantifiée à la tâche de détection du langage offensant en Roman Ourdou.
Évaluation comparative complète : Comparaison des performances des grands modèles de langage ajustés avec QLoRA par rapport aux modèles ModernBERT et RoBERTa ajustés de manière traditionnelle.
Adoption d'une stratégie de prétraitement basée sur la traduction : Utilisation de la méthode de traduction pour exploiter les grands modèles de langage anglais dans le traitement des textes code-mixtes peu dotés en ressources.

Explication détaillée de la méthode

Définition de la tâche

Entrée : Texte code-mixte Roman Ourdou-Anglais Sortie : Étiquette de classification binaire (offensant/non-offensant) Contraintes : Traitement de textes peu dotés en ressources, avec grammaire non-standard et caractéristiques code-mixtes

Architecture du modèle

Processus global

L'étude adopte un pipeline de traitement systématisé :

Collecte et prétraitement des données
- L'ensemble de données contient 46 026 échantillons (24 026 « offensants », 22 000 « non-offensants »)
- Principalement extraits de commentaires Facebook publics et de réponses YouTube
- Annotés manuellement par trois annotateurs bilingues, avec un accord Kappa de Cohen de 0,86
Traitement de la traduction
- Utilisation de la bibliothèque GoogleTranslator du package deep_translator
- Traduction du texte Roman Ourdou en anglais pour exploiter les modèles de langage anglais
- Préservation des caractéristiques code-mixtes originales jusqu'à l'étape de traduction
Division et annotation de l'ensemble de données
- Mappage des étiquettes : « offensant » → 1, « non-offensant » → 0
- Utilisation d'un échantillonnage stratifié pour une division 80 % entraînement, 20 % test
- Pour les modèles décodeurs, formatage de l'entrée en style d'invite

Sélection des modèles

Une sélection diversifiée de modèles a été évaluée :

Grands modèles de langage : LLaMA 3 (8B), LLaMA 2 (7B), Mistral (7B), ajustés avec QLoRA
Transformers traditionnels : RoBERTa et ModernBERT, ajustés avec des méthodes d'apprentissage supervisé traditionnel

Technique d'ajustement fin QLoRA

Paramètres de configuration principaux :

rang (r=8)
alpha (32)
abandon (0,05)
couches d'adaptation : q_proj et v_proj

Avantages techniques :

Ajustement fin efficace en mémoire grâce aux adaptateurs de faible rang et aux poids quantifiés
Maintien des performances tout en réduisant considérablement l'utilisation de la mémoire GPU

Points d'innovation technique

Application de l'adaptation de faible rang quantifiée : Application pionnière de la technique QLoRA à la détection du langage offensant en Roman Ourdou, réalisant un ajustement fin efficace des grands modèles.
Transfert cross-lingue assisté par traduction : Utilisation d'une stratégie de traduction pour combler l'écart linguistique et améliorer la compréhension des sémantiques sous-jacentes par le modèle.
Cadre de comparaison multi-modèles : Établissement d'un cadre d'évaluation comparative systématique entre les modèles de langage et les modèles Transformer traditionnels.

Configuration expérimentale

Ensemble de données

Taille : 46 026 échantillons
Source : Commentaires Facebook et réponses YouTube
Annotation : Trois annotateurs bilingues, Kappa de Cohen = 0,86
Division : 80 % entraînement, 20 % test (échantillonnage stratifié)
Prétraitement : Nettoyage minimal pour préserver l'intégrité contextuelle

Métriques d'évaluation

Exactitude (Accuracy)
Précision (Precision)
Rappel (Recall)
Score F1 (F1 Score)

Méthodes de comparaison

LLaMA 3 (8B) + QLoRA
Mistral 7B + QLoRA
LLaMA 2 (7B) + QLoRA
RoBERTa (ajustement traditionnel)
ModernBERT (ajustement traditionnel)

Détails d'implémentation

Matériel : NVIDIA A100 (80 Go VRAM), 128 Go RAM, CPU 32 cœurs
Environnement logiciel : Python 3.13.2, PyTorch, Transformers, PEFT, etc.
Hyperparamètres : Taux d'apprentissage 2e-5, taille de lot 2, 10 epochs d'entraînement, décroissance des poids 0,01
Stratégies d'optimisation : Points de contrôle de gradient, mécanisme d'arrêt anticipé

Résultats expérimentaux

Résultats principaux

Modèle	Exactitude	Précision	Rappel	Score F1
LLaMA 3 (8B)	91,62	91,4	91,5	91,45
Mistral 7B	89,88	89,5	89,8	89,66
LLaMA 2 (7B)	88,74	88,2	88,6	88,4
RoBERTa	85,65	85,2	85,7	85,44
ModernBERT	83,92	83,1	84,0	83,55

Découvertes clés :

LLaMA 3 (8B) a obtenu les meilleures performances avec un score F1 de 91,45 %
Les grands modèles de langage basés sur QLoRA surpassent significativement les modèles Transformer traditionnels
L'écart de performance reflète les avantages de l'ajustement fin QLoRA sur les tâches de langage code-mixte

Analyse du comportement d'entraînement

Vitesse de convergence : Les modèles optimaux atteignent le score F1 de validation optimal en 2-3 epochs
Stabilité d'entraînement : Tous les modèles montrent une diminution régulière de la perte, sans signes de surapprentissage
Efficacité mémoire : QLoRA réduit considérablement les besoins en mémoire pour l'ajustement fin des grands modèles

Comparaison de l'efficacité d'inférence

LLaMA 3 (8B) : Environ 1,0 seconde/1000 échantillons
Mistral 7B : Environ 0,80 seconde/1000 échantillons
LLaMA 2 (7B) : Environ 0,78 seconde/1000 échantillons
RoBERTa : Environ 0,35 seconde/1000 échantillons
ModernBERT : Environ 0,30 seconde/1000 échantillons

Reflétant le compromis entre la taille du modèle et la vitesse d'inférence.

Analyse de l'interprétabilité du modèle

Grâce à l'analyse LIME et SHAP, les découvertes incluent :

Vocabulaire offensant à fort impact : « saalon », « naacho », « maaregi », etc.
Modèles de décision du modèle : LLaMA 3 se concentre sur le langage offensant contextuel, tandis que les modèles traditionnels distribuent les poids de manière plus dispersée
Identification des biais : Certains mots neutres peuvent induire en erreur la classification, soulignant l'importance de la qualité des données

Travaux connexes

Recherche sur la détection du langage offensant

Méthodes traditionnelles : Méthodes d'apprentissage automatique basées sur des caractéristiques manuelles (SVM, naïve Bayes, etc.)
Méthodes d'apprentissage profond : Architectures CNN, RNN et Transformer (BERT et ses variantes)
Traitement multilingue : Apprentissage par transfert cross-lingue et méthodes d'apprentissage zéro-shot

Traitement des langues peu dotées en ressources

Recherche sur le Roman Ourdou : Quelques chercheurs ont construit des ensembles de données et des méthodes d'intégration pour le Roman Ourdou
Traitement code-mixte : Intégrations multilingues et méthodes assistées par traduction automatique
Défis de rareté des ressources : Absence de modèles pré-entraînés et de corpus annotés à grande échelle

Ajustement fin des grands modèles de langage

Ajustement fin efficace en paramètres : Développement de techniques telles que QLoRA et LoRA
Applications des modèles de langage : Applications de GPT, LLaMA et Mistral aux tâches de classification de texte
Techniques de quantification : Réduction des besoins en ressources informatiques tout en maintenant les performances

Conclusions et discussion

Conclusions principales

Efficacité de l'ajustement fin QLoRA : Dans la tâche de détection du langage offensant dans le texte code-mixte Roman Ourdou-Anglais, les grands modèles de langage ajustés avec QLoRA surpassent significativement les méthodes traditionnelles
Viabilité de la stratégie de traduction : Le prétraitement par traduction permet d'exploiter efficacement les modèles de langage anglais pour traiter les langues code-mixtes peu dotées en ressources
Importance de la taille du modèle : Les modèles de plus grande taille montrent des avantages évidents dans les tâches complexes de traitement du langage naturel

Limitations

Perte des caractéristiques code-mixtes : Le processus de traduction entraîne la perte de la structure originale du changement de code, le modèle traitant réellement une version traduite en anglais plutôt que du texte code-mixte natif
Besoins en ressources informatiques : La latence d'inférence des grands modèles de langage peut être élevée, limitant potentiellement les applications en temps réel
Taille de l'ensemble de données : La taille relativement petite de l'ensemble de données peut affecter la capacité de généralisation du modèle
Dépendance à la qualité de la traduction : L'efficacité de la méthode dépend fortement de la qualité de la traduction Google

Directions futures

Traitement direct du texte code-mixte : Développement de modèles de langage capables de traiter directement le Roman Ourdou sans traduction
Apprentissage zéro-shot et peu-shot : Réduction de la dépendance aux données annotées
Optimisation du transfert cross-lingue : Amélioration des méthodes de transfert cross-lingue pour mieux préserver les caractéristiques code-mixtes
Optimisation en temps réel : Optimisation de la vitesse d'inférence pour les besoins de déploiement pratique

Évaluation approfondie

Points forts

Innovativité de la méthode : Application pionnière de la technique QLoRA à la détection du langage offensant en Roman Ourdou, offrant une nouvelle approche de résolution
Exhaustivité de l'expérience : Comparaison de modèles de différentes tailles et architectures, fournissant des références de performance complètes
Valeur pratique : Fourniture d'une solution technologique viable pour la modération de contenu des réseaux sociaux
Avancée technologique : Adoption des dernières techniques d'ajustement fin efficace en paramètres, réalisant de bonnes performances dans les environnements aux ressources limitées

Insuffisances

Limitations de la méthode : Bien que la stratégie de prétraitement par traduction soit pratique, elle perd les caractéristiques essentielles du code-mixte
Limitations de l'ensemble de données : L'ensemble de données est relativement petit et provient uniquement de plateformes spécifiques, ce qui peut affecter la généralisation
Dimensions d'évaluation : Absence d'analyse fine des différents types de langage offensant
Contribution théorique : Principalement une implémentation d'ingénierie, avec une innovation théorique relativement limitée

Impact

Contribution académique : Fourniture d'une méthode efficace pour la détection de contenu offensant dans les langues code-mixtes peu dotées en ressources
Application pratique : Application directe à la modération de contenu Roman Ourdou sur les réseaux sociaux
Promotion technologique : Démonstration du potentiel d'application de QLoRA dans les tâches de domaines spécifiques
Inspiration pour la recherche : Fourniture d'un cadre de référence pour les tâches similaires dans d'autres langues peu dotées en ressources

Scénarios d'application

Plateformes de réseaux sociaux : Modération de contenu Roman Ourdou sur Facebook, Twitter et autres plateformes
Gestion des communautés en ligne : Forums en ligne et communautés dans les régions du Pakistan et de l'Inde
Applications éducatives : Systèmes de détection et de prévention du cyberharcèlement
Base de recherche : Base de développement de systèmes de détection du langage offensant multilingues

Références bibliographiques

L'article cite 46 références pertinentes, couvrant plusieurs domaines tels que la détection du langage offensant, les grands modèles de langage et le traitement des langues code-mixtes, fournissant une base théorique solide et un soutien technique pour la recherche.

Évaluation globale : Cet article présente une implémentation techniquement mature, une conception expérimentale raisonnable et des résultats convaincants. Bien que l'innovation théorique soit relativement limitée, il fournit une solution de valeur pratique pour les applications réelles des langues code-mixtes peu dotées en ressources, avec une bonne valeur pratique et un potentiel de promotion.