2025-12-15T04:46:20.151524

Small Models Achieve Large Language Model Performance: Evaluating Reasoning-Enabled AI for Secure Child Welfare Research

Qi, Perron, Victor et al.
Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.
academic

Les petits modèles atteignent les performances des grands modèles linguistiques : évaluation de l'IA basée sur le raisonnement pour la recherche sécurisée en protection de l'enfance

Informations de base

  • ID du papier: 2512.04261
  • Titre: Les petits modèles atteignent les performances des grands modèles linguistiques : évaluation de l'IA basée sur le raisonnement pour la recherche sécurisée en protection de l'enfance
  • Auteurs: Zia Qi, Brian E. Perron, Bryan G. Victor, Dragan Stoll, Joseph P. Ryan
  • Institutions: École de travail social de l'Université du Michigan, École de travail social de l'Université d'État de Wayne, ZHAW Université des sciences appliquées de Zurich
  • Classification: cs.CY (Informatique et société)
  • Date de publication: 2025 (basé sur les références de 2025 citées dans le papier)
  • Lien vers le papier: https://arxiv.org/abs/2512.04261

Résumé

Cette étude développe un cadre d'évaluation systématique pour mesurer la capacité des modèles linguistiques à identifier les facteurs de risque clés dans les dossiers de protection de l'enfance. L'étude évalue 7 modèles de tailles différentes (0,6B-32B paramètres) en modes de raisonnement standard et étendu, ainsi que des variantes MoE (Mixture of Experts). Les résultats montrent que les modèles plus grands ne sont pas nécessairement meilleurs. Un petit modèle de 4B paramètres avec capacité de raisonnement étendu a obtenu les meilleures performances, surpassant des modèles 8 fois plus grands. Ce modèle atteint une cohérence "presque parfaite" (κ=0,93-0,96) sur trois critères (abus de substances, armes à feu et opioïdes), et une cohérence "substantielle" (κ=0,74) sur la tâche la plus complexe de violence domestique. Cette étude démontre que les petits modèles améliorés par le raisonnement peuvent améliorer significativement l'efficacité computationnelle tout en maintenant une haute précision.

Contexte et motivation

1. Problème central à résoudre

Les agences de protection de l'enfance et les chercheurs en travail social doivent analyser de grandes quantités de textes sensibles pour identifier les facteurs de risque (violence domestique, toxicomanie, armes à feu, etc.). Les méthodes manuelles traditionnelles sont chronophages, tandis que les grands modèles linguistiques avancés (ChatGPT, Claude) ne peuvent pas être utilisés en raison des réglementations sur la confidentialité (HIPAA, FERPA, 42 CFR Part 2).

2. Importance du problème

  • Défis d'échelle: 12 500 heures d'expertise nécessaires pour examiner 250 000 dossiers
  • Exigences de conformité: Les dossiers contiennent des informations protégées (santé, éducation)
  • Opacité des modèles: Les modèles propriétaires posent des problèmes de boîte noire
  • Contraintes de ressources: Les agences manquent souvent de ressources pour déployer de grands modèles

3. Limites des méthodes existantes

  • Apprentissage automatique précoce: Dépend de vocabulaires fixes et de règles étroites
  • Grands modèles avancés: Performants mais nécessitent un déploiement cloud et sont coûteux
  • Évaluations non systématiques: Les benchmarks existants ne reflètent pas le jargon du travail social

4. Motivation de la recherche

Avec le développement de petits modèles déployables localement et l'innovation architecturale comme le raisonnement étendu, les chercheurs ont besoin d'une méthode systématique pour évaluer :

  • Quels modèles sont suffisamment précis pour des tâches spécifiques ?
  • Quel est le compromis entre taille et performance ?
  • Les nouvelles architectures (raisonnement, MoE) permettent-elles aux petits modèles d'atteindre les performances des grands ?

Contributions principales

  1. Cadre d'évaluation systématique: Méthodologie en 5 étapes pour transformer des datasets validés en outils d'évaluation standardisés
  2. Quatre datasets de référence: Violence domestique, problèmes liés aux substances, armes à feu, opioïdes
  3. Principe "petit mais puissant": Modèle 4B + raisonnement étendu atteint la précision d'un modèle 32B avec 8x plus de vitesse
  4. Quantification de l'innovation architecturale: Raisonnement améliore les petits modèles de 0,14-0,56 κ, MoE réduit le temps de 2/3
  5. Solution de déploiement local reproductible: Utilisation de matériel grand public (GPU RTX A6000)

Détails méthodologiques

Définition des tâches

Classification binaire de textes non structurés de résumés d'enquêtes de protection de l'enfance

Construction du cadre d'évaluation

Méthodologie en 5 étapes : identification des sources, évaluation qualitative, équilibrage des classes, développement d'instructions standardisées, normalisation des métriques (Cohen's kappa)

Sélection et configuration des modèles

Évaluation des séries Qwen3 (0,6B-32B) et gpt-oss-20b, comparaison des modes standard et raisonnement étendu, infrastructure basée sur GPU RTX A6000

Innovations techniques

Méthodologie d'évaluation spécifique au domaine, évaluation systématique du raisonnement étendu, analyse empirique de l'efficacité architecturale

Configuration expérimentale

Détails des datasets

Source : Département de la Santé du Michigan, 2016-2018 Caractéristiques : Textes non structurés, équilibrage des classes

Métriques d'évaluation

Cohen's Kappa (κ), sensibilité, spécificité, temps de traitement

Méthodes de comparaison

Comparaison par taille de modèle, mode de traitement et type d'architecture

Résultats expérimentaux

Principaux résultats

  • Meilleure configuration: Qwen3-4B + raisonnement étendu
  • Performance par tâche: Opioïdes (facile) → Violence domestique (difficile)
  • Effet du raisonnement: Amélioration significative de la spécificité (réduction des faux positifs)

Analyse des erreurs

  • Sensibilité: Maintenue ou améliorée par le raisonnement
  • Spécialité: Amélioration majeure pour les petits modèles

Performance MoE

  • Mode standard: Inférieur aux modèles denses
  • Mode raisonnement: Performances comparables avec avantages d'efficacité

Compromis efficacité

  • Temps de traitement: 4B + raisonnement : 3,2-4,2 sec/cas
  • Analyse à grande échelle: 4B traite 250 000 dossiers en 292 heures (vs 2333 heures pour 32B)

Expériences d'ablation

  • Contribution du raisonnement: Améliorations constantes pour toutes les tailles
  • Contribution de la taille: Corrélation positive mais avec limites de performance

Analyse de cas

  • Succès: Identification précise des termes techniques
  • Défis: Complexité de la violence domestique, tendance aux faux positifs des petits modèles

Conclusions et discussion

Conclusions principales

  1. Les petits modèles peuvent atteindre les performances des grands avec raisonnement étendu
  2. Le raisonnement est une innovation clé
  3. Le cadre d'évaluation permet des choix de modèles basés sur des preuves

Limites

  • Généralisation géographique limitée
  • Simplification des tâches (classification binaire)
  • Couverture architecturale limitée

Directions futures

  • Validation multi-juridictionnelle
  • Augmentation de la complexité des tâches
  • Recherche sur l'équité et les biais

Évaluation approfondie

Points forts

  • Innovation méthodologique
  • Conception expérimentale rigoureuse
  • Valeur pratique élevée

Limites

  • Source de données unique
  • Simplification des tâches
  • Manque d'analyse de l'équité

Impact potentiel

  • Contribution méthodologique majeure pour l'évaluation de l'IA en travail social
  • Réduction des barrières à l'adoption de l'IA
  • Potentiel de transformation numérique des services sociaux

Résumé

Cette étude remet en question le paradigme "plus grand est meilleur" en démontrant que les petits modèles avec raisonnement étendu peuvent atteindre les performances des grands modèles tout en étant plus efficaces. Ses principales contributions sont :

  1. Rendre l'IA accessible aux agences à ressources limitées
  2. Garantir la conformité aux réglementations de confidentialité
  3. Fournir des données pour des choix de modèles éclairés
  4. Établir des normes d'évaluation pour le travail social

Les limites incluent une source de données unique et une simplification des tâches, ouvrant des pistes pour des recherches futures. Globalement, il s'agit d'une recherche de haute qualité avec d'importantes implications pratiques et méthodologiques.