2025-12-15T04:46:20.151524

Small Models Achieve Large Language Model Performance: Evaluating Reasoning-Enabled AI for Secure Child Welfare Research

Qi, Perron, Victor et al.

Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.

academic

Les petits modèles atteignent les performances des grands modèles linguistiques : évaluation de l'IA basée sur le raisonnement pour la recherche sécurisée en protection de l'enfance

Informations de base

ID du papier: 2512.04261
Titre: Les petits modèles atteignent les performances des grands modèles linguistiques : évaluation de l'IA basée sur le raisonnement pour la recherche sécurisée en protection de l'enfance
Auteurs: Zia Qi, Brian E. Perron, Bryan G. Victor, Dragan Stoll, Joseph P. Ryan
Institutions: École de travail social de l'Université du Michigan, École de travail social de l'Université d'État de Wayne, ZHAW Université des sciences appliquées de Zurich
Classification: cs.CY (Informatique et société)
Date de publication: 2025 (basé sur les références de 2025 citées dans le papier)
Lien vers le papier: https://arxiv.org/abs/2512.04261

Résumé

Cette étude développe un cadre d'évaluation systématique pour mesurer la capacité des modèles linguistiques à identifier les facteurs de risque clés dans les dossiers de protection de l'enfance. L'étude évalue 7 modèles de tailles différentes (0,6B-32B paramètres) en modes de raisonnement standard et étendu, ainsi que des variantes MoE (Mixture of Experts). Les résultats montrent que les modèles plus grands ne sont pas nécessairement meilleurs. Un petit modèle de 4B paramètres avec capacité de raisonnement étendu a obtenu les meilleures performances, surpassant des modèles 8 fois plus grands. Ce modèle atteint une cohérence "presque parfaite" (κ=0,93-0,96) sur trois critères (abus de substances, armes à feu et opioïdes), et une cohérence "substantielle" (κ=0,74) sur la tâche la plus complexe de violence domestique. Cette étude démontre que les petits modèles améliorés par le raisonnement peuvent améliorer significativement l'efficacité computationnelle tout en maintenant une haute précision.

Contexte et motivation

1. Problème central à résoudre

Les agences de protection de l'enfance et les chercheurs en travail social doivent analyser de grandes quantités de textes sensibles pour identifier les facteurs de risque (violence domestique, toxicomanie, armes à feu, etc.). Les méthodes manuelles traditionnelles sont chronophages, tandis que les grands modèles linguistiques avancés (ChatGPT, Claude) ne peuvent pas être utilisés en raison des réglementations sur la confidentialité (HIPAA, FERPA, 42 CFR Part 2).

2. Importance du problème

Défis d'échelle: 12 500 heures d'expertise nécessaires pour examiner 250 000 dossiers
Exigences de conformité: Les dossiers contiennent des informations protégées (santé, éducation)
Opacité des modèles: Les modèles propriétaires posent des problèmes de boîte noire
Contraintes de ressources: Les agences manquent souvent de ressources pour déployer de grands modèles

3. Limites des méthodes existantes

Apprentissage automatique précoce: Dépend de vocabulaires fixes et de règles étroites
Grands modèles avancés: Performants mais nécessitent un déploiement cloud et sont coûteux
Évaluations non systématiques: Les benchmarks existants ne reflètent pas le jargon du travail social

4. Motivation de la recherche

Avec le développement de petits modèles déployables localement et l'innovation architecturale comme le raisonnement étendu, les chercheurs ont besoin d'une méthode systématique pour évaluer :

Quels modèles sont suffisamment précis pour des tâches spécifiques ?
Quel est le compromis entre taille et performance ?
Les nouvelles architectures (raisonnement, MoE) permettent-elles aux petits modèles d'atteindre les performances des grands ?

Contributions principales

Cadre d'évaluation systématique: Méthodologie en 5 étapes pour transformer des datasets validés en outils d'évaluation standardisés
Quatre datasets de référence: Violence domestique, problèmes liés aux substances, armes à feu, opioïdes
Principe "petit mais puissant": Modèle 4B + raisonnement étendu atteint la précision d'un modèle 32B avec 8x plus de vitesse
Quantification de l'innovation architecturale: Raisonnement améliore les petits modèles de 0,14-0,56 κ, MoE réduit le temps de 2/3
Solution de déploiement local reproductible: Utilisation de matériel grand public (GPU RTX A6000)

Détails méthodologiques

Définition des tâches

Classification binaire de textes non structurés de résumés d'enquêtes de protection de l'enfance

Construction du cadre d'évaluation

Méthodologie en 5 étapes : identification des sources, évaluation qualitative, équilibrage des classes, développement d'instructions standardisées, normalisation des métriques (Cohen's kappa)

Sélection et configuration des modèles

Évaluation des séries Qwen3 (0,6B-32B) et gpt-oss-20b, comparaison des modes standard et raisonnement étendu, infrastructure basée sur GPU RTX A6000

Innovations techniques

Méthodologie d'évaluation spécifique au domaine, évaluation systématique du raisonnement étendu, analyse empirique de l'efficacité architecturale

Configuration expérimentale

Détails des datasets

Source : Département de la Santé du Michigan, 2016-2018 Caractéristiques : Textes non structurés, équilibrage des classes

Métriques d'évaluation

Cohen's Kappa (κ), sensibilité, spécificité, temps de traitement

Méthodes de comparaison

Comparaison par taille de modèle, mode de traitement et type d'architecture

Résultats expérimentaux

Principaux résultats

Meilleure configuration: Qwen3-4B + raisonnement étendu
Performance par tâche: Opioïdes (facile) → Violence domestique (difficile)
Effet du raisonnement: Amélioration significative de la spécificité (réduction des faux positifs)

Analyse des erreurs

Sensibilité: Maintenue ou améliorée par le raisonnement
Spécialité: Amélioration majeure pour les petits modèles

Performance MoE

Mode standard: Inférieur aux modèles denses
Mode raisonnement: Performances comparables avec avantages d'efficacité

Compromis efficacité

Temps de traitement: 4B + raisonnement : 3,2-4,2 sec/cas
Analyse à grande échelle: 4B traite 250 000 dossiers en 292 heures (vs 2333 heures pour 32B)

Expériences d'ablation

Contribution du raisonnement: Améliorations constantes pour toutes les tailles
Contribution de la taille: Corrélation positive mais avec limites de performance

Analyse de cas

Succès: Identification précise des termes techniques
Défis: Complexité de la violence domestique, tendance aux faux positifs des petits modèles

Conclusions et discussion

Conclusions principales

Les petits modèles peuvent atteindre les performances des grands avec raisonnement étendu
Le raisonnement est une innovation clé
Le cadre d'évaluation permet des choix de modèles basés sur des preuves

Limites

Généralisation géographique limitée
Simplification des tâches (classification binaire)
Couverture architecturale limitée

Directions futures

Validation multi-juridictionnelle
Augmentation de la complexité des tâches
Recherche sur l'équité et les biais

Évaluation approfondie

Points forts

Innovation méthodologique
Conception expérimentale rigoureuse
Valeur pratique élevée

Limites

Source de données unique
Simplification des tâches
Manque d'analyse de l'équité

Impact potentiel

Contribution méthodologique majeure pour l'évaluation de l'IA en travail social
Réduction des barrières à l'adoption de l'IA
Potentiel de transformation numérique des services sociaux

Résumé

Cette étude remet en question le paradigme "plus grand est meilleur" en démontrant que les petits modèles avec raisonnement étendu peuvent atteindre les performances des grands modèles tout en étant plus efficaces. Ses principales contributions sont :

Rendre l'IA accessible aux agences à ressources limitées
Garantir la conformité aux réglementations de confidentialité
Fournir des données pour des choix de modèles éclairés
Établir des normes d'évaluation pour le travail social

Les limites incluent une source de données unique et une simplification des tâches, ouvrant des pistes pour des recherches futures. Globalement, il s'agit d'une recherche de haute qualité avec d'importantes implications pratiques et méthodologiques.