Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.
- ID du papier: 2512.04261
- Titre: Les petits modèles atteignent les performances des grands modèles linguistiques : évaluation de l'IA basée sur le raisonnement pour la recherche sécurisée en protection de l'enfance
- Auteurs: Zia Qi, Brian E. Perron, Bryan G. Victor, Dragan Stoll, Joseph P. Ryan
- Institutions: École de travail social de l'Université du Michigan, École de travail social de l'Université d'État de Wayne, ZHAW Université des sciences appliquées de Zurich
- Classification: cs.CY (Informatique et société)
- Date de publication: 2025 (basé sur les références de 2025 citées dans le papier)
- Lien vers le papier: https://arxiv.org/abs/2512.04261
Cette étude développe un cadre d'évaluation systématique pour mesurer la capacité des modèles linguistiques à identifier les facteurs de risque clés dans les dossiers de protection de l'enfance. L'étude évalue 7 modèles de tailles différentes (0,6B-32B paramètres) en modes de raisonnement standard et étendu, ainsi que des variantes MoE (Mixture of Experts). Les résultats montrent que les modèles plus grands ne sont pas nécessairement meilleurs. Un petit modèle de 4B paramètres avec capacité de raisonnement étendu a obtenu les meilleures performances, surpassant des modèles 8 fois plus grands. Ce modèle atteint une cohérence "presque parfaite" (κ=0,93-0,96) sur trois critères (abus de substances, armes à feu et opioïdes), et une cohérence "substantielle" (κ=0,74) sur la tâche la plus complexe de violence domestique. Cette étude démontre que les petits modèles améliorés par le raisonnement peuvent améliorer significativement l'efficacité computationnelle tout en maintenant une haute précision.
Les agences de protection de l'enfance et les chercheurs en travail social doivent analyser de grandes quantités de textes sensibles pour identifier les facteurs de risque (violence domestique, toxicomanie, armes à feu, etc.). Les méthodes manuelles traditionnelles sont chronophages, tandis que les grands modèles linguistiques avancés (ChatGPT, Claude) ne peuvent pas être utilisés en raison des réglementations sur la confidentialité (HIPAA, FERPA, 42 CFR Part 2).
- Défis d'échelle: 12 500 heures d'expertise nécessaires pour examiner 250 000 dossiers
- Exigences de conformité: Les dossiers contiennent des informations protégées (santé, éducation)
- Opacité des modèles: Les modèles propriétaires posent des problèmes de boîte noire
- Contraintes de ressources: Les agences manquent souvent de ressources pour déployer de grands modèles
- Apprentissage automatique précoce: Dépend de vocabulaires fixes et de règles étroites
- Grands modèles avancés: Performants mais nécessitent un déploiement cloud et sont coûteux
- Évaluations non systématiques: Les benchmarks existants ne reflètent pas le jargon du travail social
Avec le développement de petits modèles déployables localement et l'innovation architecturale comme le raisonnement étendu, les chercheurs ont besoin d'une méthode systématique pour évaluer :
- Quels modèles sont suffisamment précis pour des tâches spécifiques ?
- Quel est le compromis entre taille et performance ?
- Les nouvelles architectures (raisonnement, MoE) permettent-elles aux petits modèles d'atteindre les performances des grands ?
- Cadre d'évaluation systématique: Méthodologie en 5 étapes pour transformer des datasets validés en outils d'évaluation standardisés
- Quatre datasets de référence: Violence domestique, problèmes liés aux substances, armes à feu, opioïdes
- Principe "petit mais puissant": Modèle 4B + raisonnement étendu atteint la précision d'un modèle 32B avec 8x plus de vitesse
- Quantification de l'innovation architecturale: Raisonnement améliore les petits modèles de 0,14-0,56 κ, MoE réduit le temps de 2/3
- Solution de déploiement local reproductible: Utilisation de matériel grand public (GPU RTX A6000)
Classification binaire de textes non structurés de résumés d'enquêtes de protection de l'enfance
Méthodologie en 5 étapes : identification des sources, évaluation qualitative, équilibrage des classes, développement d'instructions standardisées, normalisation des métriques (Cohen's kappa)
Évaluation des séries Qwen3 (0,6B-32B) et gpt-oss-20b, comparaison des modes standard et raisonnement étendu, infrastructure basée sur GPU RTX A6000
Méthodologie d'évaluation spécifique au domaine, évaluation systématique du raisonnement étendu, analyse empirique de l'efficacité architecturale
Source : Département de la Santé du Michigan, 2016-2018
Caractéristiques : Textes non structurés, équilibrage des classes
Cohen's Kappa (κ), sensibilité, spécificité, temps de traitement
Comparaison par taille de modèle, mode de traitement et type d'architecture
- Meilleure configuration: Qwen3-4B + raisonnement étendu
- Performance par tâche: Opioïdes (facile) → Violence domestique (difficile)
- Effet du raisonnement: Amélioration significative de la spécificité (réduction des faux positifs)
- Sensibilité: Maintenue ou améliorée par le raisonnement
- Spécialité: Amélioration majeure pour les petits modèles
- Mode standard: Inférieur aux modèles denses
- Mode raisonnement: Performances comparables avec avantages d'efficacité
- Temps de traitement: 4B + raisonnement : 3,2-4,2 sec/cas
- Analyse à grande échelle: 4B traite 250 000 dossiers en 292 heures (vs 2333 heures pour 32B)
- Contribution du raisonnement: Améliorations constantes pour toutes les tailles
- Contribution de la taille: Corrélation positive mais avec limites de performance
- Succès: Identification précise des termes techniques
- Défis: Complexité de la violence domestique, tendance aux faux positifs des petits modèles
- Les petits modèles peuvent atteindre les performances des grands avec raisonnement étendu
- Le raisonnement est une innovation clé
- Le cadre d'évaluation permet des choix de modèles basés sur des preuves
- Généralisation géographique limitée
- Simplification des tâches (classification binaire)
- Couverture architecturale limitée
- Validation multi-juridictionnelle
- Augmentation de la complexité des tâches
- Recherche sur l'équité et les biais
- Innovation méthodologique
- Conception expérimentale rigoureuse
- Valeur pratique élevée
- Source de données unique
- Simplification des tâches
- Manque d'analyse de l'équité
- Contribution méthodologique majeure pour l'évaluation de l'IA en travail social
- Réduction des barrières à l'adoption de l'IA
- Potentiel de transformation numérique des services sociaux
Cette étude remet en question le paradigme "plus grand est meilleur" en démontrant que les petits modèles avec raisonnement étendu peuvent atteindre les performances des grands modèles tout en étant plus efficaces. Ses principales contributions sont :
- Rendre l'IA accessible aux agences à ressources limitées
- Garantir la conformité aux réglementations de confidentialité
- Fournir des données pour des choix de modèles éclairés
- Établir des normes d'évaluation pour le travail social
Les limites incluent une source de données unique et une simplification des tâches, ouvrant des pistes pour des recherches futures. Globalement, il s'agit d'une recherche de haute qualité avec d'importantes implications pratiques et méthodologiques.