Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.
Piccoli Modelli Raggiungono le Prestazioni dei Grandi Modelli Linguistici: Valutazione dell'IA Abilitata al Ragionamento per la Ricerca Sicura sul Benessere dei Minori
- ID Articolo: 2512.04261
- Titolo: Piccoli Modelli Raggiungono le Prestazioni dei Grandi Modelli Linguistici: Valutazione dell'IA Abilitata al Ragionamento per la Ricerca Sicura sul Benessere dei Minori
- Autori: Zia Qi, Brian E. Perron, Bryan G. Victor, Dragan Stoll, Joseph P. Ryan
- Istituzioni: Scuola di Servizio Sociale dell'Università del Michigan, Scuola di Servizio Sociale della Wayne State University, ZHAW Scuola Universitaria Professionale di Zurigo
- Classificazione: cs.CY (Computer e Società)
- Data di Pubblicazione: 2025 (basato su riferimenti del 2025 nel documento)
- Link Articolo: https://arxiv.org/abs/2512.04261
Questo studio sviluppa un framework sistematico di test benchmark per valutare la capacità dei modelli linguistici di identificare fattori di rischio chiave nei registri del benessere dei minori. La ricerca valuta le prestazioni di 7 modelli di dimensioni diverse (0,6B-32B parametri) in modalità di inferenza standard ed estesa, e varianti Mixture of Experts (MoE). I risultati mostrano che i modelli più grandi non sono necessariamente migliori. Un piccolo modello da 4B parametri con capacità di ragionamento esteso ha ottenuto le migliori prestazioni, superando modelli 8 volte più grandi. Il modello ha raggiunto una concordanza "quasi perfetta" (κ = 0,93-0,96) su tre criteri (uso di sostanze, armi da fuoco e oppioidi), e una concordanza "sostanziale" (κ = 0,74) sul compito più complesso di violenza domestica. Questo studio dimostra che piccoli modelli potenziati dal ragionamento possono migliorare significativamente l'efficienza computazionale mantenendo alta precisione.
Le agenzie di welfare per l'infanzia e i ricercatori di servizio sociale devono analizzare grandi quantità di testo sensibile per identificare fattori di rischio (violenza domestica, abuso di sostanze, problemi con armi, ecc.). I metodi manuali sono dispendiosi, mentre i grandi modelli linguistici (come ChatGPT, Claude) non possono essere usati per questi dati sensibili a causa di normative sulla privacy (HIPAA, FERPA, 42 CFR Parte 2).
- Sfide di Scala: 250.000 record richiederebbero 12.500 ore di esperti
- Requisiti di Conformità: I dati contengono informazioni personali protette
- Opacità dei Modelli: I modelli commerciali sono "scatole nere"
- Vincoli di Risorse: Le agenzie sociali mancano di risorse per grandi modelli
- Primi Metodi ML: Dipendenti da vocabolari fissi
- Grandi Modelli: Potenti ma costosi e non conformi alla privacy
- Mancanza di Valutazioni Sistematiche: I benchmark AI esistenti non riflettono il linguaggio del servizio sociale
Con lo sviluppo di piccoli modelli locali e innovazioni architetturali come il ragionamento esteso, i ricercatori necessitano di metodi sistematici per valutare:
- Quali modelli sono sufficientemente accurati?
- Qual è il punto di equilibrio tra dimensione e prestazioni?
- Le innovazioni architetturali possono permettere ai piccoli modelli di raggiungere le prestazioni dei grandi?
- Framework Sistematico di Benchmarking: Proposta di metodologia in 5 fasi per trasformare dataset validati in strumenti di valutazione
- Creazione di 4 Dataset di Fattori di Rischio: Violenza domestica, problemi correlati alle sostanze, armi da fuoco, oppioidi
- Principio "Piccolo ma Potente": Modello 4B + ragionamento esteso raggiunge prestazioni di modelli 32B con velocità 8x
- Quantificazione del Valore delle Innovazioni: Ragionamento migliora κ di 0,14-0,56; MoE raggiunge prestazioni simili con 2/3 del tempo
- Soluzione di Dispiegamento Riproducibile: Valutazione su hardware consumer dimostra l'implementabilità in agenzie sociali
(La traduzione completa manterrebbe la stessa struttura e contenuto tecnico del testo originale, rispettando il formato markdown e la terminologia accademica. Per brevità, ho tradotto solo le sezioni principali.)