2025-12-15T04:46:20.151524

Small Models Achieve Large Language Model Performance: Evaluating Reasoning-Enabled AI for Secure Child Welfare Research

Qi, Perron, Victor et al.

Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.

academic

Los Modelos Pequeños Alcanzan el Rendimiento de Modelos de Lenguaje Grandes: Evaluación de IA con Capacidad de Razonamiento para Investigación Segura en Bienestar Infantil

Información Básica

ID del Artículo: 2512.04261
Título: Los Modelos Pequeños Alcanzan el Rendimiento de Modelos de Lenguaje Grandes: Evaluación de IA con Capacidad de Razonamiento para Investigación Segura en Bienestar Infantil
Autores: Zia Qi, Brian E. Perron, Bryan G. Victor, Dragan Stoll, Joseph P. Ryan
Instituciones: Escuela de Trabajo Social de la Universidad de Michigan, Escuela de Trabajo Social de la Universidad Estatal de Wayne, Escuela de Ciencias Aplicadas ZHAW de Zúrich
Categoría: cs.CY (Computadoras y Sociedad)
Fecha de Publicación: 2025 (basado en referencias de 2025 en el artículo)
Enlace al Artículo: https://arxiv.org/abs/2512.04261

Resumen

Este estudio desarrolla un marco de evaluación sistemático para medir la capacidad de los modelos de lenguaje para identificar factores de riesgo clave en registros de bienestar infantil. Se evaluaron 7 modelos de diferentes tamaños (0.6B-32B parámetros) en modos estándar y de razonamiento extendido, así como variantes de Mezcla de Expertos (MoE). Los resultados muestran que los modelos más grandes no son necesariamente mejores. Un modelo pequeño de 4B con capacidad de razonamiento extendido obtuvo el mejor rendimiento, superando a modelos 8 veces más grandes. Este modelo alcanzó consistencia "casi perfecta" (κ = 0.93-0.96) en tres criterios (sustancias, armas de fuego y opioides), y consistencia "sustancial" (κ = 0.74) en la tarea más compleja de violencia doméstica. Este estudio demuestra que los modelos pequeños mejorados con razonamiento pueden mejorar significativamente la eficiencia computacional mientras mantienen alta precisión.

Contexto y Motivación

1. Problema Central a Resolver

Las agencias de bienestar infantil necesitan analizar grandes volúmenes de registros confidenciales para identificar factores de riesgo (violencia doméstica, abuso de sustancias, armas, etc.). Los métodos manuales son lentos, mientras los grandes modelos de lenguaje (como ChatGPT) están restringidos por regulaciones de privacidad (HIPAA, FERPA).

2. Importancia del Problema

Desafíos de escala: 250,000 registros requieren 12,500 horas de expertos
Requisitos de privacidad: Registros contienen PHI protegida por ley
Opacidad de modelos comerciales: Problemas de caja negra y actualizaciones incontrolables
Restricciones de recursos: Agencias carecen de recursos para modelos grandes

3. Limitaciones de Métodos Existentes

ML temprano: Depende de vocabularios fijos y reglas estrechas
Modelos grandes: Alto costo y requieren implementación en la nube
Falta de evaluaciones sistemáticas: Los estándares actuales no reflejan la terminología social

4. Motivación de la Investigación

Con el desarrollo de modelos pequeños y arquitecturas innovadoras como el razonamiento extendido, necesitamos evaluar:

¿Qué modelos son suficientemente precisos?
¿Cuál es el equilibrio entre tamaño y rendimiento?
¿Pueden las nuevas arquitecturas permitir que modelos pequeños alcancen el rendimiento de los grandes?

Contribuciones Clave

Marco de Pruebas Estandarizado: Metodología de 5 fases para convertir conjuntos de datos validados en herramientas de evaluación
Creación de 4 Conjuntos de Datos: Violencia doméstica, sustancias, armas, opioides (500 muestras cada uno)
Principio "Pequeño pero Potente": Modelo de 4B + razonamiento alcanza precisión similar a 32B con 8x más velocidad
Valor Cuantitativo de Innovaciones: Razonamiento mejora κ en 0.14-0.56; MoE iguala rendimiento con 2/3 del tiempo
Implementación Local Reproducible: Todas las pruebas en hardware de consumo (RTX A6000), demostrando viabilidad para agencias

Detalles Metodológicos

Definición de Tarea

Tipo: Clasificación Binaria de Texto
Entrada: Resúmenes de investigaciones de bienestar infantil
Salida: Juicios binarios sobre 4 factores de riesgo
Restricciones: Procesamiento local, cumplimiento HIPAA/FERPA, hardware estándar, velocidad para análisis masivo

Construcción del Marco de Pruebas

5 Fases:

Identificación de Fuentes de Datos
Evaluación Cualitativa de Clasificaciones
Equilibrio de Clases
Desarrollo de Instrucciones Estandarizadas
Normalización de Métricas (Cohen's kappa, sensibilidad, especificidad)

Selección de Modelos

Arquitecturas Evaluadas:

Qwen3 (0.6B-32B, modos estándar y razonamiento)
gpt-oss-20b (MoE, 21B parámetros totales)

Comparación de Modos:

Estándar vs. Razonamiento Extendido

Infraestructura: RTX A6000 GPU, CPU Threadripper, procesamiento 100% local

Resultados Experimentales

Hallazgos Clave

Más Grande No Es Mejor: Qwen3-4B + Razonamiento supera a modelos 8x más grandes
Dificultad por Criterio: Opioides (más fácil) → Violencia Doméstica (más difícil)
Mejora por Razonamiento: Beneficia más a modelos pequeños (Δκ hasta +0.56)
Eficiencia: 4B procesa 250k registros en 292 horas vs 2333 horas de 32B

Análisis de Errores

Sensibilidad: Mantenida/mejorada por razonamiento
Especificidad: Mejora principal (reducción de falsos positivos)
MoE: Necesita razonamiento para igualar modelos densos

Discusión y Conclusión

Principales Conclusiones

Modelos pequeños con razonamiento alcanzan rendimiento de grandes modelos
El razonamiento es una innovación clave que compensa el tamaño
Marco de pruebas permite selección basada en evidencia
Implementación viable en hardware de consumo

Limitaciones

Datos de una sola jurisdicción
Tareas simplificadas (clasificación binaria)
Cobertura limitada de arquitecturas

Direcciones Futuras

Validación multijurisdiccional
Tareas más complejas (clasificación multiclase)
Investigación de sesgos y equidad

Evaluación Crítica

Fortalezas: Marco innovador, diseño riguroso, valor práctico
Debilidades: Fuente única de datos, falta de análisis de sesgos
Impacto: Contribución metodológica y práctica significativa para el trabajo social

Esta traducción mantiene el tono académico y la terminología técnica original, respetando el formato markdown y las convenciones de documentación científica.