Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.
- ID статьи: 2512.04261
- Заголовок: Малые модели достигают производительности больших языковых моделей: оценка возможностей ИИ с расширенным логическим выводом для безопасных исследований в области благополучия детей
- Авторы: Цзя Ци, Брайан Э. Перрон, Брайан Г. Виктор, Драган Столл, Джозеф П. Райан
- Учреждения: Школа социальной работы Университета Мичигана, Школа социальной работы Университета Уэйна, Цюрихский университет прикладных наук ZHAW
- Категория: cs.CY (Компьютеры и общество)
- Дата публикации: 2025 (основано на литературе 2025 года, цитируемой в статье)
- Ссылка на статью: https://arxiv.org/abs/2512.04261
В этом исследовании разработана систематическая стандартная тестовая платформа для оценки способности языковых моделей идентифицировать ключевые факторы риска в записях о благополучии детей. Исследование оценивает производительность 7 моделей различного размера (0,6-32 млрд параметров) в стандартных и расширенных режимах логического вывода, а также варианты с гибридной экспертной системой (MoE). Результаты показывают: большие модели не всегда лучше. Малая модель с 4 млрд параметров и расширенным логическим выводом показала наилучшие результаты, превзойдя модели в 8 раз большего размера. Эта модель достигла "почти идеальной" согласованности (κ = 0,93-0,96) по трем критериям: злоупотребление психоактивными веществами, огнестрельное оружие и опиоиды, и "существенной" согласованности (κ = 0,74) по самой сложной задаче - домашнему насилию. Это исследование доказывает, что малые модели с улучшенным логическим выводом могут значительно повысить вычислительную эффективность при сохранении высокой точности.
Учреждения по защите детей и исследователи социальной работы должны анализировать большое количество текстовых записей дел, содержащих конфиденциальную информацию, для выявления факторов риска (например, домашнее насилие, наркомания, проблемы с оружием и т.д.). Традиционные методы ручного кодирования трудоемки, а самые передовые большие языковые модели (например, ChatGPT, Claude) не могут использоваться для обработки этих чувствительных данных из-за ограничений законодательства о конфиденциальности и безопасности данных (HIPAA, FERPA, 42 CFR Part 2).
- Проблема масштаба данных: ручной анализ 250 тыс. записей требует 12 500 часов работы экспертов, что нереально на практике
- Требования к соблюдению конфиденциальности: записи о благополучии детей содержат персональные данные, медицинскую историю, образовательные данные и другую защищенную законом информацию, которую нельзя передавать на внешние облачные сервисы
- Непрозрачность моделей: коммерческие закрытые модели имеют проблему "черного ящика", обновления версий неконтролируемы, что приводит к необходимости постоянной повторной верификации
- Ресурсные ограничения: социальные службы обычно не располагают вычислительными ресурсами, необходимыми для развертывания больших моделей
- Ранние методы машинного обучения: зависят от фиксированного словаря и узких правил классификации, не могут улавливать контекст и семантические изменения
- Передовые большие модели: хотя и обладают высокой производительностью, требуют развертывания в облаке, что нарушает требования к защите данных, и дорогостоящи
- Отсутствие системной оценки: существующие стандарты ИИ в основном предназначены для универсальных задач и не отражают специфическую терминологию и особенности документации в области социальной работы
С развитием малых локально развертываемых языковых моделей и появлением таких архитектурных инноваций, как расширенный логический вывод, исследователям необходим системный подход для оценки:
- Какие модели достаточно точны для конкретных задач?
- Где находится точка компромисса между размером модели и производительностью?
- Могут ли новые архитектурные инновации (например, режимы логического вывода, MoE) позволить малым моделям достичь производительности больших моделей?
- Создание систематической стандартной тестовой платформы: предложена пятиэтапная методология преобразования проверенных наборов данных социальной работы в стандартизированные инструменты оценки, применимые в различных областях социальной работы
- Создание четырех стандартных наборов данных по факторам риска благополучия детей:
- Домашнее насилие
- Проблемы, связанные с психоактивными веществами
- Огнестрельное оружие
- Опиоиды
- Каждый стандарт содержит 500 сбалансированных образцов (250 положительных, 250 отрицательных)
- Обнаружение принципа "малый, но точный": доказано, что модель с 4 млрд параметров + режим расширенного логического вывода может достичь точности, сопоставимой с моделью 32 млрд параметров, при этом скорость обработки в 8 раз выше
- Количественная оценка практической ценности архитектурных инноваций:
- Режим расширенного логического вывода повышает производительность малых моделей на 0,14-0,56 κ
- Гибридная экспертная архитектура в режиме логического вывода может соответствовать производительности плотных моделей при сокращении времени обработки на 2/3
- Предоставлены подробные данные о компромиссе между производительностью и эффективностью для выбора моделей в условиях ограниченных ресурсов
- Предоставление воспроизводимой схемы локального развертывания: все оценки проводились на потребительском оборудовании (GPU RTX A6000), что доказывает, что социальные службы могут достичь высокоточного анализа без корпоративной инфраструктуры
...
(Продолжение перевода содержит технические детали экспериментальной установки, результатов, анализа и обсуждения, которые могут быть слишком объемными для однократного ответа. Если вам нужны дополнительные разделы, пожалуйста, уточните конкретные области интереса.)