Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.
academic- رقم الورقة: 2512.04261
- العنوان: النماذج الصغيرة تحقق أداء النماذج اللغوية الكبيرة: تقييم الذكاء الاصطناعي الممكّن بالتفكير المنطقي لأبحاث رعاية الطفل الآمنة
- المؤلفون: زيا تشي، بريان إي. بيرون، برايان جي. فيكتور، دراغان ستول، جوزيف بي. ريان
- المؤسسات: كلية الخدمة الاجتماعية بجامعة ميشيغان، كلية الخدمة الاجتماعية بجامعة واين ستيت، جامعة زيورخ للعلوم التطبيقية ZHAW
- التصنيف: cs.CY (أجهزة الكمبيوتر والمجتمع)
- تاريخ النشر: 2025 (بناءً على مراجع 2025 في الورقة)
- رابط الورقة: https://arxiv.org/abs/2512.04261
طورت هذه الدراسة إطارًا معياريًا للتقييم لقياس قدرة النماذج اللغوية على تحديد عوامل الخطر الرئيسية في سجلات رعاية الطفل. قيمت الدراسة أداء 7 نماذج بأحجام مختلفة (0.6B-32B معلمة) في الوضع القياسي ووضع التفكير الموسع، بالإضافة إلى متغيرات الخبراء المختلطين (MoE). أظهرت النتائج أن: النماذج الأكبر ليست بالضرورة أفضل. حقق نموذج صغير بسعة 4B معلمة مزود بقدرات التفكير الموسع أفضل أداء، متفوقًا على نموذج أكبر منه بثماني مرات. حقق هذا النموذج اتساقًا "شبه مثالي" (κ = 0.93-0.96) في ثلاثة معايير (تعاطي المواد، الأسلحة، المواد الأفيونية)، واتساقًا "جوهريًا" (κ = 0.74) في مهمة العنف الأسري الأكثر تعقيدًا. تثبت هذه الدراسة أن النماذج الصغيرة المعززة بالتفكير يمكنها تحسين الكفاءة الحسابية بشكل كبير مع الحفاظ على دقة عالية.
تحتاج وكالات رعاية الطفل وباحثو الخدمة الاجتماعية إلى تحليل كميات كبيرة من نصوص سجلات الحالات التي تحتوي على معلومات حساسة لتحديد عوامل الخطر (مثل العنف الأسري، تعاطي المخدرات، مشاكل الأسلحة، إلخ). تستغرق طرق الترميز اليدوية التقليدية وقتًا طويلاً، بينما لا يمكن استخدام أحدث النماذج اللغوية الكبيرة (مثل ChatGPT، Claude) لمعالجة هذه البيانات الحساسة بسبب قيود قوانين خصوصية البيانات وأمنها (HIPAA، FERPA، 42 CFR الجزء 2).
- تحديات حجم البيانات: تتطلب المراجعة اليدوية لـ 250,000 سجل 12,500 ساعة من وقت الخبراء، وهو أمر غير عملي
- متطلبات الامتثال للخصوصية: تحتوي سجلات رعاية الطفل على معلومات شخصية، وتاريخ طبي، وبيانات تعليمية محمية قانونيًا، ولا يمكن نقلها إلى خدمات سحابية خارجية
- عدم شفافية النموذج: تعاني النماذج التجارية المغلقة من مشكلة "الصندوق الأسود"، وتحديثات الإصدارات غير القابلة للتحكم، مما يؤدي إلى عبء إعادة التحقق المستمر
- واقع القيود على الموارد: تفتقر وكالات الخدمات الاجتماعية عادةً إلى الموارد الحسابية اللازمة لنشر النماذج الكبيرة
- إنشاء إطار اختبار معياري منظم: اقتراح منهجية من خمس مراحل لتحويل مجموعات البيانات الاجتماعية التي تم التحقق منها إلى أدوات تقييم موحدة، قابلة للتطبيق عبر مجالات الخدمة الاجتماعية
- بناء أربع مجموعات بيانات معيارية لعوامل خطر رعاية الطفل:
- العنف الأسري
- المشكلات المتعلقة بالمواد
- الأسلحة النارية
- المواد الأفيونية
- تحتوي كل مجموعة على 500 عينة متوازنة (250 إيجابية، 250 سلبية)
- اكتشاف مبدأ "الصغير والدقيق" في اختيار النماذج: إثبات أن نموذج 4B + وضع التفكير الموسع يمكن أن يصل إلى دقة مماثلة لنموذج 32B، مع سرعة معالجة أسرع بثماني مرات
نوع المهمة: تصنيف ثنائي للنصوص
المدخلات: نصوص غير مهيكلة من ملخصات تحقيقات رعاية الطفل، تحتوي على سجلات مفصلة للعاملين في الحالات حول ظروف الأسرة، وعوامل الخطر، وتقييمات السلامة
المخرجات: أحكام ثنائية (موجود/غير موجود) لأربعة عوامل خطر:
- العنف الأسري
- المشكلات المتعلقة بالمواد
- المشكلات المتعلقة بالأسلحة
- استخدام المواد الأفيونية
الاكتشاف الرئيسي: الأكبر ليس بالضرورة أفضل
أظهر التحليل أن الأداء يتبع نمطًا غير خطي:
- نطاق الأداء: κ < 0.40 (ضعيف) إلى κ ≥ 0.80 (شبه مثالي)
- أفضل تكوين: Qwen3-4B + التفكير الموسع
- حقق هذا التكوين اتساقًا شبه مثالي في 3/4 المعايير مع الحفاظ على كفاءة عالية
- يمكن للنماذج الصغيرة تحقيق أداء النماذج الكبيرة: حقق نموذج 4B مع التفكير الموسع دقة مماثلة لنموذج 32B في معظم المهام مع الحفاظ على ميزة الكفاءة الحسابية
- القدرة على التفكير هي ابتكار رئيسي: تحسين وضع التفكير الموسع أداء النماذج الصغيرة بمقدار 0.14-0.56 نقطة κ، مما يحل جزئيًا محل تأثير حجم المعلمات
- Perron et al. (2019): تصنيف التعلم الخاضع للإشراف لمشكلات تعاطي المواد، كمعيار ذهبي للمعايير
- Victor et al. (2021): التعرف التلقائي على العنف الأسري، مع ترميز يدوي κ = 0.84
تحدي هذه الورقة من خلال تصميم تجريبي صارم وإطار اختبار معياري منظم، نموذج "الأكبر أفضل" لاختيار نماذج الذكاء الاصطناعي، وتثبت أن النماذج الصغيرة المعززة بالتفكير يمكنها تحقيق أداء النماذج الكبيرة في التطبيقات العملية مع الحفاظ على ميزة الكفاءة. تكمن القيمة الأساسية للبحث في:
- كسر الحواجز التقنية: تمكين وكالات الخدمات الاجتماعية المحدودة الموارد من اعتماد تقنيات الذكاء الاصطناعي المتقدمة
- ضمان الامتثال للخصوصية: تلبية متطلبات حماية البيانات الصارمة من خلال حلول النشر المحلي
- توفير أساس لاتخاذ القرار: دعم اختيار النماذج المستند إلى الأدلة من خلال بيانات الأداء والكفاءة التفصيلية
تمثل هذه الدراسة مساهمة عالية الجودة ذات أهمية عملية كبيرة وقيمة منهجية، وتضع أساسًا قويًا للتطبيق المسؤول للذكاء الاصطناعي في الخدمة الاجتماعية.