Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.
- Paper-ID: 2512.04261
- Titel: Small Models Achieve Large Language Model Performance: Evaluating Reasoning-Enabled AI for Secure Child Welfare Research
- Autoren: Zia Qi, Brian E. Perron, Bryan G. Victor, Dragan Stoll, Joseph P. Ryan
- Institutionen: University of Michigan School of Social Work, Wayne State University School of Social Work, ZHAW Zurich University of Applied Sciences
- Klassifikation: cs.CY (Computers and Society)
- Veröffentlichungsjahr: 2025 (basierend auf im Paper zitierten 2025er Literaturquellen)
- Paper-Link: https://arxiv.org/abs/2512.04261
Diese Studie entwickelt ein systematisches Benchmark-Framework zur Bewertung der Fähigkeit von Sprachmodellen, Schlüsselrisikofaktoren in Kinderwohlfahrtsakten zu identifizieren. Die Forschung evaluiert 7 Modelle unterschiedlicher Größe (0,6B–32B Parameter) im Standard- und erweiterten Reasoning-Modus sowie Mixture-of-Experts (MoE)-Varianten. Die Ergebnisse zeigen: Größere Modelle sind nicht zwangsläufig besser. Ein 4B-Parameter-Kleinmodell mit erweiterten Reasoning-Fähigkeiten zeigte optimale Leistung und übertraf Modelle, die achtmal größer waren. Das Modell erreichte "nahezu perfekte" Übereinstimmung (κ = 0,93–0,96) bei drei Benchmarks (Substanzmissbrauch, Schusswaffen und Opioide) und "substanzielle" Übereinstimmung (κ = 0,74) bei der komplexesten Aufgabe (häusliche Gewalt). Diese Forschung zeigt, dass kleine Reasoning-verstärkte Modelle hohe Genauigkeit bei gleichzeitiger erheblicher Verbesserung der Recheneffizienz erreichen können.
Kinderwohlfahrtsbehörden und Sozialarbeitsforschende müssen große Mengen an Fallakten mit sensiblen Informationen analysieren, um Risikofaktoren (wie häusliche Gewalt, Drogenmissbrauch, Schusswaffenprobleme usw.) zu identifizieren. Traditionelle manuelle Kodierungsmethoden sind zeitaufwändig und arbeitsintensiv, während modernste große Sprachmodelle (wie ChatGPT, Claude) aufgrund von Datenschutz- und Sicherheitsbestimmungen (HIPAA, FERPA, 42 CFR Part 2) nicht für die Verarbeitung dieser sensiblen Daten verwendet werden können.
- Datenumfang-Herausforderung: Manuelle Überprüfung von 250.000 Akten erfordert 12.500 Stunden Fachpersonalzeit – praktisch nicht durchführbar
- Datenschutz-Compliance-Anforderungen: Kinderwohlfahrtsakten enthalten persönlich identifizierbare Informationen, Krankengeschichte und Bildungsdaten – rechtlich geschützte Inhalte, die nicht an externe Cloud-Services übertragen werden dürfen
- Modell-Intransparenz: Kommerzielle proprietäre Modelle haben ein "Black-Box"-Problem, Versionsänderungen sind unkontrollierbar und führen zu kontinuierlichen Revalidierungslasten
- Ressourcenbeschränkungen in der Realität: Sozialdienstleistungsagenturen verfügen typischerweise nicht über die Rechenressourcen zur Bereitstellung großer Modelle
- Frühe Machine-Learning-Methoden: Abhängig von festen Vokabularen und engen Klassifizierungsregeln, schwierig, Kontext und semantische Variationen zu erfassen
- Große Frontier-Modelle: Obwohl leistungsstark, erfordern sie Cloud-Bereitstellung, verletzen Datenschutzanforderungen und sind kostspielig
- Fehlende systematische Bewertung: Bestehende KI-Benchmarks sind meist für allgemeine Aufgaben konzipiert und spiegeln nicht die Fachterminologie und Dokumentmerkmale der Sozialarbeit wider
Mit der Entwicklung kleiner lokal bereitstellbarer Sprachmodelle und architektonischen Innovationen wie erweitertem Reasoning benötigen Forschende systematische Methoden zur Bewertung:
- Welche Modelle sind für spezifische Aufgaben ausreichend genau?
- Wo liegt der Kompromiss zwischen Modellgröße und Leistung?
- Können neue architektonische Innovationen (wie Reasoning-Modi, MoE) kleine Modelle auf die Leistung großer Modelle bringen?
- Etablierung eines systematisierten Benchmark-Frameworks: Vorschlag einer fünfstufigen Methodik zur Umwandlung validierter Sozialarbeitsdatensätze in standardisierte Bewertungsinstrumente, anwendbar auf Sozialarbeitsbereiche
- Konstruktion von vier Kinderwohlfahrts-Risikofaktor-Benchmarks:
- Häusliche Gewalt (Domestic Violence)
- Substanzbezogene Probleme (Substance-Related Problems)
- Schusswaffen (Firearms)
- Opioide (Opioids)
- Jeder Benchmark enthält 500 ausgewogene Samples (250 positive, 250 negative)
- Entdeckung des "Klein-aber-fein"-Modellauswahlprinzips: Nachweis, dass ein 4B-Parameter-Modell + erweiterter Reasoning-Modus die Genauigkeit von 32B-Modellen erreichen kann, während die Verarbeitungsgeschwindigkeit 8-mal schneller ist
- Quantifizierung des praktischen Wertes architektonischer Innovationen:
- Erweiterter Reasoning-Modus verbessert die Leistung kleiner Modelle um 0,14–0,56 κ-Punkte
- Mixture-of-Experts-Architektur kann im Reasoning-Modus die Leistung dichter Modelle erreichen und gleichzeitig die Verarbeitungszeit um 2/3 reduzieren
- Bereitstellung detaillierter Performance-Effizienz-Kompromissdaten zur Unterstützung der Modellauswahl in ressourcenbeschränkten Umgebungen
- Bereitstellung einer reproduzierbaren lokalen Bereitstellungslösung: Alle Bewertungen verwenden Consumer-Grade-Hardware (RTX A6000 GPU), was zeigt, dass Sozialdienstleistungsagenturen keine Enterprise-Infrastruktur benötigen, um hochpräzise Analysen zu erreichen
Aufgabentyp: Binäre Textklassifikation (Binary Text Classification)
Eingabe: Unstrukturierter Text von Kinderwohlfahrtsuntersuchungszusammenfassungen (Investigation Summaries), enthaltend detaillierte Aufzeichnungen von Fallarbeitern über Familiensituation, Risikofaktoren und Sicherheitsbewertungen
Ausgabe: Binäre Beurteilung von vier Risikofaktoren (vorhanden/nicht vorhanden):
- Häusliche Gewalt
- Substanzbezogene Probleme
- Schusswaffenbezogene Probleme
- Opioidkonsum
Einschränkungen:
- Vollständige lokale Verarbeitung, keine Datenübertragung an externe Server
- Einhaltung von HIPAA, FERPA und anderen Datenschutzbestimmungen
- Lauffähig auf Consumer-Grade/Workstation-Hardware
- Verarbeitungsgeschwindigkeit muss Großskalen-Fallanalyse unterstützen (Tausende bis Hunderttausende Akten)
Stufe 1: Datenquellenidentifikation
- Auswahl bestehender Datensätze mit Fachvalidierungsklassifikation
- Anforderung von Zuverlässigkeit der Aufzeichnungen (Inter-Rater-Reliabilität)
- Sicherstellung ausreichender Stichprobengröße und ökologischer Validität (Reflexion tatsächlicher Praxis)
Stufe 2: Klassifikationsqualitätsbewertung
- Manuelle Kodierungsmethode: Anforderung von κ ≥ 0,80 Kodierer-Übereinstimmung
- Regelbasierte Methode: Anforderung von 96%+ Fachvalidierungsgenauigkeit
- Sicherstellung, dass Validierungsverfahren vor generativer KI-Technologie durchgeführt wurden (Vermeidung zirkulärer Bewertung)
Stufe 3: Klassenkategorien-Ausgleich
- Zufällige Stichprobenziehung gleicher Mengen positiver und negativer Samples aus Originaldatensätzen
- Erstellung von Bewertungsinstrumenten mit 50% Baseline-Genauigkeit
- Verhinderung, dass Modelle durch Vorhersage der Mehrheitsklasse künstlich hohe Genauigkeit erreichen
Stufe 4: Standardisierte Prompt-Entwicklung
Prompts enthalten drei Komponenten:
- Aufgabenanweisung: Klare binäre Klassifizierungsziele
- Operationale Definitionen: Aus ursprünglichen Validierungsstudien stammende Risikofaktor-Definitionen
- Ausgabeformat: Anforderung strukturierter JSON-Antworten
Stufe 5: Bewertungsmetriken-Spezifikation
- Primäre Metrik: Cohen's Kappa (korrigierte Übereinstimmung für Zufall)
- κ = 0,41–0,60: Mittelmäßige Übereinstimmung
- κ = 0,61–0,79: Substanzielle Übereinstimmung
- κ ≥ 0,80: Nahezu perfekte Übereinstimmung
- Sekundäre Metriken: Sensitivität (Sensitivity), Spezifität (Specificity)
- Effizienzmetriken: Verarbeitungszeit (Sekunden/Fall)
1. Häusliche-Gewalt-Benchmark
- Operationale Definition: Körperliche Gewalt oder psychischer Missbrauch gegen gegenwärtige oder ehemalige intime Partner, zum Zeitpunkt der Untersuchung als aktiver Servicebedarf dokumentiert
- Ursprüngliche Validierung: Von trainierten MSW-Studierenden manuell gekennzeichnet, κ = 0,84
- Stichprobenquelle: Bestätigte Kinderwohlfahrtsuntersuchungsfälle
- Schwierigkeitsmerkmale: Komplexeste Aufgabe, erfordert Kontextverständnis und Terminologie-Disambiguierung
2. Substanzbezogene-Probleme-Benchmark
- Operationale Definition: Gegenwärtiger oder historischer Konsum berauschender Substanzen, bestätigt durch direkte Evidenz (Drogentest positiv, beobachteter Konsum) oder glaubwürdige Berichte, einschließlich Alkohol, illegaler Drogen und Missbrauch von Verschreibungsdrogen
- Ursprüngliche Validierung: Von MSW-Studierenden manuell gekennzeichnet, κ = 0,80
- Schwierigkeitsmerkmale: Mittlere Schwierigkeit, erfordert Erkennung vielfältiger Terminologie und Unterscheidung zwischen aktiven Problemen und historischen Aufzeichnungen
3. Schusswaffen-Benchmark
- Operationale Definition: Durch regelbasierte Named-Entity-Recognition unter Verwendung von Fachvokabularen zur Erkennung schusswaffenbezogener Begriffe
- Ursprüngliche Validierung: 96% Konstruktgenauigkeit, nur 4% falsch positive (n=75.809 Fälle)
- Schwierigkeitsmerkmale: Erfordert Disambiguierung (z.B. "Remington" könnte Schusswaffenhersteller oder Personenname sein, "trigger" könnte Schusswaffenteil oder metaphorische Verwendung sein)
4. Opioide-Benchmark
- Operationale Definition: Durch regelbasiertes Text-Mining unter Verwendung umfassender Wörterbücher von Opioid-Straßendrogen und Medikamenten
- Ursprüngliche Validierung: Hohe Präzision, Aufzeichnungsfehlerrate 3%
- Schwierigkeitsmerkmale: Erfordert Erkennung von Medikamentennamen, Straßenslang, Euphemismen und Unterscheidung zwischen gegenwärtigem Konsum und Behandlungsreferenzen
Qwen3-Serie (Hauptbewertungs-Framework)
- Quelle: Alibaba Cloud, April 2025 veröffentlicht
- Größenbereich: 0,6B, 1,7B, 4B, 8B, 14B, 32B Parameter
- Bereitstellungsmethode: 4-Bit-Quantisierung (0,6B als 8-Bit)
- Verarbeitungsmodi: Standard-Modus + Erweiterter Reasoning-Modus
- MoE-Variante: Qwen3-30B-A3B (aktiviert spezialisierte Subnetze statt aller Parameter)
gpt-oss-20b (Sekundärer Vergleich)
- Quelle: OpenAI, August 2025 veröffentlicht
- Architektur: Mixture-of-Experts (21B Gesamtparameter, 3,6B aktive Parameter)
- Reasoning-Stufen: Niedrig, Mittel, Hoch drei einstellbare Stufen
- Optimierungsmerkmale: Verstärkendes Lernen zur Optimierung von Reasoning-Aufgaben
Standard-(Dichte-)Modus
- Direkte Klassifizierungserzeugung aus Lernmodus durch einmalige Verarbeitung
- Verwendung des vollständigen Netzwerks des Modells zur Verarbeitung jeder Anfrage
- Parameter: temperature=0,2, TopP=0,8 (Qwen3)
Erweiterter Reasoning-Modus
- Zuweisung zusätzlicher Rechenressourcen zur Erzeugung von Zwischenschritten der Problemlösung
- Strukturiertes Reasoning vor Erzeugung der endgültigen Klassifikation
- Parameter: temperature=0,2, TopP=0,95 (Qwen3)
- Maximale Ausgabe-Token: 2048
- Hardware: NVIDIA RTX A6000 Ada GPU (48GB VRAM) + AMD Ryzen Threadripper PRO 7975WX CPU (128GB RAM)
- Inferenz-Engine: llama.cpp (optimierte C++-Implementierung)
- Bereitstellungsmethode: Vollständig lokale Verarbeitung, Datenschutz gewährleistet
- Quantisierungsstrategie: 4-Bit-Quantisierung reduziert Speicherverbrauch, unterstützt Consumer-Grade-Hardware-Bereitstellung
1. Domänenspezifische Benchmark-Methodik
- Im Gegensatz zu allgemeinen KI-Benchmarks direkte Verwendung echter Praxisdokumente
- Beibehaltung von Kontextkomplexität, Mehrdeutigkeit, regionalen Variationen und Dokumentinkonsistenzen
- Integration von Zeitmessungen in Benchmark-Bewertung
2. Systematische Bewertung erweiterter Reasoning-Fähigkeiten
- Erste systematische Bewertung des Reasoning-Modus-Effekts auf kleine Modelle im Sozialarbeitsbereich
- Quantifizierung von Reasoning-Fähigkeit als Modellkapazitäts-Ersatz
- Entdeckung, dass Reasoning-Modus hauptsächlich Spezifität verbessert (falsch positive reduziert) statt Sensitivität
3. Empirische Analyse der Architektur-Effizienz
- Vergleich dichter Modelle mit MoE-Architektur bei gleicher Aufgabe
- Offenlegung, dass MoE-Architektur Reasoning-Modus benötigt, um theoretisches Leistungspotenzial zu realisieren
- Bereitstellung detaillierter Performance-Zeit-Kompromissdaten
4. Praktische Bereitstellungsleitlinien
- Identifikation optimaler Konfiguration: 4B-Modell + erweiterter Reasoning
- Nachweis, dass Consumer-Grade-Hardware hochpräzise Analysen ermöglicht
- Quantifizierung erwarteter Verarbeitungszeiten unter verschiedenen Hardwarekonfigurationen
Datenquelle
- Michigan Department of Health and Human Services
- Datenaustausch-Vereinbarung
- Zeitraum: Kinderwohlfahrtsuntersuchungszusammenfassungen 2016–2018
Dateneigenschaften
- Unstrukturierter Text: Detaillierte Erzählungen von Fallarbeitern zu Missbrauchsuntersuchungen
- Inhalte: Familiensituation, Risikofaktoren, Sicherheitsbewertungen, Untersuchungsschlussfolgerungen
- Reflexion echter Praxis: Beibehaltung von Dokumentqualitätsvariationen, Terminologie-Inkonsistenzen, regionalen Unterschieden
Benchmark-Datensatz-Größe
- Jeder Benchmark: n=500 (250 positive + 250 negative)
- Vier Benchmarks insgesamt: 2000 gekennzeichnete Fälle
- Klassenkategorien-Ausgleich: Sicherstellung von 50% Zufallsgenauigkeit
Primäre Leistungsmetrik: Cohen's Kappa (κ)
- Berechnungsformel: Korrigierter Übereinstimmungskoeffizient unter Berücksichtigung von Zufallsübereinstimmung
- Interpretationsstandards:
- κ < 0,40: Schwache/minimale Übereinstimmung
- κ = 0,41–0,60: Mittelmäßige Übereinstimmung
- κ = 0,61–0,79: Substanzielle Übereinstimmung
- κ = 0,80–1,00: Nahezu perfekte Übereinstimmung
Fehler-Muster-Metriken
- Sensitivität (Sensitivity): Echte-Positiv-Rate = TP/(TP+FN)
- Misst die Fähigkeit des Modells, vorhandene Risikofaktoren korrekt zu identifizieren
- Spezifität (Specificity): Echte-Negativ-Rate = TN/(TN+FP)
- Misst die Fähigkeit des Modells, nicht vorhandene Risikofaktoren korrekt zu identifizieren
Effizienzmetriken
- Durchschnittliche Verarbeitungszeit: Sekunden pro Fall (Mittelwert ± Standardabweichung)
- Durchsatz-Hochrechnung: Basierend auf Verarbeitungszeit Schätzung der Gesamtdauer für Großskalen-Analysen
Modellgröße-Vergleich
- Ultraklein: 0,6B, 1,7B Parameter
- Mittel: 4B, 8B Parameter
- Groß: 14B, 32B Parameter
Verarbeitungsmodus-Vergleich
- Standard-Modus vs. Erweiterter Reasoning-Modus (Qwen3-Serie)
- Niedrig/Mittel/Hoch Reasoning-Intensität (gpt-oss-20b)
Architekturtyp-Vergleich
- Dichte Modelle (traditionelle Architektur)
- Mixture-of-Experts-Modelle (Qwen3-30B-A3B, gpt-oss-20b)
Modellparameter-Einstellungen
Qwen3 Standard-Modus:
- Temperature: 0,2 (niedrige Zufälligkeit, hohe Konsistenz)
- TopP: 0,8
- Maximale Ausgabe-Token: 2048
Qwen3 Reasoning-Modus:
- Temperature: 0,2
- TopP: 0,95 (höhere Explorationsfähigkeit)
- Maximale Ausgabe-Token: 2048
gpt-oss-20b:
- Temperature: 0,2
- Andere Parameter bleiben Standard
Prompt-Engineering
- Dreikomponenten-Struktur: Aufgabenanweisung + Operationale Definitionen + Ausgabeformat
- Zero-Shot-Klassifikation (n-shot ohne Fine-Tuning)
- Vollständiger Prompt-Text siehe Paper-Anhang A
Datenverarbeitungs-Workflow
- Datenverwaltung in lokaler Python-Umgebung
- Benutzerdefinierte Skripte für Datenvorverarbeitung
- llama.cpp führt Modell-Inferenz durch
- Aufzeichnung der Verarbeitungszeit für jede Klassifikation
- Berechnung von Leistungsmetriken und statistischer Signifikanz
Schlüsselfeststellung: Größer ist nicht besser
Abbildung 1 Wärmekarte zeigt nicht-lineares Leistungsmuster:
- Leistungsbereich: κ < 0,40 (schwach) bis κ ≥ 0,80 (nahezu perfekt)
- Optimale Konfiguration: Qwen3-4B + Erweiterter Reasoning
- Diese Konfiguration erreicht nahezu perfekte Übereinstimmung bei 3/4 Benchmarks bei gleichzeitiger hoher Effizienz
Schwierigkeitsstufung der Benchmarks
- Am einfachsten: Opioid-Erkennung – mittlere bis große Modelle erreichen κ = 0,80–0,96 im Standard-Modus
- Mittel: Schusswaffen-Klassifikation – Standard-Modus κ = 0,28–0,88
- Mittel: Substanzbezogene Probleme – große Modelle Standard-Modus κ = 0,85–0,93
- Am schwierigsten: Häusliche Gewalt – benötigt größte Modelle für κ = 0,80–0,85
Top-Performer:
- Qwen3-4B Reasoning: κ = 0,93, Sensitivität 0,99, Spezifität 0,98, Zeit 3,27 Sekunden
- Qwen3-8B Reasoning: κ = 0,94, Sensitivität 0,99, Spezifität 0,98, Zeit 4,83 Sekunden
- Qwen3-32B Standard/Reasoning: κ = 0,93, aber Zeit 1,48/12,24 Sekunden
Reasoning-Modus-Verbesserung:
- 0,6B: κ von 0,39→0,85 (+0,46, maximale Verbesserung)
- 1,7B: κ von 0,45→0,81 (+0,36)
- 4B: κ von 0,87→0,93 (+0,06)
MoE-Leistung:
- Standard-Modus: κ = 0,84
- Reasoning-Modus: κ = 0,92 (nahe 32B dicht 0,93)
Top-Performer:
- Qwen3-32B Standard: κ = 0,85, Sensitivität 0,95, Spezifität 0,97
- gpt-oss-20b hohe Intensität: κ = 0,84, Sensitivität 0,95, Spezifität 0,97
- Qwen3-8B Reasoning: κ = 0,81, Sensitivität 0,94, Spezifität 0,97
Reasoning-Modus-Effekt:
- Kleine Modelle profitieren erheblich: 0,6B von κ=0,21→0,41, 1,7B von 0,41→0,55
- Mittlere Modelle: 4B von 0,60→0,74, 8B von 0,56→0,81
- Große Modelle: 32B von 0,85→0,82 (leichte Abnahme, innerhalb Zufallsbereich)
Spezifität-Verbesserung signifikant:
- 4B Reasoning: Spezifität von 0,85→0,93
- Reasoning-Modus reduziert hauptsächlich falsch-positive Fehler
Top-Performer:
- gpt-oss-20b hohe Intensität: κ = 0,94, Sensitivität 0,98, Spezifität 1,00
- Qwen3-32B Reasoning: κ = 0,93, Sensitivität 0,97, Spezifität 1,00
- Qwen3-14B Reasoning: κ = 0,92, Sensitivität 0,96, Spezifität 1,00
Lineares Skalierungsmuster:
- Schusswaffen-Benchmark zeigt deutlicheres "Größer-ist-besser"-Muster
- Standard-Modus: 0,6B(κ=0,39) → 32B(κ=0,88)
- Reasoning-Modus: 0,6B(κ=0,73) → 32B(κ=0,93)
Spezifität nahe perfekt:
- Fast alle Modelle Spezifität ≥ 0,99
- Falsch-positive extrem selten (Terminologie-Disambiguierung effektiv)
Top-Performer:
- Mehrere Modelle erreichen κ = 0,96–0,98:
- Qwen3-4B Reasoning: κ = 0,96, Zeit 3,18 Sekunden
- Qwen3-8B Reasoning: κ = 0,96, Zeit 5,15 Sekunden
- Qwen3-32B Standard/Reasoning: κ = 0,96, Zeit 1,62/13,10 Sekunden
- gpt-oss-20b alle Stufen: κ = 0,96–0,98
Riesige Reasoning-Modus-Verbesserung:
- 1,7B: κ von 0,31→0,87 (+0,56, maximale Verbesserung)
- 4B: κ von 0,80→0,96 (+0,16)
Spezifität perfekt:
- Die meisten Modelle Spezifität=1,00 (keine falsch-positiven)
Auf kleine Modelle (0,6B–1,7B):
- Substanzielle Verbesserungen (Δκ = 0,14–0,56)
- Ermöglicht kleinen Modellen, Leistung mittlerer Modelle im Standard-Modus zu erreichen
- Beispiel: 1,7B Reasoning ≈ 8B Standard (Substanzprobleme)
Auf mittlere Modelle (4B–8B):
- Kontinuierliche aber gemäßigtere Verbesserungen (Δκ = 0,06–0,21)
- Von substanzieller zu nahezu perfekter Übereinstimmung
- 4B Reasoning wird zur optimalen Preis-Leistungs-Wahl
Auf große Modelle (14B–32B):
- Minimale Verbesserungen bei einfachen Aufgaben (bereits Leistungsobergrenze erreicht)
- Komplexe Aufgaben zeigen weiterhin Verbesserungen (z.B. Schusswaffen: 32B von 0,88→0,93)
- Zeigt, dass Kontextverständnis-Anforderungen bestehen bleiben
Sensitivität (Echte-Positiv-Rate):
- Reasoning-Modus behält oder verbessert hohe Sensitivität
- Die meisten Modelle erreichen 0,93–0,99
- Zeigt, dass Modelle vorhandene Risikofaktoren effektiv identifizieren
Spezifität (Echte-Negativ-Rate):
- Hauptverbesserungsbereich des Reasoning-Modus
- Kleine Modelle zeigen drastische Spezifität-Verbesserung:
- Substanzprobleme: 0,6B von 0,75→0,96
- Häusliche Gewalt: 4B von 0,85→0,93
- Zeigt, dass Reasoning-Modus falsch-positive reduziert, Unterscheidung oberflächlich ähnlicher aber definitorisch fehlender Fälle verbessert
Hochspezifität-Aufgaben:
- Schusswaffen und Opioide: Spezifität 0,99–1,00
- Zeigt, dass hochspezifische Konstrukte wenige falsch-positive haben
Nachteil im Standard-Modus:
- Qwen3-30B-A3B unterperformt Qwen3-32B:
- Substanzprobleme: κ = 0,84 vs. 0,93
- Häusliche Gewalt: κ = 0,73 vs. 0,85
- Schusswaffen: κ = 0,76 vs. 0,88
- Opioide: κ = 0,72 vs. 0,96
Wiederherstellung im Reasoning-Modus:
- MoE-Leistung nähert sich dichtem Modell oder entspricht ihm:
- Substanzprobleme: κ = 0,92 vs. 0,93
- Häusliche Gewalt: κ = 0,80 vs. 0,82
- Schusswaffen: κ = 0,89 vs. 0,93
- Opioide: κ = 0,96 vs. 0,96 (perfekte Übereinstimmung)
Recheneffizienz-Vorteil:
- Verarbeitungszeit etwa 1/3 des dichten Modells
- Substanzprobleme: 3,91 Sekunden vs. 12,24 Sekunden
- Im Reasoning-Modus wird MoE zur effizienten Wahl
Verarbeitungszeit-Multiplikator:
- Reasoning-Modus erhöht Verarbeitungszeit um 2,9–12,5-fach
- Kleine Modelle haben kleinere Multiplikatoren: 0,6B etwa 3-fach
- Große Modelle haben größere Multiplikatoren: 32B etwa 8,3-fach
Praktische Durchsatz-Analyse:
High-End-Hardware (diese Studie-Konfiguration):
- 4B Reasoning: 3,2–4,2 Sekunden/Fall
- 32B Reasoning: 12–13 Sekunden/Fall
- Analyse 1000 Fälle: 4B benötigt 53–70 Minuten, 32B benötigt 3,3–3,6 Stunden
Consumer-Grade-Hardware (16GB VRAM) Schätzung:
- 4B Reasoning: etwa 4 Sekunden/Fall
- Analyse 1000 Fälle: etwa 1 Stunde
- Analyse 250.000 Fälle: etwa 292 Stunden
Großskalen-Analyse-Vergleich:
- 4B-Modell verarbeitet 250.000 Aufzeichnungen: 292 Stunden
- 32B-Modell verarbeitet 250.000 Aufzeichnungen: 2333 Stunden (konservative Schätzung)
- Einsparung über 2000 Stunden Verarbeitungszeit
Vergleich mit manueller Kodierung:
- Manuelle Überprüfung 250.000 Aufzeichnungen (3 Minuten/Fall): 12.500 Personenstunden
- 4B-Modell automatisierte Analyse: 292 Stunden
- Effizienzsteigerung etwa 40-fach
Leistungsobergrenze bei einfachen Aufgaben:
- Substanzprobleme und Opioide erreichen Obergrenze bei 8B–14B
- Größere Modelle zeigen abnehmende Grenzverbesserungen
- Zeigt, dass diese Aufgaben keine maximale Kapazität benötigen
Kontinuierliche Vorteile bei komplexen Aufgaben:
- Häusliche Gewalt und Schusswaffen zeigen weiterhin Verbesserungspotenzial bei großen Modellen
- Aufgaben, die Disambiguierung und Kontextverständnis benötigen, profitieren weiterhin von zusätzlicher Kapazität
- Reasoning-Fähigkeit hat höheren Wert bei komplexen Aufgaben
Optimale Konfigurationsidentifikation:
- 4B + Erweiterter Reasoning erreicht nahezu perfekte Übereinstimmung bei 3/4 Benchmarks
- Nur bei komplexester Aufgabe (häusliche Gewalt) leicht unterlegen gegenüber größtem Modell
- Optimaler Punkt für Performance-Effizienz-Kompromiss
Obwohl das Paper keine traditionellen Ablations-Experimente hat, bietet systematischer Vergleich Komponentenbeitrags-Analyse:
Konsistente Verbesserung über Modellgrößen:
- Alle Modellgrößen zeigen Verbesserung oder Beibehaltung im Reasoning-Modus
- Kleine Modelle profitieren maximal (höchste Δκ)
- Beweist, dass Reasoning-Fähigkeit unabhängig von Parameterzahl ein Leistungs-Verstärkungsfaktor ist
Baseline-Fähigkeit:
- Im Standard-Modus positive Korrelation zwischen Größe und Leistung
- Aber es gibt aufgabenabhängige Leistungsobergrenzen
- 32B zeigt keine signifikanten Vorteile bei einfachen Aufgaben
Interaktion mit Reasoning:
- Kleines Modell + Reasoning kann großes Modell + Standard ersetzen
- Zeigt, dass Reasoning-Fähigkeit teilweise Parameterkapazität ersetzt
Bedingte MoE-Effektivität:
- Standard-Modus: MoE < dichtes Modell
- Reasoning-Modus: MoE ≈ dichtes Modell
- Zeigt, dass MoE strukturiertes Reasoning benötigt, um Potenzial zu realisieren
Das Paper bietet keine spezifischen qualitativen Fallanalysen, aber aus Leistungsdaten können Modellverhalten-Muster abgeleitet werden:
Hochspezifität-Aufgaben (Schusswaffen, Opioide):
- Modelle identifizieren Fachbegriffe genau
- Effektive Disambiguierung von Homonymen (z.B. "Remington")
- Minimale falsch-positive (Spezifität≈1,00)
Hochsensitivität-Leistung:
- Sensitivität im Reasoning-Modus durchgehend >0,93
- Zeigt, dass Modelle vielfältige Ausdrücke von Risikofaktoren identifizieren
- Erfasst Euphemismen, Straßenslang, klinische Diagnosen und Varianten
Komplexität häuslicher Gewalt:
- Niedrigste κ-Werte (0,74–0,85 Bereich)
- Benötigt Verständnis von Kontexthinweisen (z.B. "Mutter's Freund" könnte Risiko andeuten)
- Unterscheidung körperlicher Gewalt, psychischen Missbrauchs, historischer Ereignisse
Falsch-positive-Neigung kleiner Modelle:
- Im Standard-Modus niedrigere Spezifität kleiner Modelle
- Könnten oberflächlich ähnliche aber definitorisch fehlende Fälle fehlklassifizieren
- Reasoning-Modus verbessert durch strukturierte Analyse erheblich
- "Klein-aber-fein"-Prinzip: 4B-Parameter-Modell mit erweitertem Reasoning kann 32B-Modell bei den meisten Aufgaben entsprechen, während 8-mal schneller
- Reasoning als Kapazitäts-Ersatz: Erweiterte Reasoning-Fähigkeit kann teilweise Parametergröße ersetzen, besonders effektiv bei kleinen Modellen
- Aufgabenspezifität wichtig: Erkennungsschwierigkeit verschiedener Risikofaktoren unterscheidet sich enorm, benötigt gezielter Bewertung
- Spezifität als Hauptverbesserungspunkt: Reasoning-Modus reduziert hauptsächlich falsch-positive statt echte-positive Erkennung zu verbessern
- MoE-Reasoning-Abhängigkeit: Mixture-of-Experts-Architektur benötigt Reasoning-Modus, um theoretische Effizienzvorteile zu realisieren
- Consumer-Grade-Hardware-Machbarkeit: Beweist, dass Sozialdienstleistungsagenturen keine Enterprise-Ausrüstung für hochpräzise Analysen benötigen
Modellauswahl-Leitlinien:
- Ressourcenbeschränkte Umgebung: 4B Reasoning-Modus
- Höchste Genauigkeit erforderlich: 32B Standard-Modus oder gpt-oss-20b hohe Intensität
- Ausgewogene Lösung: 8B Reasoning-Modus
Bereitstellungs-Empfehlungen:
- Priorisiere lokale Bereitstellung für Datenschutz-Compliance
- Verwende quantisierte Modelle zur Hardwareanforderungs-Reduzierung
- Führe Benchmark-Tests für spezifische Aufgaben durch
Benchmark-Test-Wert:
- Vermeidung blindes Vertrauen auf große Modelle
- Quantifizierung Performance-Kosten-Kompromisse
- Unterstützung evidenzgestützter Technologie-Entscheidungen
Frühe Machine-Learning-Methoden:
- Amrit et al. (2017): Text-Mining zur Kindesmissbrauch-Erkennung
- Perron et al. (2019): Überwachtes Lernen zur Substanzmissbrauch-Erkennung
- Victor et al. (2021): Automatische häusliche-Gewalt-Erkennung
- Einschränkungen: Abhängig von festen Vokabularen, benötigen große Labelmengen, schwierig zu verallgemeinern
Regelbasierte Methoden:
- Sokol et al. (2020): Named-Entity-Recognition für Schusswaffen
- Perron et al. (2022): Wörterbuch-basierte Opioid-Erkennung
- Vorteile: Hohe Präzision, Interpretierbarkeit
- Einschränkungen: Hohe Wartungskosten, schwierig semantische Änderungen zu erfassen
Neueste Fortschritte:
- Perron, Luan, et al. (2025): Lokale LLM für vertrauliche Textanalyse
- Stoll et al. (2025): LLM-Analyse von Kindesmissbrauch-Fallberichten
- Herausforderungen: Datenschutz-Compliance, Modellauswahl-Unsicherheit, fehlende Bewertungsstandards
Einschränkungen allgemeiner Benchmarks:
- GLUE, SuperGLUE testen breites Sprachverständnis
- Spiegeln nicht domänenspezifische Terminologie und Dokumentmuster
- "Letzte-Meile-Problem": Allgemeine Fähigkeit ≠ Fachaufgaben-Leistung
Domänenspezifische Benchmarks:
- Anjum et al. (2025): Multimodale LLM-Domänenbenchmarks
- Dieser Studien-Beitrag: Erstes systematisiertes Sozialarbeit-KI-Benchmark-Framework
Kleine-Modelle-Trend:
- Nguyen et al. (2024): Kleine Sprachmodelle Übersicht
- Motivation: Datenschutz, Kosten, Kontrollierbarkeit
- Herausforderungen: Performance-Effizienz-Kompromiss
Reasoning-Fähigkeit:
- OpenAI (2024): o1-Modell Reasoning-Lernen
- Wu et al. (2024): o1 Reasoning-Modus Vergleichsstudie
- Dieser Studien-Beitrag: Quantifizierung Reasoning-Verstärkung in praktischen Anwendungen
MoE-Theorie:
- Fedus et al. (2022): Switch Transformers
- Cai et al. (2024): LLM MoE Übersicht
- DeepSeek-AI (2024): DeepSeek-V3 Technischer Bericht
Dieser Studien-Befund:
- MoE im Standard-Modus unterperformt
- Reasoning-Modus setzt MoE-Potenzial frei
- Empirischer Beweis für MoE+Reasoning-Synergieeffekt
- Kleine Modelle können große Modelle-Leistung erreichen: 4B-Parameter-Modell mit erweitertem Reasoning erreicht 32B-Modell-Genauigkeit bei den meisten Aufgaben, während signifikante Recheneffizienz-Vorteile beibehalten
- Reasoning-Fähigkeit ist Schlüssel-Innovation: Erweiterter Reasoning-Modus verbessert kleine Modell-Leistung um 0,14–0,56 κ-Punkte, ersetzt teilweise Parametergröße-Effekt
- Benchmark-Framework-Wert: Systematische Methode ermöglicht Forschenden, validierte Datensätze in Standard-Bewertungsinstrumente umzuwandeln, unterstützt evidenzgestützte Modellauswahl
- Praktische Bereitstellungs-Machbarkeit: Consumer-Grade-Hardware ($2000–3000 Geräte) kann hochpräzise Analysen realisieren, bricht Enterprise-Infrastruktur-Barriere
- Signifikante Effizienzsteigerung: Gegenüber manueller Kodierung (12.500 Personenstunden für 250.000 Aufzeichnungen) benötigt automatisierte Analyse nur 292 Stunden, etwa 40-fache Effizienzsteigerung
- Einzelne Gerichtsbarkeit: Nur Michigan-Daten (2016–2018)
- Dokumentations-Praktik-Unterschiede: Verschiedene Staaten haben unterschiedliche Berichtsstandards, Terminologie, Bevölkerungsmerkmale
- Generalisierungs-Problem: Modell-Leistung in anderen Gerichtsbarkeiten benötigt Validierung
- Binäre Klassifikations-Limitierung: Praxis benötigt Schweregrad-, Persistenz-, Auswirkungsbeurteilung auf kontinuierlichen Dimensionen
- Mehrdeutige Fälle fehlen: Benchmark bewertet klare Klassifikationsfälle, testet nicht wirklich mehrdeutige Situationen
- Fehlende Fachurteile: Kann nicht komplexe Entscheidungen bewerten, die mehrere Informationsquellen integrieren
- Andere Innovationen nicht verglichen: Retrieval-Augmented Generation (RAG), Fine-Tuning-Methoden, Multimodale Architekturen
- Einzelne Reasoning-Implementierung: Bewertet nur eine erweiterte Reasoning-Methode
- Fehlende Architektur-Vielfalt: Fokus hauptsächlich auf Qwen3-Serie
- Kein Fine-Tuning verwendet: Testet nicht domänenspezifisches Fine-Tuning-Potenzial
- Kein Few-Shot-Lernen: Erforscht nicht beispiel-gesteuertes Leistungs-Potenzial
- Generalisierung-Spezialisierung-Kompromiss: Aktuelle Ergebnisse repräsentieren allgemeine Fähigkeit statt Aufgaben-Optimierung
- Keine Algorithmus-Fairness-Bewertung: Prüft nicht Performance-Unterschiede über Bevölkerungsgruppen
- Dokumentations-Bias-Propagation: Modelle könnten systematische Biases aus Quelldaten lernen und verstärken
- Benötigt stratifizierte Validierung: Sollte Fehlerraten nach geschützten Merkmalen stratifizieren
- Gold-Standard-Zeitlichkeit: 2018–2023 Validierung könnte nicht aktuelle Praxis widerspiegeln
- Terminologie-Evolution: Fachvokabular und Dokumentationsstandards ändern sich zeitlich
- Benötigt kontinuierliche Aktualisierung: Benchmarks benötigen regelmäßige Revalidierung
- Benchmark-Tests in mehreren Staaten/Ländern
- Bewertung Modell-Robustheit gegenüber Dokumentstil-Variationen
- Entwicklung Methoden zur Anpassung an regionale Unterschiede
- Entwicklung Multi-Klassen-Klassifikations-Benchmarks
- Konstruktion Schweregrad-Bewertungs-Aufgaben
- Erstellung Bewertungen, die Multi-Dokument-Reasoning benötigen
- Systematische RAG-Methoden-Bewertung
- Vergleich Fine-Tuning vs. Zero-Shot-Leistung
- Erforschung Multimodale Modelle (Text + strukturierte Daten)
- Entwicklung Fairness-Bewertungs-Benchmarks
- Analyse Performance-Unterschiede über Bevölkerungsgruppen
- Forschung zu Debiasing-Techniken
- Längsstudien Modell-Leistung in Betriebsumgebungen
- Bewertung Mensch-Maschine-Kooperations-Workflows
- Forschung zu kontinuierlicher Überwachung und Modell-Update-Strategien
- Framework-Anwendung auf Erwachsenenschutz-Services
- Entwicklung Psychische-Gesundheit-Aufzeichnungs-Benchmarks
- Erstellung Bildungs-Unterstützungs-Dokument-Bewertungen
- Systematisiertes Framework: Fünfstufige Benchmark-Entwicklungs-Methode hochgradig reproduzierbar
- Ökologische Validität: Verwendung echter Praxis-Dokumente statt künstlicher Aufgaben
- Umfassende Bewertung: Integration Genauigkeit, Fehler-Muster, Recheneffizienz drei Dimensionen
- Zeitliche Trennung: Gold-Standard-Etablierung vor generativer KI, vermeidet zirkuläre Bewertung
- Klassenkategorien-Ausgleich: Eliminiert Verteilungs-Bias, sichert 50% Baseline-Genauigkeit
- Mehrdimensionale Vergleiche: Systematische Bewertung Größe, Verarbeitungsmodus, Architekturtyp
- Große Stichprobengröße: 500 Fälle pro Benchmark, insgesamt 2000 gekennzeichnete Samples
- Standardisierte Metriken: Cohen's Kappa korrigiert Zufallsübereinstimmung
- Ressourcen-Erreichbarkeit: Beweist Consumer-Grade-Hardware-Machbarkeit
- Effizienz-Quantifizierung: Detaillierte Verarbeitungszeit-Daten unterstützen Kostenkalkulationen
- Optimale Konfigurationsidentifikation: Klar 4B+Reasoning als Preis-Leistungs-Optimum
- Bereitstellungs-Leitlinien: Modellauswahl-Empfehlungen für verschiedene Szenarien
- Kontraintuitive Erkenntnisse: "Klein-aber-fein" hinterfragt "Größer-ist-besser"-Annahme
- Konsistente Muster: Reasoning-Verstärkung-Effekt über Benchmarks stabil
- Detaillierte Daten: Tabellen 1–4 bieten vollständige Leistungs-Matrix
- Statistische Robustheit: Deterministische Ausgabe (temperature=0,2) sichert Reproduzierbarkeit
- Logische Struktur: Problem→Methode→Ergebnisse→Diskussion hierarchisch klar
- Effektive Visualisierung: Wärmekarte (Abbildung 1) zeigt Leistungsmuster intuitiv
- Terminologie-Definition: Klare Erklärung κ-Wert, Sensitivität, Spezifität etc.
- Praxis-Orientierung: Kontinuierlicher Fokus auf praktische Bereitstellungs-Machbarkeit
- Einzelne Datenquelle: Nur Michigan-Daten limitiert Generalisierbarkeit
- Binäre Vereinfachung: Tatsächliche Entscheidungen komplexer als Existenz/Nicht-Existenz
- Zero-Shot-Limitation: Erforscht nicht Fine-Tuning oder Few-Shot-Potenzial
- Begrenzte Architektur-Abdeckung: Fokus hauptsächlich Qwen3, andere Architekturen begrenzt bewertet
- Fehlende Signifikanz-Tests: Berichtet nicht statistische Signifikanz Performance-Unterschiede
- Keine Kreuzvalidierung: Einzelne Bewertung könnte von Zufallsfaktoren beeinflusst sein
- Hardware-Abhängigkeit: Nur auf High-End-Workstation getestet, Consumer-Hardware-Daten sind Schätzungen
- Begrenzte Prompt-Engineering: Erforscht nicht systematisch Prompt-Variationen auf Performance
- Keine qualitativen Fälle: Fehlen spezifische Fehlerfall-Analysen
- Fehler-Muster unklar: Erforscht nicht tiefgehend wann/warum Modelle fehlschlagen
- Reasoning-Prozess Black-Box: Analysiert nicht Zwischenschritte erweiterten Reasoning
- MoE-Mechanismus unklar: Erklärt nicht warum MoE Reasoning benötigt, um effektiv zu sein
- Keine Bias-Bewertung: Prüft nicht Performance-Unterschiede über Bevölkerungsgruppen
- Oberflächliche Ethik-Diskussion: Obwohl erwähnt, nicht tiefgehend Algorithmus-Fairness analysiert
- Unzureichende Risiko-Bewertung: Begrenzte Diskussion Fehlklassifikations-Konsequenzen
- Prompts nicht vollständig offengelegt: Anhang A nicht in PDF enthalten
- Daten nicht teilbar: Datenschutz-Limitierungen verhindern Daten-Veröffentlichung
- Modell-Versions-Abhängigkeit: Qwen3 und gpt-oss könnten Iterationen durchlaufen
Methodologischer Einfluss:
- Etabliert Goldstandard für Sozialarbeit-KI-Bewertung
- Übertragbar auf andere Menschendienstleistungs-Bereiche (Medizin, Bildung, Justiz)
- Fördert Paradigmenwechsel von "Was kann Modell tun" zu "Welcher Modell passt am besten"
Praktischer Einfluss:
- Senkt KI-Adoptions-Barrieren (technisch und wirtschaftlich)
- Ermöglicht ressourcenbeschränkten Institutionen fortgeschrittene Analysen
- Unterstützt datenschutz-konforme lokale Bereitstellung
Theoretischer Einfluss:
- Beweist Reasoning-Fähigkeit kann teilweise Parametergröße ersetzen
- Offenbart MoE-Architektur-Reasoning-Abhängigkeit
- Quantifiziert Aufgaben-Komplexität-Einfluss auf Modell-Anforderungen
Zitier-Potenzial: Hoch
- Füllt Lücke in Sozialarbeit-KI-Bewertung
- Bietet reproduzierbare Methodik-Framework
- Kontraintuitive Erkenntnisse regen Diskussion an
Nachfolge-Forschung:
- Bereichsübergreifende Benchmark-Entwicklung
- Tiefere Reasoning-Mechanismus-Forschung
- Fairness- und Bias-Analyse
Unmittelbare Anwendbarkeit: Stark
- Klare Modellauswahl-Leitlinien
- Detaillierte Bereitstellungs-Parameter
- Quantifizierte Kosten-Nutzen-Daten
Langfristige Auswirkungen:
- Fördert Sozialdienstleistungs-Digitalisierungs-Transformation
- Verbessert evidenzgestützte Entscheidungsfähigkeit
- Erhöht Service-Qualität und Effizienz
Reproduzierungs-Schwierigkeit: Mittel
- Methodik klar reproduzierbar
- Modelle öffentlich verfügbar
- Daten durch Datenschutz begrenzt nicht teilbar
- Benötigt ähnliche Hardware-Konfiguration
Reproduzierungs-Wert:
- Andere Gerichtsbarkeiten können ähnliche Benchmarks konstruieren
- Verschiedene Bereiche können Framework anwenden
- Kontinuierliche Bewertung neuer Modell-Architekturen
- Kinderwohlfahrts-Institutionen:
- Großskalen-Fallscreening
- Automatische Risikofaktor-Identifikation
- Service-Bedarfs-Bewertung
- Sozialarbeit-Forschung:
- Historische Daten-Analyse
- Trend-Identifikation
- Politische Bewertung
- Ressourcenbeschränkte Umgebungen:
- Budget-begrenzte lokale Institutionen
- Organisationen ohne IT-Fachpersonal
- Szenarien, die lokale Bereitstellung benötigen
- Datenschutz-sensitive Anwendungen:
- Medizinische Aufzeichnungs-Analyse
- Bildungsdaten-Verarbeitung
- Rechtsdokument-Überprüfung
- Hochrisiko-Entscheidungen:
- Kindesentzugs-Entscheidungen
- Strafjustiz-Urteile
- Komplexe Situationen, die Fachurteil benötigen
- Echtzeit-Reaktion:
- Krisen-Intervention
- Notfall-Sicherheitsbewertung
- Sekunden-Reaktion-Anforderungen
- Kulturübergreifende Anwendung:
- Gerichtsbarkeiten mit großen Dokumentstil-Unterschieden
- Nicht-englische Umgebungen (nicht getestet)
- Regionen mit signifikant unterschiedlichen Kulturnormen
- Extreme Genauigkeits-Anforderungen:
- Null-Toleranz-Falsch-Positiv-Szenarien
- Rechtliche Beweis-Ketten-Anforderungen
- Anwendungen, die 100% Genauigkeit benötigen
- Perron et al. (2019): Überwachtes Lernen für Substanzmissbrauch-Klassifikation, bietet Gold-Standard für Benchmarks
- Victor et al. (2021): Automatische häusliche-Gewalt-Erkennung, κ = 0,84 manuelle Annotation
- Sokol et al. (2020): Schusswaffen Named-Entity-Recognition, 96% Genauigkeit
- Perron et al. (2022): Opioid-Text-Mining, 3% Fehlerrate
- Yang et al. (2025): Qwen3 Technischer Bericht, Modell-Architektur-Details
- OpenAI (2025): gpt-oss-20b Modell-Karte, Reasoning-Fähigkeit-Beschreibung
- OpenAI (2024): LLM Reasoning-Lernen, o1-Modell Reasoning-Methode
- Wu et al. (2024): o1 Reasoning-Modus Vergleichsstudie
- Fedus et al. (2022): Switch Transformers, MoE-Grundlagen-Theorie
- Cai et al. (2024): MoE in LLM Übersicht
- DeepSeek-AI (2024): DeepSeek-V3, MoE-Implementierung
- Nguyen et al. (2024): Kleine Sprachmodelle Übersicht
- Perron, Luan, et al. (2025): Lokale LLM für vertrauliche Textanalyse
- Stoll et al. (2025a, 2025b): LLM in Kindesmissbrauch-Forschung Anwendungen
- Amrit et al. (2017): Frühe Text-Mining-Arbeit zur Kindesmissbrauch-Erkennung
Dieses Paper hinterfragt durch rigoroses experimentelles Design und systematisiertes Benchmark-Framework das "Größer-ist-besser"-Paradigma der KI-Modellauswahl und beweist, dass kleine Reasoning-verstärkte Modelle in praktischen Anwendungen große Modell-Leistung erreichen können, während signifikante Effizienzvorteile beibehalten. Der Kernwert der Forschung liegt in:
- Technologie-Barrieren-Abbau: Ermöglicht ressourcenbeschränkten Sozialdienstleistungsagenturen fortgeschrittene KI-Technologie-Adoption
- Datenschutz-Compliance-Sicherung: Lokale Bereitstellungs-Lösung erfüllt strenge Datenschutzanforderungen
- Entscheidungs-Grundlagen-Bereitstellung: Detaillierte Performance-Effizienz-Daten unterstützen evidenzgestützte Modellauswahl
- Bewertungs-Standard-Etablierung: Reproduzierbares Benchmark-Framework anwendbar auf breite Sozialarbeit-Bereiche
Die Hauptlimitierungen der Forschung liegen in einzelner Datenquelle, binärer Aufgaben-Vereinfachung und unzureichender Fairness-Bewertung, aber diese weisen zukünftige Forschungsrichtungen auf. Insgesamt ist dies eine hochwertige Forschung mit wichtigem praktischem Wert und methodologischem Beitrag, die solide Grundlagen für verantwortungsvolle KI-Anwendung in der Sozialarbeit schafft.