2025-11-14T03:28:11.408670

Statistical methods: Basic concepts, interpretations, and cautions

Greenland
The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations. The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.
academic

Statistische Methoden: Grundkonzepte, Interpretationen und Vorsichtsmaßnahmen

Grundinformationen

  • Paper-ID: 2508.10168
  • Titel: Statistical methods: Basic concepts, interpretations, and cautions
  • Autor: Sander Greenland (Emeritus Professor für Epidemiologie und Statistik, UCLA)
  • Klassifizierung: stat.ME math.ST stat.TH
  • Veröffentlichungsdatum: 25. August 2025
  • Papiertyp: Kapitel aus dem dritten Band des „Epidemiologie-Handbuchs"
  • Paper-Link: https://arxiv.org/abs/2508.10168

Zusammenfassung

Dieser Artikel befasst sich mit der Anwendung statistischer Methoden in Assoziationsstudien und kausalen Interpretationen und weist auf erhebliche methodologische Unterschiede zwischen verschiedenen Disziplinen hin, wobei selbst innerhalb spezialisierter Teilbereiche erhebliche Variationen und Kontroversen bestehen. Traditionelle statistische Methoden gehen von idealen Bedingungen aus (wie rein zufällige Stichprobenziehung, vollständig randomisierte Experimente), doch in der praktischen Bevölkerungsforschung werden diese Annahmen häufig nicht erfüllt. Der Autor schlägt einen neuen Interpretationsrahmen für statistische Methoden vor, der statistische Inferenz als Vermutung auf Grundlage von nicht vollständig überprüfbaren Annahmen betrachtet und nicht als deterministische Schlussfolgerung, um dadurch Missbrauch der Konzepte „statistische Signifikanz" und „Konfidenz" zu vermeiden.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Schwerwiegende methodologische Meinungsverschiedenheiten: Erhebliche Unterschiede und Kontroversen über statistische Grundkonzepte zwischen verschiedenen Disziplinen, Lehrbüchern und Zeitschriften
  2. Idealisierte Annahmebedingungen: Traditionelle statistische Methoden gehen von idealen Bedingungen der Zufallsstichprobenziehung oder Zufallszuweisung aus, doch in der praktischen Forschung sind diese Bedingungen schwer zu erfüllen
  3. Weit verbreitete Missverständnisse: Umfragen zeigen, dass die meisten Benutzer P-Werte, Signifikanztests und Konfidenzintervalle nicht korrekt definieren oder interpretieren können
  4. Übervertrauen-Problem: Statistische Ergebnisse werden häufig als deterministische Antworten missverstanden, anstatt als auf Annahmen basierende Vermutungen

Forschungsmotivation

  • Bereitstellung eines realistischeren und vorsichtigeren Interpretationsrahmens für statistische Methoden
  • Verringerung von Übervertrauen und Missverständnissen in der statistischen Inferenz
  • Neupositionierung statistischer Methoden als Datenbeschreibungswerkzeuge statt als autoritative Schiedsrichter wissenschaftlicher Inferenz
  • Betonung der Bedeutung von Annahmeverifikation und Unsicherheitsbewertung

Kernbeiträge

  1. Neudefinition der statistischen Inferenz: Neuinterpretation des P-Wertes als Maß für die Kompatibilität zwischen Daten und Annahmemodell, nicht als Wahrscheinlichkeit der Annahme
  2. Einführung des Kompatibilitätsintervall-Konzepts: Ersatz des Begriffs „Konfidenzintervall" durch „Kompatibilitätsintervall" (compatibility interval), um das irreführende Konzept der „Konfidenz" zu vermeiden
  3. Einführung des S-Wertes (Überraschungswert): Verwendung des binären Überraschungswertes (-log₂(p)) als Informationsmaß für intuitivere P-Wert-Interpretationen
  4. Betonung der Annahmeabhängigkeit: Systematische Darlegung der Empfindlichkeit und Unsicherheit statistischer Ergebnisse gegenüber Hilfsannahmen
  5. Integration mehrerer methodologischer Ansätze: Befürwortung von Frequentist- und Bayes-Methoden als unterschiedliche Perspektiven zur Evidenzsynthese

Methodische Details

Grundlegendes theoretisches Rahmenwerk

1. Neudefiniton des Modells

  • Traditionelle Definition: Ein Modell bezieht sich normalerweise auf eine Gleichung, die die funktionale Beziehung zwischen gemessenen Variablen und anderen Variablen ausdrückt
  • Definition in diesem Artikel: Ein Modell M ist ein vollständiger Satz von Annahmen über das Verhalten des Datenerzeugungsprozesses, einschließlich der Zielannahme H und der Hilfsannahmen A

2. Kompatibilitätsinterpretation des P-Wertes

Traditionelle P-Wert-Definition:

p = Pr(T ≥ t | H, A)

wobei T die Differenzstatistik ist, t der beobachtete Wert, H die Zielannahme und A die Hilfsannahmen sind.

Neuinterpretation: Der P-Wert gibt den Grad der Kompatibilität zwischen Daten und Modell an, mit einem Bereich von 0 (völlig inkompatibel) bis 1 (völlig kompatibel).

3. S-Wert (Überraschungswert)

S = -log₂(p)

Der S-Wert wird in Informationsbits gemessen und bietet eine intuitivere Interpretation:

  • S = 4,6 entspricht dem Überraschungsgrad von fünf aufeinanderfolgenden Münzwürfen mit demselben Ergebnis
  • S = 0 bedeutet keine Information; je größer der S-Wert, desto geringer die Kompatibilität

4. Kompatibilitätsintervall

Für ein Signifikanzniveau α enthält das Kompatibilitätsintervall alle Parameterwerte, die p > α erfüllen, und vermeidet die Irreführung durch das Konzept der „Konfidenz".

Technische Innovationen

  1. Semantische Umwandlung: Von entscheidungsorientierter zu beschreibender Sprache
  2. Informationstheoretische Perspektive: Einführung informationstheoretischer Konzepte zur Quantifizierung statistischer Evidenz
  3. Transparenz der Annahmen: Klare Unterscheidung zwischen Zielannahmen und Hilfsannahmen
  4. Integration mehrerer Methoden: Betrachtung verschiedener statistischer Schulen als komplementäre Perspektiven

Experimentelle Einrichtung

Hypothetische Fallstudie

Der Autor verwendet einen hypothetischen Datensatz zur Beziehung zwischen Cannabiskonsum und psychischer Gesundheit zur Methodendemonstration:

Datenstruktur:

  • Stichprobengröße: 600 Personen (480 Nicht-Nutzer, 120 Cannabis-Nutzer)
  • Ergebnisvariable: Diagnose psychischer Erkrankung (binär)
  • Beobachtete Assoziation: Diagnose-Rate bei Nutzern 8,3 %, bei Nicht-Nutzern 3,3 %

Berechnungsergebnisse:

  • Risikodifferenz (RD) = 0,050 (5%)
  • Risikoverhältnis (RR) = 2,5
  • Odds Ratio (OR) = 2,6
  • Pearson χ² = 5,79
  • Näherungswert P = 0,016, exakter P-Wert = 0,041

Bewertungsindikatoren

  1. Kompatibilitätsmaß: P-Wert als Indikator für Kompatibilität zwischen Daten und Annahme
  2. Informationsgehalt: S-Wert quantifiziert den Informationsgehalt statistischer Evidenz
  3. Intervallschätzung: Kompatibilitätsintervall bietet Parameterbereiche
  4. Annahmevergleich: Vergleich der P-Wert-Funktionen verschiedener Annahmewerte

Experimentelle Ergebnisse

Hauptergebnisse

1. P-Wert-Funktionsanalyse

  • H₀: OR = 1 exakter P-Wert = 0,041 (S = 4,6 bits)
  • H₁: OR = 2 exakter P-Wert = 0,644 (S = 0,6 bits)
  • 95%-Kompatibilitätsintervall: 1,04, 6,36

2. Interpretationsvergleich

Traditionelle Interpretation: OR = 1 wird auf dem Signifikanzniveau α = 0,05 „abgelehnt", Ergebnis ist „statistisch signifikant" Neue Rahmenwerk-Interpretation:

  • OR = 1 hat niedrige Kompatibilität mit Daten (p = 0,041)
  • OR = 2 hat hohe Kompatibilität mit Daten (p = 0,644)
  • OR = 6 ist mit Daten kompatibel als OR = 1 (p = 0,070 > 0,041)

3. Methodenvergleich

MethodeP-WertS-WertInterpretation
Pearson χ²0,0165,97Näherungsmethode
Fisher exakt0,0414,61Exakte Methode
Wald-NäherungGroße Abweichung-Bei spärlichen Daten ungenau

Fallanalyse

Durch die Cannabis-Fallstudie zeigt der Autor:

  1. Annahmeabhängigkeit: Ergebnisse hängen stark von Hilfsannahmen ab (wie Zufallsstichprobenziehung, keine Störfaktoren usw.)
  2. Störfaktoren: Alter, Krankengeschichte, andere Medikamentennebenwirkungen usw. können die wahre Assoziation verwirren
  3. Messfehler: Auswirkungen von Selbstberichterstattung über Nutzung und Diagnosegenauigkeit
  4. Selektionsbias: Die Selektivität der Umfrageteilnahme kann die Verallgemeinerbarkeit der Ergebnisse beeinflussen

Verwandte Arbeiten

Historische Entwicklung

  • P-Wert-Ursprünge: Lässt sich bis in die frühe Neuzeit zurückverfolgen, Pearson (1900) und Fisher (1934) legten die theoretischen Grundlagen
  • Signifikanzkonzept: Das Konzept der „statistischen Signifikanz" entstand in den 1880er Jahren
  • Kontroversgeschichte: Frühe Kritik durch Boring (1919), Pearson (1906) wies auf Missverständnisprobleme hin

Zeitgenössische Kritik

Der Autor zitiert umfangreiche aktuelle Literatur zur Unterstützung statistischer Reformen:

  • Amrhein et al. (2019): Forderung nach „Pensionierung" der statistischen Signifikanz
  • McShane et al. (2019, 2024): Befürwortung von Jenseits binärer Entscheidungen
  • Wasserstein et al. (2019): ASA-Stellungnahme zu P-Werten

Verwandte Methodologien

  1. Bayes-Methoden: Bieten Wahrscheinlichkeitsaussagen über Parameter, hängen aber von Priorverteilungen ab
  2. Kausale Inferenz: Moderner Rahmen für kausale Inferenz von Pearl, Hernán & Robins
  3. Mehrfachvergleiche: Bonferroni-Anpassung und alternative Methoden
  4. Robuste Statistik: Rechenintensive Methoden wie Bootstrap

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Einschränkungen statistischer Methoden: Traditionelle Methoden basieren auf strengen Annahmen, die in der praktischen Anwendung häufig verletzt werden
  2. Bedeutung der Sprache: Begriffe wie „Signifikanz" und „Konfidenz" verursachen systematische Missverständnisse
  3. Vorsicht bei der Inferenz: Statistische Ergebnisse sollten als auf Annahmen basierende Vermutungen betrachtet werden, nicht als deterministische Schlussfolgerungen
  4. Methodenintegration: Verschiedene statistische Methoden sollten als komplementäre Werkzeuge verwendet werden

Praktische Empfehlungen

  1. Verbesserung der Berichterstattung:
    • Bereitstellung von P-Wert-Funktionen statt einzelner P-Werte
    • Verwendung von Kompatibilitätsintervallen statt Konfidenzintervallen
    • Explizite Auflistung kritischer Annahmen
  2. Interpretationsrahmen:
    • Vermeidung von binärer „Annahme/Ablehnung"-Sprache
    • Betonung der Annahmeabhängigkeit von Ergebnissen
    • Berücksichtigung praktischer Signifikanz statt nur statistischer Signifikanz
  3. Methodenauswahl:
    • Verwendung exakter Methoden statt Großstichproben-Näherungen
    • Durchführung von Sensitivitätsanalysen
    • Integration mehrerer Evidenzquellen

Einschränkungen

  1. Lernkurve: Der neue Rahmen erfordert grundlegende Reformen in der statistischen Ausbildung
  2. Rechenkomplexität: Einige empfohlene Methoden sind rechnerisch komplexer
  3. Widerstand von Zeitschriften: Bestehende Veröffentlichungspraktiken können die Übernahme behindern
  4. Kommunikationsherausforderungen: Erklärung gegenüber Nicht-Statistikern ist schwieriger

Zukünftige Richtungen

  1. Bildungsreform: Statistische Lehre muss von Grundkonzepten aus reformiert werden
  2. Softwareentwicklung: Benötigung von Statistiksoftware zur Unterstützung des neuen Interpretationsrahmens
  3. Standardsetzung: Aktualisierung von Standards in akademischen Zeitschriften und Regulierungsbehörden
  4. Interdisziplinäre Zusammenarbeit: Förderung der Zusammenarbeit zwischen Statistikern und Fachexperten

Tiefgreifende Bewertung

Stärken

  1. Theoretische Tiefe: Bietet tiefe philosophische Reflexion über statistische Inferenz
  2. Hohe Praktikabilität: Gibt konkrete Methoden und Interpretationsempfehlungen
  3. Ausreichende Evidenz: Zitiert umfangreiche Literatur zur Unterstützung von Standpunkten
  4. Klare Schreibweise: Komplexe Konzepte sind klar erklärt, Beispiele sind anschaulich

Technische Innovationen

  1. S-Wert-Einführung: Innovation in der informationstheoretischen Perspektive der P-Wert-Interpretation
  2. Kompatibilitätsrahmen: Systematische Terminologie- und Konzeptreform
  3. Mehrfachmethoden-Integration: Vereinigung verschiedener statistischer Schulen
  4. Annahmeschichtung: Klare Unterscheidung zwischen Zielannahmen und Hilfsannahmen

Mängel

  1. Umsetzungshürden: Große Widerstände bei der Reform bestehender statistischer Praktiken
  2. Rechenlast: Einige empfohlene Methoden erhöhen die Rechenkomplexität
  3. Übergangsschwierigkeiten: Nebeneinander von altem und neuem Rahmen kann Verwirrung stiften
  4. Verbreitungsschwierigkeiten: Erfordert massive Investitionen in Bildung und Schulung

Einflussbeurteilung

Akademischer Einfluss

  • Paradigmenwechsel: Könnte zu großen Veränderungen in den Grundkonzepten der Statistik führen
  • Disziplinübergreifender Einfluss: Beeinflusst alle Disziplinen, die statistische Methoden verwenden
  • Bildungsinnovation: Fördert grundlegende Reformen in der statistischen Ausbildung

Praktischer Wert

  • Missverständnisse reduzieren: Trägt zur Verringerung von Fehlinterpretationen statistischer Ergebnisse bei
  • Qualitätsverbesserung: Fördert vorsichtigere und genauere wissenschaftliche Inferenz
  • Politische Entscheidungsfindung: Verbessert die Qualität von auf statistischen Evidenzen basierenden Entscheidungen

Anwendungsszenarien

  1. Wissenschaftliche Forschung: Alle Forschungsbereiche, die auf statistischer Inferenz basieren
  2. Medizinische Forschung: Klinische Versuche und epidemiologische Studien
  3. Sozialwissenschaften: Psychologie, Wirtschaftswissenschaften und andere empirische Forschungen
  4. Regulatorische Entscheidungsfindung: Arzneimittelzulassung, Politikbewertung usw.

Referenzen

Dieser Artikel zitiert umfangreiche wichtige Referenzen, darunter:

Klassische Literatur:

  • Pearson, K. (1900). Frühe theoretische Grundlagen statistischer Tests
  • Fisher, R.A. (1934). Grundlegung der modernen statistischen Inferenztheorie
  • Neyman, J. (1977). Frequentistische Statistiktheorie

Moderne Kritik:

  • Amrhein, V., et al. (2019). Bewegung zur Pensionierung der statistischen Signifikanz
  • Wasserstein, R.L., et al. (2019). ASA-Stellungnahme zu P-Werten
  • McShane, B.B., et al. (2019, 2024). Jenseits binärer statistischer Entscheidungen

Methodologische Entwicklung:

  • Pearl, J. (2009). Theorie der kausalen Inferenz
  • Hernán, M.A., Robins, J.M. (2025). Moderne epidemiologische Methoden
  • Gelman, A., et al. (2013). Bayesianische Datenanalyse

Zusammenfassung: Dies ist ein Artikel von großer theoretischer und praktischer Bedeutung zur statistischen Methodologie. Der Autor nutzt seine tiefe statistische Expertise und umfangreiche Anwendungserfahrung, um systematisch die Probleme des traditionellen Rahmens der statistischen Inferenz zu kritisieren und eine vorsichtigere und realistischere Alternative vorzuschlagen. Obwohl die Umsetzung Herausforderungen mit sich bringt, hat seine Philosophie wichtigen Wert für die Verbesserung der Qualität wissenschaftlicher Forschung.