2025-11-14T03:28:11.408670

Statistical methods: Basic concepts, interpretations, and cautions

Greenland
The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations. The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.
academic

Metodi statistici: Concetti fondamentali, interpretazioni e avvertenze

Informazioni di base

  • ID articolo: 2508.10168
  • Titolo: Statistical methods: Basic concepts, interpretations, and cautions
  • Autore: Sander Greenland (Professore Emerito, Dipartimento di Epidemiologia e Statistica, UCLA)
  • Classificazione: stat.ME math.ST stat.TH
  • Data di pubblicazione: 25 agosto 2025
  • Natura dell'articolo: Capitolo della terza edizione del Manuale di Epidemiologia
  • Link articolo: https://arxiv.org/abs/2508.10168

Riassunto

Questo articolo affronta i problemi nell'applicazione dei metodi statistici negli studi di associazione e nell'interpretazione causale, evidenziando enormi differenze metodologiche tra diversi campi e considerevoli variazioni e controversie anche all'interno di sottodiscipline specializzate. I metodi statistici tradizionali presuppongono condizioni ideali (come il campionamento puramente casuale e gli esperimenti completamente randomizzati), ma questi presupposti sono spesso non verificabili negli studi su popolazioni reali. L'autore propone un nuovo quadro interpretativo dei metodi statistici, considerando l'inferenza statistica come una congettura basata su presupposti non completamente verificabili, piuttosto che come una conclusione deterministica, evitando così l'uso improprio dei concetti di "significatività statistica" e "confidenza".

Contesto di ricerca e motivazione

Problematica di fondo

  1. Divergenze metodologiche significative: Differenze sostanziali e controversie tra diversi campi, libri di testo e riviste sui concetti statistici fondamentali
  2. Idealizzazione delle condizioni di presupposto: I metodi statistici tradizionali presuppongono condizioni ideali di campionamento casuale o assegnazione casuale, difficili da soddisfare nella ricerca pratica
  3. Fraintendimenti diffusi: Indagini mostrano che la maggior parte degli utenti non riesce a definire o interpretare correttamente i valori p, i test di significatività e gli intervalli di confidenza
  4. Problema di eccessiva fiducia: I risultati statistici sono spesso fraintesi come risposte deterministische, piuttosto che come congetture basate su presupposti

Motivazione della ricerca

  • Fornire un quadro interpretativo dei metodi statistici più realistico e cauto
  • Ridurre l'eccessiva fiducia e i fraintendimenti nell'inferenza statistica
  • Riposizionare i metodi statistici come strumenti di descrizione dei dati, piuttosto che come arbitri autorevoli dell'inferenza scientifica
  • Sottolineare l'importanza della verifica dei presupposti e della valutazione dell'incertezza

Contributi principali

  1. Ridefinizione dell'inferenza statistica: Reinterpretazione del valore p come misura di compatibilità tra i dati e il modello di ipotesi, piuttosto che come probabilità dell'ipotesi
  2. Introduzione del concetto di intervallo di compatibilità: Sostituzione dell'"intervallo di confidenza" con l'"intervallo di compatibilità" (compatibility interval) per evitare il concetto fuorviante di "confidenza"
  3. Introduzione del valore S (surprisal): Utilizzo del valore di sorpresa binario (-log₂(p)) come misura informativa, fornendo un'interpretazione più intuitiva del valore p
  4. Enfasi sulla dipendenza dai presupposti: Illustrazione sistematica della sensibilità dei risultati statistici ai presupposti ausiliari e dell'incertezza
  5. Integrazione di molteplici approcci metodologici: Promozione dei metodi frequentista e bayesiano come prospettive diverse per la sintesi delle prove

Dettagli metodologici

Quadro teorico centrale

1. Ridefinizione del modello

  • Definizione tradizionale: Il modello di solito si riferisce a un'equazione che esprime la relazione funzionale tra una variabile misurata e altre variabili
  • Definizione in questo articolo: Il modello M è l'insieme completo di presupposti sul comportamento del processo di generazione dei dati, includendo l'ipotesi target H e i presupposti ausiliari A

2. Interpretazione di compatibilità del valore p

Definizione tradizionale del valore p:

p = Pr(T ≥ t | H, A)

dove T è la statistica della differenza, t è il valore osservato, H è l'ipotesi target, A sono i presupposti ausiliari.

Reinterpretazione: Il valore p rappresenta il grado di compatibilità tra i dati e il modello, con un intervallo da 0 (completamente incompatibile) a 1 (completamente compatibile).

3. Valore S (surprisal)

S = -log₂(p)

Il valore S è espresso in bit informativi (bits), fornendo un'interpretazione più intuitiva:

  • S = 4,6 rappresenta un grado di sorpresa equivalente a ottenere cinque teste consecutive nel lancio di una moneta
  • S = 0 rappresenta nessuna informazione; valori S più grandi indicano maggiore incompatibilità

4. Intervallo di compatibilità

Per un livello di significatività α, l'intervallo di compatibilità contiene tutti i valori dei parametri che soddisfano p > α, evitando l'interpretazione fuorviante del concetto di "confidenza".

Innovazioni tecniche

  1. Conversione semantica: Dal linguaggio decisionale al linguaggio descrittivo
  2. Prospettiva della teoria dell'informazione: Introduzione di concetti della teoria dell'informazione per quantificare l'evidenza statistica
  3. Trasparenza dei presupposti: Distinzione esplicita tra ipotesi target e presupposti ausiliari
  4. Integrazione di molteplici metodi: Considerazione di diverse scuole statistiche come prospettive complementari

Configurazione sperimentale

Studio di caso ipotetico

L'autore utilizza un dataset ipotetico sulla relazione tra uso di cannabis e salute mentale per dimostrare il metodo:

Struttura dei dati:

  • Dimensione del campione: 600 persone (480 non utilizzatori, 120 utilizzatori di cannabis)
  • Variabile di risultato: Diagnosi di malattia mentale (binaria)
  • Associazione osservata: Tasso di diagnosi negli utilizzatori 8,3%, nei non utilizzatori 3,3%

Risultati calcolati:

  • Differenza di rischio (RD) = 0,050 (5%)
  • Rapporto di rischio (RR) = 2,5
  • Odds ratio (OR) = 2,6
  • Chi-quadrato di Pearson = 5,79
  • Valore p approssimato = 0,016, valore p esatto = 0,041

Indicatori di valutazione

  1. Misura di compatibilità: Valore p come indicatore di compatibilità tra dati e ipotesi
  2. Contenuto informativo: Valore S che quantifica l'informazione dell'evidenza statistica
  3. Stima per intervallo: Intervallo di compatibilità che fornisce la stima dell'intervallo dei parametri
  4. Confronto di ipotesi: Confronto della funzione del valore p per diversi valori di ipotesi

Risultati sperimentali

Principali scoperte

1. Analisi della funzione del valore p

  • Ipotesi H₀: OR = 1, valore p esatto = 0,041 (S = 4,6 bit)
  • Ipotesi H₁: OR = 2, valore p esatto = 0,644 (S = 0,6 bit)
  • Intervallo di compatibilità al 95%: 1,04, 6,36

2. Confronto interpretativo

Interpretazione tradizionale: OR = 1 viene "rifiutato" al livello α = 0,05, il risultato è "statisticamente significativo" Interpretazione nel nuovo quadro:

  • OR = 1 ha compatibilità inferiore con i dati (p = 0,041)
  • OR = 2 ha alta compatibilità con i dati (p = 0,644)
  • OR = 6 è più compatibile con i dati rispetto a OR = 1 (p = 0,070 > 0,041)

3. Confronto dei metodi

MetodoValore pValore SInterpretazione
Chi-quadrato di Pearson0,0165,97Metodo approssimato
Esatto di Fisher0,0414,61Metodo esatto
Approssimazione di WaldDeviazione maggiore-Impreciso con dati sparsi

Analisi del caso

Attraverso il caso d'uso della cannabis, l'autore dimostra:

  1. Dipendenza dai presupposti: I risultati dipendono fortemente dai presupposti ausiliari (come campionamento casuale, assenza di interferenze, ecc.)
  2. Fattori confondenti: L'età, la storia medica precedente, l'uso di altri farmaci, ecc. potrebbero confondere l'associazione reale
  3. Errore di misurazione: L'impatto dell'auto-segnalazione dell'uso e dell'accuratezza della diagnosi
  4. Bias di selezione: La selettività della partecipazione all'indagine potrebbe influenzare la generalizzabilità dei risultati

Lavori correlati

Sviluppo storico

  • Origine del valore p: Risale all'inizio del XVIII secolo; Pearson (1900) e Fisher (1934) hanno gettato le basi teoriche
  • Concetto di significatività: Il concetto di "significatività statistica" è emerso negli anni 1880
  • Storia controversa: Critiche precoci di Boring (1919), Pearson (1906) ha segnalato problemi di interpretazione

Critiche contemporanee

L'autore cita ampia letteratura recente a supporto della riforma statistica:

  • Amrhein et al. (2019): Appello al "ritiro" della significatività statistica
  • McShane et al. (2019, 2024): Promozione del superamento delle decisioni binarie
  • Wasserstein et al. (2019): Dichiarazione di posizione dell'ASA sui valori p

Metodologie correlate

  1. Metodi bayesiani: Forniscono dichiarazioni di probabilità dei parametri, ma dipendono dalla distribuzione a priori
  2. Inferenza causale: Quadro moderno di inferenza causale di Pearl, Hernán & Robins
  3. Confronti multipli: Aggiustamento di Bonferroni e metodi alternativi
  4. Statistica robusta: Metodi computazionalmente intensivi come il Bootstrap

Conclusioni e discussione

Conclusioni principali

  1. Limitazioni dei metodi statistici: I metodi tradizionali si basano su presupposti rigorosi, spesso violati nell'applicazione pratica
  2. Importanza del linguaggio: Termini come "significatività" e "confidenza" causano fraintendimenti sistematici
  3. Cautela nell'inferenza: I risultati statistici dovrebbero essere considerati come congetture basate su presupposti, non come conclusioni deterministische
  4. Integrazione metodologica: Diversi metodi statistici dovrebbero essere utilizzati come strumenti complementari

Raccomandazioni pratiche

  1. Miglioramento della comunicazione:
    • Fornire la funzione del valore p piuttosto che un singolo valore p
    • Utilizzare intervalli di compatibilità al posto degli intervalli di confidenza
    • Elencare esplicitamente i presupposti chiave
  2. Quadro interpretativo:
    • Evitare il linguaggio binario di "accettazione/rifiuto"
    • Sottolineare la dipendenza dei risultati dai presupposti
    • Considerare la significatività pratica oltre quella statistica
  3. Selezione dei metodi:
    • Utilizzare metodi esatti piuttosto che approssimazioni per grandi campioni
    • Condurre analisi di sensibilità
    • Integrare molteplici fonti di evidenza

Limitazioni

  1. Curva di apprendimento: Il nuovo quadro richiede una riforma fondamentale dell'insegnamento statistico
  2. Complessità computazionale: Alcuni metodi consigliati sono computazionalmente più complessi
  3. Resistenza editoriale: Le pratiche editoriali esistenti potrebbero ostacolare l'adozione
  4. Sfide comunicative: L'interpretazione per non specialisti è più difficile

Direzioni future

  1. Riforma educativa: L'insegnamento della statistica necessita di una riforma fondamentale a partire dai concetti di base
  2. Sviluppo software: Necessità di software statistico che supporti il nuovo quadro interpretativo
  3. Definizione di standard: Aggiornamento degli standard delle riviste accademiche e delle istituzioni normative
  4. Collaborazione interdisciplinare: Promozione della collaborazione tra statistici e esperti di dominio

Valutazione approfondita

Punti di forza

  1. Profondità teorica: Fornisce una riflessione filosofica profonda sull'inferenza statistica
  2. Forte praticità: Offre raccomandazioni metodologiche e interpretative concrete
  3. Evidenza sufficiente: Cita ampia letteratura a supporto dei punti di vista
  4. Chiarezza della scrittura: Spiega concetti complessi in modo chiaro con esempi vividi

Innovazioni tecniche

  1. Introduzione del valore S: Innovazione nell'interpretazione del valore p dalla prospettiva della teoria dell'informazione
  2. Quadro di compatibilità: Riforma sistematica della terminologia e dei concetti
  3. Integrazione di molteplici metodi: Unificazione delle prospettive di diverse scuole statistiche
  4. Stratificazione dei presupposti: Distinzione esplicita tra ipotesi target e presupposti ausiliari

Carenze

  1. Sfide implementative: La riforma della pratica statistica esistente affronta una resistenza enorme
  2. Onere computazionale: Alcuni metodi consigliati aumentano la complessità computazionale
  3. Difficoltà di transizione: La coesistenza di quadri vecchi e nuovi potrebbe causare confusione
  4. Difficoltà di diffusione: Richiede investimenti significativi in educazione e formazione

Valutazione dell'impatto

Impatto accademico

  • Cambio di paradigma: Potrebbe promuovere un cambiamento significativo nei concetti fondamentali della statistica
  • Impatto interdisciplinare: Influenzerebbe tutti i campi che utilizzano metodi statistici
  • Innovazione educativa: Promuoverebbe una riforma fondamentale dell'insegnamento della statistica

Valore pratico

  • Riduzione dei fraintendimenti: Aiuta a ridurre le interpretazioni errate dei risultati statistici
  • Miglioramento della qualità: Promuove un'inferenza scientifica più cauta e accurata
  • Formulazione di politiche: Migliora la qualità delle decisioni basate su evidenze statistiche

Scenari applicabili

  1. Ricerca scientifica: Tutti i campi di ricerca basati su inferenza statistica
  2. Ricerca medica: Studi clinici e ricerca epidemiologica
  3. Scienze sociali: Psicologia, economia e altre ricerche empiriche
  4. Decisioni normative: Approvazione di farmaci, valutazione di politiche, ecc.

Bibliografia

Questo articolo cita un'ampia gamma di riferimenti importanti, tra cui:

Letteratura classica:

  • Pearson, K. (1900). Fondamenti teorici iniziali dei test statistici
  • Fisher, R.A. (1934). Fondazione della teoria moderna dell'inferenza statistica
  • Neyman, J. (1977). Teoria della statistica frequentista

Critiche moderne:

  • Amrhein, V., et al. (2019). Movimento per il ritiro della significatività statistica
  • Wasserstein, R.L., et al. (2019). Dichiarazione dell'ASA sui valori p
  • McShane, B.B., et al. (2019, 2024). Superamento delle decisioni statistiche binarie

Sviluppo metodologico:

  • Pearl, J. (2009). Teoria dell'inferenza causale
  • Hernán, M.A., Robins, J.M. (2025). Metodi epidemiologici moderni
  • Gelman, A., et al. (2013). Analisi bayesiana dei dati

Sintesi: Questo è un articolo di metodologia statistica di significativa importanza teorica e pratica. L'autore, con la sua profonda competenza statistica e la ricca esperienza applicativa, critica sistematicamente i problemi del quadro tradizionale di inferenza statistica e propone un'alternativa più cauta e realistica. Sebbene l'implementazione affronti sfide significative, i suoi principi hanno un valore importante per migliorare la qualità della ricerca scientifica.