2025-11-15T12:01:11.943866

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

Lin, Xu
Cognitive Diagnosis Models (CDMs) provide a powerful statistical and psychometric tool for researchers and practitioners to learn fine-grained diagnostic information about respondents' latent attributes. There has been a growing interest in the use of CDMs for polytomous response data, as more and more items with multiple response options become widely used. Similar to many latent variable models, the identifiability of CDMs is critical for accurate parameter estimation and valid statistical inference. However, the existing identifiability results are primarily focused on binary response models and have not adequately addressed the identifiability of CDMs with polytomous responses. This paper addresses this gap by presenting sufficient and necessary conditions for the identifiability of the widely used DINA model with polytomous responses, with the aim to provide a comprehensive understanding of the identifiability of CDMs with polytomous responses and to inform future research in this field.
academic

Hinreichende und notwendige Bedingungen für die Identifizierbarkeit von DINA-Modellen mit polytomen Antworten

Grundlegende Informationen

  • Papier-ID: 2304.01363
  • Titel: Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses
  • Autoren: Mengqi Lin, Gongjun Xu (University of Michigan)
  • Klassifizierung: stat.ME, math.ST, stat.TH
  • Veröffentlichungsdatum: 22. Februar 2024 (arXiv Version 3)
  • Papier-Link: https://arxiv.org/abs/2304.01363

Zusammenfassung

Kognitive Diagnosemodelle (CDMs) stellen Forschern und Praktikern leistungsstarke statistische und psychometrische Werkzeuge zur Verfügung, um detaillierte Diagnoseinformationen über latente Attribute von Probanden zu erhalten. Mit der weit verbreiteten Anwendung von Multiple-Choice-Aufgaben wird die Anwendung von CDMs auf polytome Antwortdaten zunehmend beachtet. Wie bei vielen Modellen mit latenten Variablen ist die Identifizierbarkeit von CDMs für eine genaue Parameterschätzung und gültige statistische Inferenz von entscheidender Bedeutung. Die vorhandenen Identifizierbarkeitsergebnisse konzentrieren sich jedoch hauptsächlich auf binäre Antwortmodelle und behandeln die Identifizierbarkeitsproblematik von CDMs mit polytomen Antworten nicht ausreichend. Dieser Artikel schließt diese Lücke, indem er hinreichende und notwendige Bedingungen für die Identifizierbarkeit des weit verbreiteten DINA-Modells mit polytomen Antworten vorschlägt.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Bedeutung kognitiver Diagnosemodelle: CDMs als Modelle mit diskreten latenten Variablen werden in Bildungsbewertung, psychiatrischer Diagnose, epidemiologischer Forschung und anderen Bereichen weit verbreitet eingesetzt
  2. Wachsende Nachfrage nach polytomen Antworten: In der Praxis verwenden immer mehr Tests Multiple-Choice-Formate, die über traditionelle binäre Antworten hinausgehen
  3. Kritikalität der Identifizierbarkeit: Die Identifizierbarkeit von Modellparametern ist die Grundlage für zuverlässige Parameterschätzung und gültige statistische Inferenz

Einschränkungen bestehender Methoden

  1. Forschungsschwerpunkt auf binäre Antworten: Die vorhandene Identifizierbarkeitsteorie konzentriert sich hauptsächlich auf binäre DINA-Modelle, wie die Arbeiten von Xu und Zhang (2016) sowie Gu und Xu (2019b)
  2. Unvollständige Theorie für polytome Antworten: Obwohl Culpepper (2019) und Fang et al. (2019) hinreichende Bedingungen für polytome CDMs diskutieren, bleiben notwendige Bedingungen ein offenes Problem
  3. Einschränkungen technischer Werkzeuge: Die vorhandenen T-Matrix-Werkzeuge sind hauptsächlich für binäre Antworten konzipiert und können nicht direkt auf polytome Fälle angewendet werden

Forschungsmotivation

Dieser Artikel zielt darauf ab, einen vollständigen theoretischen Rahmen für die Identifizierbarkeit von DINA-Modellen mit polytomen Antworten zu etablieren und statistische Richtlinien für die Gestaltung kognitiver Diagnosetests in der Praxis bereitzustellen.

Kernbeiträge

  1. Erweiterung des theoretischen Rahmens: Erstmalige Etablierung einer vollständigen Identifizierbarkeitsteorie für DINA-Modelle mit polytomen Antworten, einschließlich hinreichender und notwendiger Bedingungen
  2. Verallgemeinerung des T-Matrix-Werkzeugs: Erweiterung des klassischen T-Matrix-Rahmens auf Modelle mit polytomen Antworten mit entsprechenden verallgemeinerten Versionen für zwei verschiedene Modellstrukturen
  3. Vollständige Analyse zweier Modelle:
    • GPDINA-Modell: Bereitstellung derselben Identifizierbarkeitsbedingungen wie binäres DINA (C1-C3)
    • Sequential DINA-Modell: Etablierung hinreichender Bedingungen basierend auf der ersten Kategorie (S1-S3) und schwächerer notwendiger Bedingungen (S2*, S3*)
  4. Praktischer Leitwert: Bedingungen hängen nur von der Q-Matrix-Struktur ab und bieten überprüfbare praktische Richtlinien für die Testgestaltung

Methodische Details

Aufgabendefinition

Untersuchung der Identifizierbarkeit von Modellparametern in DINA-Modellen mit polytomen Antworten. Gegeben:

  • J polytome Aufgaben, wobei jede Aufgabe j Hj+1 Kategorien (0,1,...,Hj) hat
  • K binäre latente Attribute α = (α1,...,αK)^T
  • Q-Matrix, die die Beziehung zwischen Aufgaben und Attributen beschreibt

Ziel: Bestimmung, wann Modellparameter (θ+, θ-, p) oder (β+, β-, p) eindeutig identifizierbar sind.

Modellarchitektur

GPDINA-Modell

Im GPDINA-Modell müssen verschiedene Nicht-Null-Kategorien derselben Aufgabe denselben Attributsatz erfordern:

  • Ideale Antwort: ξj,α = I(α ⪰ qj)
  • Aufgabenparameter:
    • θ+j,l := P(Rj = l | ξj,α = 1), l ∈ Hj
    • θ-j,l := P(Rj = l | ξj,α = 0), l ∈ Hj
  • Antwortwahrscheinlichkeit:
P(R = r | Q, θ+, θ-, p) = Σα pα ∏j (θ+j,rj)^ξj,α (θ-j,rj)^(1-ξj,α)

Sequential DINA-Modell

Im Sequential DINA-Modell müssen Kategorien sequenziell durchlaufen werden, wobei verschiedene Kategorien unterschiedliche Attribute erfordern können:

  • Ideale Antwort: ξj,l,α = I(α ⪰ qj,l) für jede Kategorie l
  • Aufgabenparameter:
    • β+j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 1)
    • β-j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 0)

Technische Innovationen

Verallgemeinerung der T-Matrix

  1. T-Matrix für GPDINA:
    • Dimension: ∏j(Hj+1) × 2^K
    • Einträge: tr,α(θ+,θ-) = ∏j:rj≠0 P(Rj = rj | Q, θ+, θ-, α)
    • Behält eine ähnliche Struktur wie binäres DINA bei
  2. Ts-Matrix für Sequential DINA:
    • Einträge: tsr,α(β+,β-) = ∏j:rj≠0 ∏l=1^rj (β+j,l)^ξj,l,α (β-j,l)^(1-ξj,l,α)
    • Komplexere Struktur mit Produkten mehrerer Parameter in höheren Kategorien

Identifizierbarkeitsbedingungen

GPDINA-Modellbedingungen (C1-C3):

  • C1: Q-Matrix-Vollständigkeit (enthält Einheitsmatrix IK)
  • C2: Jedes Attribut wird von mindestens 3 Aufgaben benötigt
  • C3: Beliebige zwei Spalten der Q*-Untermatrix sind unterschiedlich

Sequential DINA-Modellbedingungen (S1-S3):

  • S1: Q1-Matrix-Vollständigkeit
  • S2: Jedes Attribut wird von mindestens 3 Aufgaben in der ersten Kategorie benötigt
  • S3: Beliebige zwei Spalten der Q1-Untermatrix sind unterschiedlich

Experimentelle Einrichtung

Datensätze

Das Papier verwendet zwei echte Datensätze zur Validierung der theoretischen Ergebnisse:

  1. PISA 2000 Lesebewertungsdaten:
    • 1.039 englischsprachige Kandidaten, 20 Aufgaben (5 polytom)
    • 5 kognitive Attribute (Informationsbeschaffung, Verständnis, Interpretation, Inhaltsbewertung, Formbewertung)
  2. TIMSS 2007 Mathematikbewertungsdaten für vierte Klasse:
    • 823 Schüler, 12 Aufgaben (teilweise polytom)
    • 8 mathematische kognitive Attribute

Bewertungsmethode

Validierung der praktischen Anwendbarkeit der theoretischen Ergebnisse durch Überprüfung, ob die Q-Matrix die vorgeschlagenen Identifizierbarkeitsbedingungen erfüllt.

Experimentelle Ergebnisse

Hauptergebnisse

PISA-Datenanalyse

Überprüfung gemäß den Bedingungen C1-C3 von Theorem 1:

  • Q-Matrix enthält keine Einheitsmatrix und verletzt die Vollständigkeitsbedingung C1
  • Attributprofile 0, e1, e3, e4, e5 haben identische bedingte Antwortverteilungen
  • Schlussfolgerung: Modellparameter sind nicht identifizierbar

TIMSS-Datenanalyse

Überprüfung des Sequential DINA-Modells gemäß Proposition 3:

  • Q1-Matrix enthält keine Einheitsmatrix und verletzt die Vollständigkeitsbedingung S1
  • Wenn β-j,1 = 0, haben mehrere Attributprofile identische Antwortwahrscheinlichkeiten
  • Schlussfolgerung: Modellparameter sind nicht identifizierbar

Theoretische Validierung

Durch konstruktive Beweise und Gegenbeispiele wurde Folgendes validiert:

  1. Die Bedingungen C1-C3 für das GPDINA-Modell sind sowohl hinreichend als auch notwendig
  2. Die Bedingung S1 für das Sequential DINA-Modell ist notwendig, S2-S3 sind hinreichend
  3. Die Existenz schwächerer notwendiger Bedingungen S2*, S3*

Verwandte Arbeiten

Identifizierbarkeit von CDMs mit binären Antworten

  • Klassische Ergebnisse: Xu und Zhang (2016), Gu und Xu (2019b) etablierten die Identifizierbarkeitsteorie für binäre DINA-Modelle
  • Technische Werkzeuge: T-Matrix-Methode (Liu et al., 2013) wurde zum Standard-Analysewerkzeug

CDMs mit polytomen Antworten

  • Modellentwicklung: GPDM von Chen und de la Torre (2018), Sequential CDM von Ma und de la Torre (2016)
  • Teilweise Ergebnisse: Culpepper (2019), Fang et al. (2019) lieferten hinreichende Bedingungen, aber es fehlte eine Notwendigkeitsanalyse

Theoretischer Beitrag dieses Papiers

Im Vergleich zu bestehenden Arbeiten bietet dieses Papier erstmals einen vollständigen theoretischen Rahmen für die Identifizierbarkeit von DINA-Modellen mit polytomen Antworten.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. GPDINA-Modell: Identifizierbarkeitsbedingungen sind identisch mit dem binären DINA-Modell (C1-C3), obwohl die Parameterstruktur komplexer ist
  2. Sequential DINA-Modell: Die Informationsstruktur der ersten Kategorie spielt eine Schlüsselrolle für die Identifizierbarkeit
  3. Praktische Richtlinien: Bedingungen hängen nur von der Q-Matrix-Struktur ab und ermöglichen eine einfache Validierung in praktischen Anwendungen

Einschränkungen

  1. Annahme bekannter Q-Matrix: In der Praxis muss die Q-Matrix möglicherweise geschätzt und validiert werden
  2. Strikte Identifizierbarkeit: Einige Bedingungen könnten im Rahmen der generischen Identifizierbarkeit zu streng sein
  3. Rechenkomplexität: Die Parameterinteraktionen höherer Ordnung machen die Analyse komplexer

Zukünftige Richtungen

  1. Generische Identifizierbarkeit: Untersuchung lockererer Identifizierbarkeitsbegriffe
  2. Q-Matrix-Identifizierbarkeit: Erweiterung auf Fälle mit unbekannter Q-Matrix
  3. Polytome Attribute: Berücksichtigung von Attributen, die selbst polytom sind
  4. Allgemeinere CDMs: Erweiterung auf allgemeinere Modelle wie G-DINA

Tiefgreifende Bewertung

Stärken

  1. Theoretische Vollständigkeit: Erstmalige Bereitstellung einer vollständigen Theorie mit hinreichenden und notwendigen Bedingungen für DINA-Modelle mit polytomen Antworten
  2. Technische Innovation: Erfolgreiche Verallgemeinerung des T-Matrix-Werkzeugs auf komplexe polytome Fälle
  3. Praktischer Wert: Bereitstellung von Validierungsbedingungen, die direkt auf die Testgestaltung angewendet werden können
  4. Strenge: Detaillierte Beweise, validiert durch konstruktive Beweise und Gegenbeispiele

Schwächen

  1. Begrenzte Anwendungsbereiche: Praktische Datenbeispiele zeigen, dass bestehende Tests häufig die Identifizierbarkeitsbedingungen nicht erfüllen
  2. Strenge der Bedingungen: Einige notwendige Bedingungen (wie S1) könnten zu streng sein und die praktische Anwendung einschränken
  3. Rechenkomplexität: Die Analyse des Sequential DINA-Modells beinhaltet komplexe Parameterinteraktionen

Auswirkungen

  1. Theoretischer Beitrag: Etablierung einer soliden Identifizierbarkeitsteorie-Grundlage für CDMs mit polytomen Antworten
  2. Praktische Richtlinien: Bereitstellung statistischer Richtlinien für die Testgestaltung in Bildungsmessung und psychometrischer Bewertung
  3. Methodologischer Wert: Die Verallgemeinerung der T-Matrix könnte für andere Modelle mit latenten Variablen von Nutzen sein

Anwendungsszenarien

  1. Bildungsbewertung: Gestaltung kognitiver Diagnosetests mit mehrstufiger Bewertung
  2. Psychometrie: Diagnose psychiatrischer Erkrankungen mit mehreren Schweregrad-Kategorien
  3. Theoretische Forschung: Statistische Theorie-Forschung zu Modellen mit latenten Variablen und polytomen Antworten

Literaturverzeichnis

  • Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models. Psychometrika, 81, 625-649.
  • Gu, Y., & Xu, G. (2019). The sufficient and necessary condition for the identifiability and estimability of the DINA model. Psychometrika, 84(2), 468-483.
  • Chen, J., & de la Torre, J. (2018). Introducing the general polytomous diagnosis modeling framework. Frontiers in Psychology, 9, 1474.
  • Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology, 69(3), 253-275.