2025-11-15T12:01:11.943866

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

Lin, Xu

Cognitive Diagnosis Models (CDMs) provide a powerful statistical and psychometric tool for researchers and practitioners to learn fine-grained diagnostic information about respondents' latent attributes. There has been a growing interest in the use of CDMs for polytomous response data, as more and more items with multiple response options become widely used. Similar to many latent variable models, the identifiability of CDMs is critical for accurate parameter estimation and valid statistical inference. However, the existing identifiability results are primarily focused on binary response models and have not adequately addressed the identifiability of CDMs with polytomous responses. This paper addresses this gap by presenting sufficient and necessary conditions for the identifiability of the widely used DINA model with polytomous responses, with the aim to provide a comprehensive understanding of the identifiability of CDMs with polytomous responses and to inform future research in this field.

academic

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

基本信息

论文ID: 2304.01363
标题: Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses
作者: Mengqi Lin, Gongjun Xu (University of Michigan)
分类: stat.ME, math.ST, stat.TH
发表时间: 2024年2月22日 (arXiv版本3)
论文链接: https://arxiv.org/abs/2304.01363

认知诊断模型的重要性：CDMs作为离散潜变量模型，在教育评估、精神疾病诊断、流行病学研究等领域应用广泛
多分类响应的需求增长：实践中越来越多的测试采用多选项格式，超越了传统的二元响应
可识别性的关键性：模型参数的可识别性是进行可靠参数估计和有效统计推断的基础

现有方法局限性

研究重点偏向二元响应：现有可识别性理论主要针对二元DINA模型，如Xu和Zhang (2016)、Gu和Xu (2019b)的工作
多分类响应理论不完整：虽然Culpepper (2019)和Fang等(2019)讨论了多分类CDMs的充分条件，但必要条件仍是开放问题
技术工具限制：现有的T-matrix工具主要为二元响应设计，不能直接应用于多分类情况

研究动机

本文旨在建立多分类响应DINA模型可识别性的完整理论框架，为实践中的认知诊断测试设计提供统计学指导。

核心贡献

理论框架扩展：首次为多分类响应DINA模型建立了完整的可识别性理论，包括充分和必要条件
T-matrix工具泛化：将经典的T-matrix框架扩展到多分类响应模型，为两种不同的模型结构设计了相应的泛化版本
两种模型的完整分析：
- GPDINA模型：提供了与二元DINA相同的可识别性条件(C1-C3)
- Sequential DINA模型：建立了基于第一类别的充分条件(S1-S3)和更弱的必要条件(S2*, S3*)
实用指导价值：条件仅依赖于Q-matrix结构，为测试设计提供了可验证的实用指南

方法详解

任务定义

研究多分类响应DINA模型的参数可识别性问题。给定：

J个多分类题目，每个题目j有Hj+1个类别(0,1,...,Hj)
K个二元潜在属性α = (α1,...,αK)^T
Q-matrix描述题目与属性的关系

目标：确定模型参数(θ+, θ-, p)或(β+, β-, p)何时可唯一识别。

模型架构

GPDINA模型

对于GPDINA模型，同一题目的不同非零类别需要相同的属性集合：

理想响应：ξj,α = I(α ⪰ qj)
项目参数：
- θ+j,l := P(Rj = l | ξj,α = 1)，l ∈ Hj
- θ-j,l := P(Rj = l | ξj,α = 0)，l ∈ Hj
响应概率：

P(R = r | Q, θ+, θ-, p) = Σα pα ∏j (θ+j,rj)^ξj,α (θ-j,rj)^(1-ξj,α)

Sequential DINA模型

Sequential DINA模型中，类别必须按顺序完成，不同类别可能需要不同属性：

理想响应：ξj,l,α = I(α ⪰ qj,l)对每个类别l
项目参数：
- β+j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 1)
- β-j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 0)

技术创新点

T-matrix的泛化

GPDINA的T-matrix：
- 维度：∏j(Hj+1) × 2^K
- 条目：tr,α(θ+,θ-) = ∏j:rj≠0 P(Rj = rj | Q, θ+, θ-, α)
- 保持了与二元DINA类似的结构
Sequential DINA的Ts-matrix：
- 条目：tsr,α(β+,β-) = ∏j:rj≠0 ∏l=1^rj (β+j,l)^ξj,l,α (β-j,l)^(1-ξj,l,α)
- 结构更复杂，高阶类别涉及多个参数的乘积

可识别性条件

GPDINA模型条件(C1-C3)：

C1：Q-matrix完备性(包含单位矩阵IK)
C2：每个属性至少被3个题目需要
C3：Q*子矩阵的任意两列不同

Sequential DINA模型条件(S1-S3)：

S1：Q1-matrix完备性
S2：每个属性至少被3个题目的第一类别需要
S3：Q1子矩阵的任意两列不同

实验设置

数据集

论文使用两个真实数据集验证理论结果：

PISA 2000阅读评估数据：
- 1,039名英语考生，20个题目(5个多分类)
- 5个认知属性(检索信息、理解、解释、评估内容、评估形式)
TIMSS 2007四年级数学评估数据：
- 823名学生，12个题目(部分多分类)
- 8个数学认知属性

Q-matrix不包含单位矩阵，违反完备性条件C1
属性profiles 0, e1, e3, e4, e5具有相同的条件响应分布
结论：模型参数不可识别

TIMSS数据分析

根据Proposition 3检验Sequential DINA模型：

Q1-matrix不包含单位矩阵，违反完备性条件S1
当β-j,1 = 0时，多个属性profile具有相同的响应概率
结论：模型参数不可识别

理论验证

通过构造性证明和反例验证了：

GPDINA模型的条件C1-C3既充分又必要
Sequential DINA模型的条件S1必要，S2-S3为充分条件
更弱的必要条件S2*, S3*的存在

结论与讨论

主要结论

GPDINA模型：可识别性条件与二元DINA模型相同(C1-C3)，尽管参数结构更复杂
Sequential DINA模型：第一类别的信息结构对可识别性起关键作用
实用指导：条件仅依赖Q-matrix结构，便于实际应用中验证

局限性

假设Q-matrix已知：实际中Q-matrix可能需要估计和验证
严格可识别性：某些条件在泛型可识别性框架下可能过于严格
计算复杂性：高阶类别的参数交互使分析更加复杂

未来方向

泛型可识别性：研究更宽松的可识别性概念
Q-matrix可识别性：扩展到Q-matrix未知的情况
多分类属性：考虑属性本身也为多分类的情况
更一般的CDMs：扩展到G-DINA等更一般模型

深度评价

优点

理论完整性：首次为多分类响应DINA模型提供了充分必要条件的完整理论
技术创新：成功将T-matrix工具泛化到复杂的多分类情况
实用价值：提供了可直接应用于测试设计的验证条件
严谨性：证明详细，通过构造性证明和反例验证了理论结果

不足

应用范围限制：实际数据例子显示现有测试往往不满足可识别性条件
条件严格性：某些必要条件(如S1)可能过于严格，限制了实际应用
计算复杂性：Sequential DINA模型的分析涉及复杂的参数交互

影响力

理论贡献：为多分类响应CDMs奠定了坚实的可识别性理论基础
实践指导：为教育测量和心理测评中的测试设计提供了统计学指导
方法论价值：T-matrix的泛化可能对其他潜变量模型有借鉴意义

适用场景

教育评估：多级评分的认知诊断测试设计
心理测量：多症状等级的精神疾病诊断
理论研究：多分类响应潜变量模型的统计理论研究

参考文献

Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models. Psychometrika, 81, 625-649.
Gu, Y., & Xu, G. (2019). The sufficient and necessary condition for the identifiability and estimability of the DINA model. Psychometrika, 84(2), 468-483.
Chen, J., & de la Torre, J. (2018). Introducing the general polytomous diagnosis modeling framework. Frontiers in Psychology, 9, 1474.
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology, 69(3), 253-275.

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

基本信息

摘要

研究背景与动机

问题背景

现有方法局限性

研究动机

核心贡献

方法详解

任务定义

模型架构

GPDINA模型

Sequential DINA模型

技术创新点

T-matrix的泛化

可识别性条件

实验设置

数据集

评价方法

实验结果

主要发现

PISA数据分析

TIMSS数据分析

理论验证

相关工作

二元响应CDMs可识别性

多分类响应CDMs

本文的理论贡献

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献