2025-11-15T12:01:11.943866

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

Lin, Xu
Cognitive Diagnosis Models (CDMs) provide a powerful statistical and psychometric tool for researchers and practitioners to learn fine-grained diagnostic information about respondents' latent attributes. There has been a growing interest in the use of CDMs for polytomous response data, as more and more items with multiple response options become widely used. Similar to many latent variable models, the identifiability of CDMs is critical for accurate parameter estimation and valid statistical inference. However, the existing identifiability results are primarily focused on binary response models and have not adequately addressed the identifiability of CDMs with polytomous responses. This paper addresses this gap by presenting sufficient and necessary conditions for the identifiability of the widely used DINA model with polytomous responses, with the aim to provide a comprehensive understanding of the identifiability of CDMs with polytomous responses and to inform future research in this field.
academic

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

基本信息

  • 论文ID: 2304.01363
  • 标题: Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses
  • 作者: Mengqi Lin, Gongjun Xu (University of Michigan)
  • 分类: stat.ME, math.ST, stat.TH
  • 发表时间: 2024年2月22日 (arXiv版本3)
  • 论文链接: https://arxiv.org/abs/2304.01363

摘要

认知诊断模型(CDMs)为研究者和实践者提供了强大的统计和心理测量工具,用于学习被试潜在属性的细粒度诊断信息。随着多选项题目的广泛应用,CDMs在多分类响应数据中的应用日益受到关注。与许多潜变量模型类似,CDMs的可识别性对于准确的参数估计和有效的统计推断至关重要。然而,现有的可识别性结果主要关注二元响应模型,未能充分解决多分类响应CDMs的可识别性问题。本文通过提出广泛使用的多分类响应DINA模型可识别性的充分必要条件来填补这一空白。

研究背景与动机

问题背景

  1. 认知诊断模型的重要性:CDMs作为离散潜变量模型,在教育评估、精神疾病诊断、流行病学研究等领域应用广泛
  2. 多分类响应的需求增长:实践中越来越多的测试采用多选项格式,超越了传统的二元响应
  3. 可识别性的关键性:模型参数的可识别性是进行可靠参数估计和有效统计推断的基础

现有方法局限性

  1. 研究重点偏向二元响应:现有可识别性理论主要针对二元DINA模型,如Xu和Zhang (2016)、Gu和Xu (2019b)的工作
  2. 多分类响应理论不完整:虽然Culpepper (2019)和Fang等(2019)讨论了多分类CDMs的充分条件,但必要条件仍是开放问题
  3. 技术工具限制:现有的T-matrix工具主要为二元响应设计,不能直接应用于多分类情况

研究动机

本文旨在建立多分类响应DINA模型可识别性的完整理论框架,为实践中的认知诊断测试设计提供统计学指导。

核心贡献

  1. 理论框架扩展:首次为多分类响应DINA模型建立了完整的可识别性理论,包括充分和必要条件
  2. T-matrix工具泛化:将经典的T-matrix框架扩展到多分类响应模型,为两种不同的模型结构设计了相应的泛化版本
  3. 两种模型的完整分析
    • GPDINA模型:提供了与二元DINA相同的可识别性条件(C1-C3)
    • Sequential DINA模型:建立了基于第一类别的充分条件(S1-S3)和更弱的必要条件(S2*, S3*)
  4. 实用指导价值:条件仅依赖于Q-matrix结构,为测试设计提供了可验证的实用指南

方法详解

任务定义

研究多分类响应DINA模型的参数可识别性问题。给定:

  • J个多分类题目,每个题目j有Hj+1个类别(0,1,...,Hj)
  • K个二元潜在属性α = (α1,...,αK)^T
  • Q-matrix描述题目与属性的关系

目标:确定模型参数(θ+, θ-, p)或(β+, β-, p)何时可唯一识别。

模型架构

GPDINA模型

对于GPDINA模型,同一题目的不同非零类别需要相同的属性集合:

  • 理想响应:ξj,α = I(α ⪰ qj)
  • 项目参数:
    • θ+j,l := P(Rj = l | ξj,α = 1),l ∈ Hj
    • θ-j,l := P(Rj = l | ξj,α = 0),l ∈ Hj
  • 响应概率:
P(R = r | Q, θ+, θ-, p) = Σα pα ∏j (θ+j,rj)^ξj,α (θ-j,rj)^(1-ξj,α)

Sequential DINA模型

Sequential DINA模型中,类别必须按顺序完成,不同类别可能需要不同属性:

  • 理想响应:ξj,l,α = I(α ⪰ qj,l)对每个类别l
  • 项目参数:
    • β+j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 1)
    • β-j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 0)

技术创新点

T-matrix的泛化

  1. GPDINA的T-matrix
    • 维度:∏j(Hj+1) × 2^K
    • 条目:tr,α(θ+,θ-) = ∏j:rj≠0 P(Rj = rj | Q, θ+, θ-, α)
    • 保持了与二元DINA类似的结构
  2. Sequential DINA的Ts-matrix
    • 条目:tsr,α(β+,β-) = ∏j:rj≠0 ∏l=1^rj (β+j,l)^ξj,l,α (β-j,l)^(1-ξj,l,α)
    • 结构更复杂,高阶类别涉及多个参数的乘积

可识别性条件

GPDINA模型条件(C1-C3)

  • C1:Q-matrix完备性(包含单位矩阵IK)
  • C2:每个属性至少被3个题目需要
  • C3:Q*子矩阵的任意两列不同

Sequential DINA模型条件(S1-S3)

  • S1:Q1-matrix完备性
  • S2:每个属性至少被3个题目的第一类别需要
  • S3:Q1子矩阵的任意两列不同

实验设置

数据集

论文使用两个真实数据集验证理论结果:

  1. PISA 2000阅读评估数据
    • 1,039名英语考生,20个题目(5个多分类)
    • 5个认知属性(检索信息、理解、解释、评估内容、评估形式)
  2. TIMSS 2007四年级数学评估数据
    • 823名学生,12个题目(部分多分类)
    • 8个数学认知属性

评价方法

通过检验Q-matrix是否满足提出的可识别性条件来验证理论结果的实用性。

实验结果

主要发现

PISA数据分析

根据Theorem 1的条件C1-C3检验:

  • Q-matrix不包含单位矩阵,违反完备性条件C1
  • 属性profiles 0, e1, e3, e4, e5具有相同的条件响应分布
  • 结论:模型参数不可识别

TIMSS数据分析

根据Proposition 3检验Sequential DINA模型:

  • Q1-matrix不包含单位矩阵,违反完备性条件S1
  • 当β-j,1 = 0时,多个属性profile具有相同的响应概率
  • 结论:模型参数不可识别

理论验证

通过构造性证明和反例验证了:

  1. GPDINA模型的条件C1-C3既充分又必要
  2. Sequential DINA模型的条件S1必要,S2-S3为充分条件
  3. 更弱的必要条件S2*, S3*的存在

相关工作

二元响应CDMs可识别性

  • 经典结果:Xu和Zhang (2016)、Gu和Xu (2019b)建立了二元DINA模型的可识别性理论
  • 技术工具:T-matrix方法(Liu等, 2013)成为分析工具的标准

多分类响应CDMs

  • 模型发展:Chen和de la Torre (2018)的GPDM、Ma和de la Torre (2016)的Sequential CDM
  • 部分结果:Culpepper (2019)、Fang等(2019)提供了充分条件,但缺乏必要性分析

本文的理论贡献

相比现有工作,本文首次提供了多分类响应DINA模型可识别性的完整理论框架。

结论与讨论

主要结论

  1. GPDINA模型:可识别性条件与二元DINA模型相同(C1-C3),尽管参数结构更复杂
  2. Sequential DINA模型:第一类别的信息结构对可识别性起关键作用
  3. 实用指导:条件仅依赖Q-matrix结构,便于实际应用中验证

局限性

  1. 假设Q-matrix已知:实际中Q-matrix可能需要估计和验证
  2. 严格可识别性:某些条件在泛型可识别性框架下可能过于严格
  3. 计算复杂性:高阶类别的参数交互使分析更加复杂

未来方向

  1. 泛型可识别性:研究更宽松的可识别性概念
  2. Q-matrix可识别性:扩展到Q-matrix未知的情况
  3. 多分类属性:考虑属性本身也为多分类的情况
  4. 更一般的CDMs:扩展到G-DINA等更一般模型

深度评价

优点

  1. 理论完整性:首次为多分类响应DINA模型提供了充分必要条件的完整理论
  2. 技术创新:成功将T-matrix工具泛化到复杂的多分类情况
  3. 实用价值:提供了可直接应用于测试设计的验证条件
  4. 严谨性:证明详细,通过构造性证明和反例验证了理论结果

不足

  1. 应用范围限制:实际数据例子显示现有测试往往不满足可识别性条件
  2. 条件严格性:某些必要条件(如S1)可能过于严格,限制了实际应用
  3. 计算复杂性:Sequential DINA模型的分析涉及复杂的参数交互

影响力

  1. 理论贡献:为多分类响应CDMs奠定了坚实的可识别性理论基础
  2. 实践指导:为教育测量和心理测评中的测试设计提供了统计学指导
  3. 方法论价值:T-matrix的泛化可能对其他潜变量模型有借鉴意义

适用场景

  1. 教育评估:多级评分的认知诊断测试设计
  2. 心理测量:多症状等级的精神疾病诊断
  3. 理论研究:多分类响应潜变量模型的统计理论研究

参考文献

  • Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models. Psychometrika, 81, 625-649.
  • Gu, Y., & Xu, G. (2019). The sufficient and necessary condition for the identifiability and estimability of the DINA model. Psychometrika, 84(2), 468-483.
  • Chen, J., & de la Torre, J. (2018). Introducing the general polytomous diagnosis modeling framework. Frontiers in Psychology, 9, 1474.
  • Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology, 69(3), 253-275.