2025-11-15T12:01:11.943866

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

Lin, Xu
Cognitive Diagnosis Models (CDMs) provide a powerful statistical and psychometric tool for researchers and practitioners to learn fine-grained diagnostic information about respondents' latent attributes. There has been a growing interest in the use of CDMs for polytomous response data, as more and more items with multiple response options become widely used. Similar to many latent variable models, the identifiability of CDMs is critical for accurate parameter estimation and valid statistical inference. However, the existing identifiability results are primarily focused on binary response models and have not adequately addressed the identifiability of CDMs with polytomous responses. This paper addresses this gap by presenting sufficient and necessary conditions for the identifiability of the widely used DINA model with polytomous responses, with the aim to provide a comprehensive understanding of the identifiability of CDMs with polytomous responses and to inform future research in this field.
academic

Conditions Suffisantes et Nécessaires pour l'Identifiabilité des Modèles DINA avec Réponses Polytomiques

Informations Fondamentales

  • ID de l'article: 2304.01363
  • Titre: Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses
  • Auteurs: Mengqi Lin, Gongjun Xu (Université du Michigan)
  • Classification: stat.ME, math.ST, stat.TH
  • Date de publication: 22 février 2024 (version 3 arXiv)
  • Lien de l'article: https://arxiv.org/abs/2304.01363

Résumé

Les modèles de diagnostic cognitif (CDMs) fournissent aux chercheurs et aux praticiens des outils statistiques et psychométriques puissants pour obtenir des informations diagnostiques à granularité fine sur les attributs latents des répondants. Avec l'application croissante des items à choix multiples, l'application des CDMs aux données de réponses polytomiques suscite une attention croissante. Comme de nombreux modèles à variables latentes, l'identifiabilité des CDMs est cruciale pour une estimation précise des paramètres et une inférence statistique valide. Cependant, les résultats d'identifiabilité existants se concentrent principalement sur les modèles à réponses binaires et ne traitent pas adéquatement la question de l'identifiabilité des CDMs à réponses polytomiques. Cet article comble cette lacune en proposant des conditions suffisantes et nécessaires pour l'identifiabilité du modèle DINA à réponses polytomiques largement utilisé.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Importance des modèles de diagnostic cognitif: Les CDMs, en tant que modèles à variables latentes discrètes, sont largement appliqués dans l'évaluation éducative, le diagnostic des troubles mentaux, la recherche épidémiologique et autres domaines
  2. Croissance de la demande pour les réponses polytomiques: Dans la pratique, un nombre croissant de tests adoptent des formats à choix multiples, au-delà des réponses binaires traditionnelles
  3. Caractère critique de l'identifiabilité: L'identifiabilité des paramètres du modèle est fondamentale pour une estimation fiable des paramètres et une inférence statistique valide

Limitations des Approches Existantes

  1. Orientation vers les réponses binaires: La théorie d'identifiabilité existante se concentre principalement sur les modèles DINA binaires, comme les travaux de Xu et Zhang (2016), Gu et Xu (2019b)
  2. Théorie incomplète pour les réponses polytomiques: Bien que Culpepper (2019) et Fang et al. (2019) aient discuté des conditions suffisantes pour les CDMs polytomiques, les conditions nécessaires restent une question ouverte
  3. Limitations des outils techniques: Les outils T-matrix existants sont principalement conçus pour les réponses binaires et ne peuvent pas être directement appliqués au cas polytomique

Motivation de la Recherche

Cet article vise à établir un cadre théorique complet pour l'identifiabilité des modèles DINA à réponses polytomiques, fournissant des orientations statistiques pour la conception de tests de diagnostic cognitif en pratique.

Contributions Fondamentales

  1. Extension du cadre théorique: Établissement pour la première fois d'une théorie complète d'identifiabilité pour les modèles DINA à réponses polytomiques, incluant les conditions suffisantes et nécessaires
  2. Généralisation de l'outil T-matrix: Extension du cadre T-matrix classique aux modèles à réponses polytomiques, avec conception de versions généralisées correspondantes pour deux structures de modèles différentes
  3. Analyse complète de deux modèles:
    • Modèle GPDINA: Fourniture des mêmes conditions d'identifiabilité que le DINA binaire (C1-C3)
    • Modèle DINA Séquentiel: Établissement de conditions suffisantes basées sur la première catégorie (S1-S3) et de conditions nécessaires plus faibles (S2*, S3*)
  4. Valeur directrice pratique: Les conditions dépendent uniquement de la structure de la Q-matrix, fournissant des directives pratiques vérifiables pour la conception de tests

Détails Méthodologiques

Définition de la Tâche

Étude de la question de l'identifiabilité des paramètres des modèles DINA à réponses polytomiques. Données:

  • J items polytomiques, chaque item j ayant Hj+1 catégories (0,1,...,Hj)
  • K attributs latents binaires α = (α1,...,αK)^T
  • Q-matrix décrivant la relation entre les items et les attributs

Objectif: Déterminer quand les paramètres du modèle (θ+, θ-, p) ou (β+, β-, p) sont uniquement identifiables.

Architecture des Modèles

Modèle GPDINA

Pour le modèle GPDINA, différentes catégories non nulles du même item nécessitent le même ensemble d'attributs:

  • Réponse idéale: ξj,α = I(α ⪰ qj)
  • Paramètres d'item:
    • θ+j,l := P(Rj = l | ξj,α = 1), l ∈ Hj
    • θ-j,l := P(Rj = l | ξj,α = 0), l ∈ Hj
  • Probabilité de réponse:
P(R = r | Q, θ+, θ-, p) = Σα pα ∏j (θ+j,rj)^ξj,α (θ-j,rj)^(1-ξj,α)

Modèle DINA Séquentiel

Dans le modèle DINA Séquentiel, les catégories doivent être complétées dans l'ordre, les différentes catégories pouvant nécessiter des attributs différents:

  • Réponse idéale: ξj,l,α = I(α ⪰ qj,l) pour chaque catégorie l
  • Paramètres d'item:
    • β+j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 1)
    • β-j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 0)

Points d'Innovation Technique

Généralisation de la T-matrix

  1. T-matrix pour GPDINA:
    • Dimension: ∏j(Hj+1) × 2^K
    • Entrées: tr,α(θ+,θ-) = ∏j:rj≠0 P(Rj = rj | Q, θ+, θ-, α)
    • Maintient une structure similaire au DINA binaire
  2. Ts-matrix pour DINA Séquentiel:
    • Entrées: tsr,α(β+,β-) = ∏j:rj≠0 ∏l=1^rj (β+j,l)^ξj,l,α (β-j,l)^(1-ξj,l,α)
    • Structure plus complexe, les catégories d'ordre supérieur impliquant le produit de plusieurs paramètres

Conditions d'Identifiabilité

Conditions du modèle GPDINA (C1-C3):

  • C1: Complétude de la Q-matrix (incluant la matrice identité IK)
  • C2: Chaque attribut est requis par au moins 3 items
  • C3: Deux colonnes quelconques de la sous-matrice Q* sont différentes

Conditions du modèle DINA Séquentiel (S1-S3):

  • S1: Complétude de la Q1-matrix
  • S2: Chaque attribut est requis par au moins 3 items de la première catégorie
  • S3: Deux colonnes quelconques de la sous-matrice Q1 sont différentes

Configuration Expérimentale

Ensembles de Données

L'article utilise deux ensembles de données réelles pour valider les résultats théoriques:

  1. Données d'évaluation de la lecture PISA 2000:
    • 1 039 candidats anglophones, 20 items (5 polytomiques)
    • 5 attributs cognitifs (récupération d'informations, compréhension, interprétation, évaluation du contenu, évaluation de la forme)
  2. Données d'évaluation mathématique TIMSS 2007 pour la quatrième année:
    • 823 étudiants, 12 items (partiellement polytomiques)
    • 8 attributs cognitifs mathématiques

Méthode d'Évaluation

Vérification de l'applicabilité pratique des résultats théoriques en testant si la Q-matrix satisfait les conditions d'identifiabilité proposées.

Résultats Expérimentaux

Principales Conclusions

Analyse des Données PISA

Vérification selon les conditions C1-C3 du Théorème 1:

  • La Q-matrix ne contient pas la matrice identité, violant la condition de complétude C1
  • Les profils d'attributs 0, e1, e3, e4, e5 ont les mêmes distributions de réponses conditionnelles
  • Conclusion: Les paramètres du modèle ne sont pas identifiables

Analyse des Données TIMSS

Vérification du modèle DINA Séquentiel selon la Proposition 3:

  • La Q1-matrix ne contient pas la matrice identité, violant la condition de complétude S1
  • Lorsque β-j,1 = 0, plusieurs profils d'attributs ont les mêmes probabilités de réponse
  • Conclusion: Les paramètres du modèle ne sont pas identifiables

Vérification Théorique

Vérification par preuve constructive et contre-exemples:

  1. Les conditions C1-C3 du modèle GPDINA sont à la fois suffisantes et nécessaires
  2. La condition S1 du modèle DINA Séquentiel est nécessaire, S2-S3 sont suffisantes
  3. Existence de conditions nécessaires plus faibles S2*, S3*

Travaux Connexes

Identifiabilité des CDMs à Réponses Binaires

  • Résultats classiques: Xu et Zhang (2016), Gu et Xu (2019b) ont établi la théorie d'identifiabilité pour les modèles DINA binaires
  • Outils techniques: La méthode T-matrix (Liu et al., 2013) est devenue l'outil standard d'analyse

CDMs à Réponses Polytomiques

  • Développement des modèles: GPDM de Chen et de la Torre (2018), CDM Séquentiel de Ma et de la Torre (2016)
  • Résultats partiels: Culpepper (2019), Fang et al. (2019) ont fourni des conditions suffisantes, mais manquent d'analyse de nécessité

Contribution Théorique de Cet Article

Par rapport aux travaux existants, cet article fournit pour la première fois un cadre théorique complet pour l'identifiabilité des modèles DINA à réponses polytomiques.

Conclusions et Discussion

Conclusions Principales

  1. Modèle GPDINA: Les conditions d'identifiabilité sont les mêmes que pour le modèle DINA binaire (C1-C3), malgré une structure de paramètres plus complexe
  2. Modèle DINA Séquentiel: La structure informationnelle de la première catégorie joue un rôle clé dans l'identifiabilité
  3. Orientation pratique: Les conditions dépendent uniquement de la structure de la Q-matrix, facilitant la vérification dans les applications pratiques

Limitations

  1. Hypothèse de Q-matrix connue: En pratique, la Q-matrix peut nécessiter une estimation et une vérification
  2. Identifiabilité stricte: Certaines conditions peuvent être trop strictes dans le cadre d'identifiabilité générique
  3. Complexité computationnelle: L'interaction des paramètres de catégories d'ordre supérieur rend l'analyse plus complexe

Directions Futures

  1. Identifiabilité générique: Étude de concepts d'identifiabilité plus souples
  2. Identifiabilité de la Q-matrix: Extension au cas où la Q-matrix est inconnue
  3. Attributs polytomiques: Considération du cas où les attributs eux-mêmes sont polytomiques
  4. CDMs plus généraux: Extension à des modèles plus généraux comme le G-DINA

Évaluation Approfondie

Points Forts

  1. Complétude théorique: Première théorie complète fournissant des conditions suffisantes et nécessaires pour les modèles DINA à réponses polytomiques
  2. Innovation technique: Généralisation réussie de l'outil T-matrix au cas polytomique complexe
  3. Valeur pratique: Fourniture de conditions de vérification directement applicables à la conception de tests
  4. Rigueur: Preuves détaillées, vérification des résultats théoriques par preuve constructive et contre-exemples

Insuffisances

  1. Limitations du champ d'application: Les exemples de données réelles montrent que les tests existants ne satisfont souvent pas aux conditions d'identifiabilité
  2. Sévérité des conditions: Certaines conditions nécessaires (comme S1) peuvent être trop strictes, limitant l'application pratique
  3. Complexité computationnelle: L'analyse du modèle DINA Séquentiel implique des interactions de paramètres complexes

Impact

  1. Contribution théorique: Établissement d'une base théorique solide d'identifiabilité pour les CDMs à réponses polytomiques
  2. Orientation pratique: Fourniture de directives statistiques pour la conception de tests en mesure éducative et évaluation psychologique
  3. Valeur méthodologique: La généralisation de la T-matrix peut avoir des implications pour d'autres modèles à variables latentes

Scénarios d'Application

  1. Évaluation éducative: Conception de tests de diagnostic cognitif avec notation à plusieurs niveaux
  2. Psychométrie: Diagnostic de troubles mentaux avec niveaux de symptômes multiples
  3. Recherche théorique: Étude de la théorie statistique des modèles à variables latentes à réponses polytomiques

Références

  • Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models. Psychometrika, 81, 625-649.
  • Gu, Y., & Xu, G. (2019). The sufficient and necessary condition for the identifiability and estimability of the DINA model. Psychometrika, 84(2), 468-483.
  • Chen, J., & de la Torre, J. (2018). Introducing the general polytomous diagnosis modeling framework. Frontiers in Psychology, 9, 1474.
  • Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology, 69(3), 253-275.