2025-11-15T12:01:11.943866

Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses

Lin, Xu

Cognitive Diagnosis Models (CDMs) provide a powerful statistical and psychometric tool for researchers and practitioners to learn fine-grained diagnostic information about respondents' latent attributes. There has been a growing interest in the use of CDMs for polytomous response data, as more and more items with multiple response options become widely used. Similar to many latent variable models, the identifiability of CDMs is critical for accurate parameter estimation and valid statistical inference. However, the existing identifiability results are primarily focused on binary response models and have not adequately addressed the identifiability of CDMs with polytomous responses. This paper addresses this gap by presenting sufficient and necessary conditions for the identifiability of the widely used DINA model with polytomous responses, with the aim to provide a comprehensive understanding of the identifiability of CDMs with polytomous responses and to inform future research in this field.

academic

Достаточные и необходимые условия идентифицируемости DINA моделей с политомическими ответами

Основная информация

ID статьи: 2304.01363
Название: Sufficient and Necessary Conditions for the Identifiability of DINA Models with Polytomous Responses
Авторы: Mengqi Lin, Gongjun Xu (Университет Мичигана)
Классификация: stat.ME, math.ST, stat.TH
Дата публикации: 22 февраля 2024 г. (версия 3 на arXiv)
Ссылка на статью: https://arxiv.org/abs/2304.01363

Аннотация

Модели когнитивной диагностики (CDMs) предоставляют исследователям и практикам мощные статистические и психометрические инструменты для получения детальной диагностической информации о скрытых атрибутах испытуемых. С широким распространением многовариантных заданий применение CDMs к данным с политомическими ответами привлекает все большее внимание. Как и многие модели со скрытыми переменными, идентифицируемость CDMs имеет решающее значение для точной оценки параметров и корректного статистического вывода. Однако существующие результаты по идентифицируемости в основном сосредоточены на моделях с бинарными ответами и не полностью решают проблему идентифицируемости CDMs с политомическими ответами. Данная статья заполняет этот пробел, предлагая достаточные и необходимые условия идентифицируемости широко используемой DINA модели с политомическими ответами.

Исследовательский контекст и мотивация

Предпосылки проблемы

Важность моделей когнитивной диагностики: CDMs как модели с дискретными скрытыми переменными широко применяются в образовательной оценке, диагностике психических заболеваний, эпидемиологических исследованиях и других областях
Растущий спрос на политомические ответы: В практике все больше тестов используют многовариантные форматы, выходя за рамки традиционных бинарных ответов
Критическая роль идентифицируемости: Идентифицируемость параметров модели является основой для надежной оценки параметров и корректного статистического вывода

Ограничения существующих подходов

Смещение исследований в сторону бинарных ответов: Существующая теория идентифицируемости в основном ориентирована на бинарные DINA модели, как в работах Xu и Zhang (2016), Gu и Xu (2019b)
Неполнота теории для политомических ответов: Хотя Culpepper (2019) и Fang и др. (2019) обсуждали достаточные условия для политомических CDMs, необходимые условия остаются открытым вопросом
Ограничения технических инструментов: Существующие инструменты T-matrix в основном разработаны для бинарных ответов и не могут быть непосредственно применены к политомическому случаю

Исследовательская мотивация

Данная работа направлена на установление полной теоретической базы идентифицируемости DINA моделей с политомическими ответами, обеспечивая статистическое руководство для проектирования тестов когнитивной диагностики в практических приложениях.

Основные вклады

Расширение теоретической базы: Впервые установлена полная теория идентифицируемости для DINA моделей с политомическими ответами, включая достаточные и необходимые условия
Обобщение инструмента T-matrix: Классическая схема T-matrix расширена на модели с политомическими ответами с разработкой соответствующих обобщенных версий для двух различных структур моделей
Полный анализ двух типов моделей:
- Модель GPDINA: предоставляет условия идентифицируемости, идентичные бинарной DINA (C1-C3)
- Последовательная модель DINA: устанавливает достаточные условия на основе первой категории (S1-S3) и более слабые необходимые условия (S2*, S3*)
Практическая ценность: Условия зависят только от структуры Q-матрицы, обеспечивая проверяемые практические рекомендации для проектирования тестов

Детальное описание методов

Определение задачи

Исследование проблемы идентифицируемости параметров DINA моделей с политомическими ответами. Дано:

J политомических заданий, каждое задание j имеет Hj+1 категорий (0,1,...,Hj)
K бинарных скрытых атрибутов α = (α1,...,αK)^T
Q-матрица, описывающая связь между заданиями и атрибутами

Цель: определить, когда параметры модели (θ+, θ-, p) или (β+, β-, p) могут быть однозначно идентифицированы.

Архитектура моделей

Модель GPDINA

Для модели GPDINA различные ненулевые категории одного задания требуют одного и того же набора атрибутов:

Идеальный ответ: ξj,α = I(α ⪰ qj)
Параметры задания:
- θ+j,l := P(Rj = l | ξj,α = 1), l ∈ Hj
- θ-j,l := P(Rj = l | ξj,α = 0), l ∈ Hj
Вероятность ответа:

P(R = r | Q, θ+, θ-, p) = Σα pα ∏j (θ+j,rj)^ξj,α (θ-j,rj)^(1-ξj,α)

Последовательная модель DINA

В последовательной модели DINA категории должны быть достигнуты последовательно, различные категории могут требовать различные атрибуты:

Идеальный ответ: ξj,l,α = I(α ⪰ qj,l) для каждой категории l
Параметры задания:
- β+j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 1)
- β-j,l := P(Rj ≥ l | Rj ≥ l-1, ξj,l,α = 0)

Технические инновации

Обобщение T-matrix

T-matrix для GPDINA:
- Размерность: ∏j(Hj+1) × 2^K
- Элементы: tr,α(θ+,θ-) = ∏j:rj≠0 P(Rj = rj | Q, θ+, θ-, α)
- Сохраняет структуру, аналогичную бинарной DINA
Ts-matrix для последовательной DINA:
- Элементы: tsr,α(β+,β-) = ∏j:rj≠0 ∏l=1^rj (β+j,l)^ξj,l,α (β-j,l)^(1-ξj,l,α)
- Более сложная структура, высшие категории включают произведения нескольких параметров

Условия идентифицируемости

Условия для модели GPDINA (C1-C3):

C1: Полнота Q-матрицы (содержит единичную матрицу IK)
C2: Каждый атрибут требуется как минимум 3 заданиями
C3: Любые два столбца подматрицы Q* различны

Условия для последовательной модели DINA (S1-S3):

S1: Полнота Q1-матрицы
S2: Каждый атрибут требуется как минимум 3 заданиями для первой категории
S3: Любые два столбца подматрицы Q1 различны

Экспериментальная установка

Наборы данных

Статья использует два реальных набора данных для проверки теоретических результатов:

Данные оценки чтения PISA 2000:
- 1 039 англоязычных испытуемых, 20 заданий (5 политомических)
- 5 когнитивных атрибутов (поиск информации, понимание, интерпретация, оценка содержания, оценка формы)
Данные оценки математики TIMSS 2007 для 4-го класса:
- 823 учащихся, 12 заданий (частично политомических)
- 8 математических когнитивных атрибутов

Методология оценки

Проверка практической применимости теоретических результатов путем проверки того, удовлетворяет ли Q-матрица предложенным условиям идентифицируемости.

Результаты экспериментов

Основные находки

Анализ данных PISA

Проверка условий C1-C3 Теоремы 1:

Q-матрица не содержит единичную матрицу, нарушает условие полноты C1
Профили атрибутов 0, e1, e3, e4, e5 имеют одинаковые условные распределения ответов
Вывод: параметры модели не идентифицируемы

Анализ данных TIMSS

Проверка последовательной модели DINA согласно Предложению 3:

Q1-матрица не содержит единичную матрицу, нарушает условие полноты S1
Когда β-j,1 = 0, несколько профилей атрибутов имеют одинаковые вероятности ответов
Вывод: параметры модели не идентифицируемы

Теоретическая верификация

Через конструктивные доказательства и контрпримеры верифицированы:

Условия C1-C3 для модели GPDINA являются одновременно достаточными и необходимыми
Условие S1 для последовательной модели DINA необходимо, S2-S3 являются достаточными
Существование более слабых необходимых условий S2*, S3*

Связанные работы

Идентифицируемость CDMs с бинарными ответами

Классические результаты: Xu и Zhang (2016), Gu и Xu (2019b) установили теорию идентифицируемости для бинарных DINA моделей
Технические инструменты: Метод T-matrix (Liu и др., 2013) стал стандартным инструментом анализа

CDMs с политомическими ответами

Развитие моделей: GPDM Chen и de la Torre (2018), Sequential CDM Ma и de la Torre (2016)
Частичные результаты: Culpepper (2019), Fang и др. (2019) предоставили достаточные условия, но анализ необходимости отсутствует

Модель GPDINA: Условия идентифицируемости совпадают с бинарной DINA моделью (C1-C3), несмотря на более сложную структуру параметров
Последовательная модель DINA: Информационная структура первой категории играет ключевую роль в идентифицируемости
Практическое руководство: Условия зависят только от структуры Q-матрицы, что облегчает проверку в практических приложениях

Ограничения

Предположение об известной Q-матрице: На практике Q-матрица может требовать оценки и верификации
Строгая идентифицируемость: Некоторые условия могут быть чрезмерно строгими в рамках концепции обобщенной идентифицируемости
Вычислительная сложность: Взаимодействие параметров высших категорий усложняет анализ

Направления будущих исследований

Обобщенная идентифицируемость: Исследование более мягких концепций идентифицируемости
Идентифицируемость Q-матрицы: Расширение на случаи неизвестной Q-матрицы
Политомические атрибуты: Рассмотрение случаев, когда сами атрибуты являются политомическими
Более общие CDMs: Расширение на более общие модели, такие как G-DINA

Глубокая оценка

Преимущества

Теоретическая полнота: Впервые предоставлена полная теория достаточных и необходимых условий для DINA моделей с политомическими ответами
Технические инновации: Успешное обобщение инструмента T-matrix на сложный политомический случай
Практическая ценность: Предоставлены условия проверки, которые могут быть непосредственно применены при проектировании тестов
Строгость: Детальные доказательства, верифицированные конструктивными доказательствами и контрпримерами

Недостатки

Ограничения области применения: Примеры на реальных данных показывают, что существующие тесты часто не удовлетворяют условиям идентифицируемости
Строгость условий: Некоторые необходимые условия (такие как S1) могут быть чрезмерно строгими, ограничивая практическое применение
Вычислительная сложность: Анализ последовательной модели DINA включает сложные взаимодействия параметров

Влияние

Теоретический вклад: Создает прочную основу теории идентифицируемости для CDMs с политомическими ответами
Практическое руководство: Предоставляет статистические рекомендации для проектирования тестов в образовательной оценке и психометрике
Методологическая ценность: Обобщение T-matrix может быть полезно для других моделей со скрытыми переменными

Области применения

Образовательная оценка: Проектирование тестов когнитивной диагностики с многоуровневым оцениванием
Психометрия: Диагностика психических заболеваний с многоуровневыми симптомами
Теоретические исследования: Исследование статистической теории моделей со скрытыми переменными и политомическими ответами

Библиография

Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models. Psychometrika, 81, 625-649.
Gu, Y., & Xu, G. (2019). The sufficient and necessary condition for the identifiability and estimability of the DINA model. Psychometrika, 84(2), 468-483.
Chen, J., & de la Torre, J. (2018). Introducing the general polytomous diagnosis modeling framework. Frontiers in Psychology, 9, 1474.
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology, 69(3), 253-275.