We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.
- ID статьи: 2508.14755
- Название: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
- Автор: Чжун Чжоу Чэнь (Университет Центральной Флориды)
- Классификация: physics.ed-ph cs.AI
- Дата публикации: 2024
- Ссылка на статью: https://arxiv.org/abs/2508.14755
В данной работе предлагается метод использования сервисов генеративного ИИ (таких как ChatGPT) посредством цепочки подсказок и использования инструментов для создания большого количества изоморфных задач по физике. Метод позволяет точно контролировать структурные вариации (такие как числовые значения и пространственные отношения), одновременно поддерживая разнообразные контекстные изменения в содержании задач. Благодаря использованию интерпретатора кода Python метод поддерживает автоматическую проверку решений и простое создание диаграмм, решая ключевые ограничения существующих методов на основе LLM. Исследование создало два примера библиотек изоморфных задач и провело сравнение с двумя более простыми методами на основе подсказок. Результаты показывают, что выходные данные, полученные с помощью цепочки подсказок, имеют значительно более высокое качество и большую согласованность.
Данное исследование направлено на решение проблемы создания изоморфных задач по физике в образовательной сфере. Изоморфные задачи — это задачи, которые оценивают одни и те же фундаментальные концепции и принципы, но отличаются поверхностными характеристиками. Такие задачи имеют важное значение для персонализированного оценивания, повторного тестирования и целенаправленной практики.
- Растущие образовательные потребности: С развитием персонализированного обучения и адаптивного тестирования возникает необходимость в большом количестве высококачественных изоморфных задач
- Ограничения традиционных методов: Методы на основе шаблонов требуют высоких затрат на разработку и специализированного программирования
- Контроль качества оценивания: Необходимо точно контролировать сложность и структуру задач, сохраняя при этом их новизну
- Ранние методы AQG/AIG: Главным образом основаны на жестко закодированных шаблонах, требуют много времени на разработку и специализированного программирования
- Прямое применение LLM: Сложно контролировать сложность и когнитивную сложность, часто сводится к задачам на припоминание фактов
- Проблемы с численными расчетами: LLM склонны к галлюцинациям при работе с численными задачами, часто дают неправильные ответы
- Сложность создания диаграмм: Существующие LLM имеют ограниченные возможности в точном контроле визуальных элементов
- Предложен метод создания изоморфных задач на основе цепочки подсказок и использования инструментов, обеспечивающий точный контроль структурных вариаций и разнообразие контекста
- Разработан семиэтапный процесс создания, систематически разделяющий структурно-зависимые и структурно-независимые вариации
- Реализована автоматическая проверка решений и создание диаграмм посредством интерпретатора кода Python, решая ключевые ограничения LLM
- Построены две примерные библиотеки задач с систематическим сравнением, доказывающим эффективность метода
- Продемонстрирована возможность использования сервисов GenAI для проверки качества, установлена полная замкнутая цепь создания-проверки
Входные данные: Шаблонная задача или тип задачи
Выходные данные: Большое количество изоморфных задач по физике, включая содержание задачи, решение и (опционально) диаграммы
Ограничения:
- Сохранение одинаковой когнитивной сложности и физических концепций
- Точный контроль структурных вариаций (числовые значения, пространственные отношения и т.д.)
- Поддержка разнообразных контекстных изменений
- Идентификация шаблонной задачи: Определение шаблонной задачи или типа задачи
- Декомпозиция компонентов: Выявление различных составных частей задачи
- Определение вариаций: Определение структурных и контекстных вариаций и их ограничений
- Проектирование цепочки подсказок: Разработка цепочки подсказок для создания вариаций компонентов
- Оптимизация выполнения: Выполнение цепочки подсказок и итеративное улучшение
- Комбинирование выходных данных: Объединение компонентов в полные задачи и форматирование
- Проверка качества: Использование GenAI для проверки корректности созданных результатов
Структурные вариации (Structural Variations):
- Основные структурные изменения, связанные с конструкцией
- Должны находиться в точно определенных пользователем пределах
- Включают числовые значения, пространственное расположение, количество объектов и т.д.
- Реализуются посредством комбинации создания LLM и инструмента интерпретатора Python
Контекстные вариации (Contextual Variations):
- Изменения поверхностных характеристик задачи
- Менее ограниченные, но требующие творческого подхода LLM
- Учитывают уровень чтения студентов, языковую компетентность, культурный контекст и т.д.
- Реализуются главным образом посредством генеративных возможностей LLM
- Технология цепочки подсказок: Разложение сложной задачи на несколько подзадач, выполняемых посредством последовательных подсказок, преодоление ограничений одиночной подсказки
- Интеграция использования инструментов: Использование интерпретатора кода Python для численных расчетов, проверки ограничений и создания диаграмм
- Разделение типов вариаций: Систематическое разделение и независимая обработка структурных и контекстных вариаций
- Передача данных в табличном формате: Использование табличного формата для хранения и передачи информации в цепочке подсказок, повышение надежности
- Шаблон: Объект, толкаемый или тянущийся наклонной силой по шероховатой поверхности, движется равномерно
- Структурные вариации: Направление и характер силы, числовые значения переменных, выбор неизвестной переменной
- Ограничения: Угол 10-60 градусов, горизонтальная составляющая силы уравновешивает силу кинетического трения
- Цепочка подсказок: 5 подсказок, создание контекста → числовые значения → содержание задачи → решение → форматирование
- Шаблон: Сравнение траекторий параболического движения, одинаковая начальная точка, разные высоты и дальности
- Структурные вариации: Соотношение ответов, параметры траектории, проектирование отвлекающих вариантов
- Ограничения: Отсутствие визуального перекрытия, определенность соотношений, достаточное визуальное различие
- Цепочка подсказок: 9 подсказок, обработка более сложных структурных вариаций и создание диаграмм
- Метод одиночной подсказки: Объединение цепочки подсказок в одну или две подсказки
- Метод простой подсказки: Упрощенная подсказка на основе одного примера (только для библиотеки задач 1)
- Качество выходных данных: Полнота задачи, точность числовых значений, согласованность форматирования
- Контроль структуры: Степень соблюдения ограничений
- Разнообразие контекста: Степень изменения сценариев и описаний
- Корректность ответов: Точность, проверенная посредством GenAI
- Успешное создание: 20 изоморфных задач (10 GPT-4o + 10 Gemini Pro 2.5)
- Контроль качества: Каждая задача имеет уникальный фоновый сюжет, надлежащие случайные числовые значения, правильный ответ
- Примерная задача: Задача о рабочем, толкающем ящик, с полными физическими параметрами и решением
- Систематическое создание: 26 вариаций (13 возможных соотношений × 2 основных отвлекающих варианта)
- Качество диаграмм: Автоматически созданные диаграммы параболических траекторий с помощью Python, четкие и различимые
- Полнота задачи: Каждая задача включает описание ситуации, диаграмму и четыре варианта ответов
Библиотека задач 1:
- Недостатки одиночной подсказки: Полностью игнорирует инструкции по созданию числовых значений, все 10 версий не содержат числовых значений
- Преимущества цепочки подсказок: Точное соблюдение всех ограничений, создание полных задач
Библиотека задач 2:
- Проблемы одиночной подсказки: Траектории появляются под землей, невидимы и т.д.
- Недостаточное количество создаваемых элементов: Только 7 сценариев и 13 комбинаций вместо ожидаемых 10 сценариев и 26 комбинаций
- Точность ответов: Ответы, созданные простой подсказкой, в большинстве случаев неправильны (например, 140 кг вместо правильного ответа 148,6 кг)
- Использование инструментов: Простая подсказка не активирует инструмент Python, напрямую галлюцинирует ответы
- Качество текста: Текст, созданный простой подсказкой, явно короче, качество снижено
- Библиотека задач 1: GenAI выявил и исправил 6 ошибок в выводе формул (из 20 задач)
- Библиотека задач 2: Выявлены 3 задачи, в которых отвлекающие варианты эквивалентны правильному ответу
- Проверка студентами: Библиотека задач использовалась на промежуточном экзамене, студенты не сообщили об дополнительных ошибках
- Ранние методы: На основе жестко закодированных шаблонов, высокие затраты на разработку
- Применение LLM: Dijkstra и др. обучили GPT-3 создавать вопросы с выбором ответа; Chan и др. использовали GPT-3.5/4 для создания задач STEM
- Изоморфные задачи: Arendasy и Sommer создавали задачи по алгебре с помощью шаблонов; Norberg и др. использовали GPT-4 для переписывания объяснений математических задач
- Традиционный AIG: Точный контроль, но недостаток творчества
- Прямое применение LLM: Сильная творческая способность, но сложность контроля
- Метод данной работы: Объединение преимуществ обоих подходов, достижение баланса между точным контролем и творчеством
- Цепочка подсказок значительно превосходит одиночную подсказку: Выделяется качеством согласованности и соблюдением ограничений
- Использование инструментов критически важно: Интерпретатор Python решает ключевые проблемы численных расчетов и создания диаграмм
- Проверка качества GenAI эффективна: Способна выявлять и исправлять ошибки в процессе создания
- Метод обладает масштабируемостью: Может создавать практически неограниченное количество изоморфных задач
- Однообразная оценка качества: Оценка только автором, отсутствие систематической проверки качества
- Неизвестные психометрические характеристики: Отсутствие данных тестирования студентов для оценки психометрических характеристик изоморфных задач
- Ограниченный контроль контекста: Основное внимание уделяется структурным вариациям, меньше контроля над контекстными вариациями
- Ограничение сложности диаграмм: Поддерживает только создание простых диаграмм
- Систематическая оценка качества: Проведение более полной проверки качества и тестирования студентами
- Тонкий контроль контекста: Исследование контроля различных контекстных вариаций, таких как стиль письма
- Создание сложных диаграмм: Расширение на более сложные типы диаграмм
- Автоматизированное проектирование цепочки подсказок: Использование GenAI для помощи в проектировании цепочки подсказок
- Система создания в реальном времени: Реализация мгновенного создания задач для полностью персонализированного оценивания
- Высокая инновационность метода: Впервые систематически объединены цепочка подсказок и использование инструментов для создания изоморфных задач
- Высокая практическая ценность: Предоставляет обычным учителям доступный и эффективный метод создания задач
- Совершенное проектирование экспериментов: Две библиотеки задач различных типов подтверждают универсальность метода
- Подробная техническая реализация: Предоставляет полные цепочки подсказок и детали реализации, обеспечивая воспроизводимость
- Полный контроль качества: Установлена полная замкнутая цепь создания-проверки
- Ограниченный диапазон оценки: Проверка только на двух типах задач по физике
- Относительно небольшой масштаб: Количество созданных задач относительно ограничено (20+26)
- Отсутствие анализа затрат: Отсутствует сравнение затрат и выгод с традиционными методами
- Недостаточное исследование пользователей: Отсутствует исследование опыта использования учителями и студентами
- Вклад в область: Предоставляет новую парадигму создания задач для области образовательных технологий
- Практическая ценность: Может быть непосредственно применена к персонализированному обучению и адаптивному тестированию
- Демонстрация технологии: Демонстрирует возможность точного контроля LLM в образовательных приложениях
- Расширяемость метода: Технологическая основа может быть расширена на другие дисциплины и типы задач
- Платформы персонализированного обучения: Предоставление студентам неограниченных практических задач
- Системы адаптивного тестирования: Создание альтернативных задач эквивалентной сложности
- Инструмент помощи учителю: Помощь учителям в быстром создании высококачественных банков задач
- Платформы онлайн-образования: Поддержка крупномасштабного персонализированного создания контента
Статья цитирует 14 связанных работ, охватывающих ключевые области автоматического создания задач, создания изоморфных задач, применения LLM и других важных работ, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная прикладная исследовательская работа, внесшая важный вклад в область пересечения образовательных технологий и приложений ИИ. Метод является новаторским и практичным, проектирование экспериментов разумно, результаты убедительны. Хотя существует пространство для улучшения в масштабе оценки и охвате дисциплин, работа указывает важное направление развития в этой области.