2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen

We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.

academic

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

基本信息

论文ID: 2508.14755
标题: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
作者: Zhongzhou Chen (University of Central Florida)
分类: physics.ed-ph cs.AI
发表时间: 2024年
论文链接: https://arxiv.org/abs/2508.14755

摘要

本文提出了一种利用生成式AI服务（如ChatGPT）通过提示链和工具使用来生成大量同构物理问题的方法。该方法能够精确控制结构变化（如数值和空间关系），同时支持问题本体的多样化上下文变化。通过利用Python代码解释器，该方法支持自动解决方案验证和简单图表生成，解决了现有基于LLM方法的关键局限性。研究生成了两个示例同构问题库，并与两种更简单的基于提示的方法进行了比较。结果表明，提示链产生的输出质量明显更高且更一致。

研究背景与动机

研究问题

本研究旨在解决教育领域中同构物理问题生成的挑战。同构问题是指评估相同基础概念和原理但在表面特征上有所不同的问题，这类问题在个性化评估、重复测试和刻意练习中具有重要价值。

问题重要性

教育需求增长：随着个性化学习和自适应测试的发展，需要大量高质量的同构问题
传统方法局限：基于模板的方法开发成本高、需要专门编程
评估质量控制：需要在保持创新性的同时精确控制问题难度和结构

现有方法局限性

早期AQG/AIG方法：主要依赖硬编码模板，开发耗时且需要领域特定编程
LLM直接应用：难以控制难度和认知复杂性，经常默认为事实回忆问题
数值计算问题：LLM在数值计算问题上容易产生幻觉，答案错误
图表生成困难：现有LLM在精确控制视觉元素方面能力有限

核心贡献

提出了基于提示链和工具使用的同构问题生成方法，实现了对结构变化的精确控制和上下文的多样化
开发了七步骤生成流程，系统地分离了构造相关变化和构造无关变化
实现了自动解决方案验证和图表生成，通过Python代码解释器解决了LLM的关键局限性
构建了两个示例问题库并进行了系统性比较，证明了方法的有效性
展示了GenAI服务用于质量验证的可行性，建立了完整的生成-验证闭环

方法详解

任务定义

输入：模板问题或问题类型输出：大量同构物理问题，包含问题本体、解决方案和（可选）图表 约束条件：

保持相同的认知难度和物理概念
精确控制结构变化（数值、空间关系等）
支持多样化的上下文变化

核心方法架构

七步骤生成流程

识别模板问题：确定模板问题或问题类型
组件分解：识别问题的各个组成部分
变化定义：定义结构变化和上下文变化及其约束
提示链设计：设计生成各组件变化的提示链
执行优化：执行提示链并迭代改进
组合输出：将组件组合成完整问题并格式化
质量验证：使用GenAI验证生成结果的正确性

关键概念区分

结构变化（Structural Variations）：

构造相关的核心结构变化
必须在精确的用户定义范围内
包括数值、空间排列、对象数量等
通过LLM生成和Python解释器工具结合实现

上下文变化（Contextual Variations）：

问题表面特征的变化
约束较少但需要LLM的创造性
考虑学生阅读水平、语言熟练度、文化背景等
主要通过LLM的生成能力实现

技术创新点

提示链技术：将复杂任务分解为多个子任务，通过链式提示执行，克服单一提示的局限性
工具使用整合：利用Python代码解释器进行数值计算、约束检查和图表生成
变化类型分离：系统性地区分和独立处理结构变化与上下文变化
数据表格传递：在提示链中使用表格格式存储和传递信息，提高可靠性

实验设置

问题库设计

问题库1：数值计算问题

模板：物体在粗糙表面上被倾斜力推拉，匀速运动
结构变化：力的方向和性质、变量数值、未知变量选择
约束条件：角度10-60度、力的水平分量平衡动摩擦力
提示链：5个提示，生成上下文→数值→问题本体→解决方案→格式化

问题库2：概念选择题（含图表）

模板：抛物运动轨迹比较，相同起点不同高度和射程
结构变化：答案关系、轨迹参数、干扰项设计
约束条件：无视觉重叠、关系确定性、充分视觉差异
提示链：9个提示，处理更复杂的结构变化和图表生成

对比方法

单一提示方法：将提示链合并为一个或两个提示
简单提示方法：基于单个示例的简化提示（仅针对问题库1）

评价指标

输出质量：问题完整性、数值准确性、格式一致性
结构控制：约束条件遵守程度
上下文多样性：场景和描述的变化程度
答案正确性：通过GenAI验证的准确率

实验结果

主要结果

问题库1生成效果

成功生成：20个同构问题（10个GPT-4o + 10个Gemini Pro 2.5）
质量控制：每个问题具有独特背景故事、适当随机数值、正确答案
示例问题：工人推木箱问题，包含完整的物理参数和解决方案

问题库2生成效果

系统生成：26个变化（13种可能关系 × 2个主要干扰项）
图表质量：Python自动生成的抛物线轨迹图，清晰可辨
问题完整性：每个问题包含情境描述、图表和四个选择项

对比实验结果

单一提示 vs 提示链

问题库1：

单一提示缺陷：完全忽略数值生成指令，所有10个版本都没有数值
提示链优势：精确遵循所有约束条件，生成完整问题

问题库2：

单一提示问题：轨迹出现地下、不可见等错误
生成数量不足：仅7个场景和13个组合，而非预期的10个场景和26个组合

简单提示 vs 提示链（问题库1）

答案准确性：简单提示生成的答案多数错误（如140 kg vs 正确答案148.6 kg）
工具使用：简单提示未启动Python工具，直接幻觉答案
文本质量：简单提示生成的文本明显较短，质量下降

质量验证结果

问题库1：GenAI识别并纠正了6个公式推导错误（20个问题中）
问题库2：识别了3个干扰项与正确答案等价的问题
学生验证：问题库已用于期中考试，学生未报告额外错误

相关工作

自动问题生成（AQG）发展

早期方法：基于硬编码模板，开发成本高
LLM应用：Dijkstra等人训练GPT-3生成选择题；Chan等人使用GPT-3.5/4生成STEM问题
同构问题：Arendasy和Sommer通过模板生成代数问题；Norberg等人使用GPT-4重写数学问题解释

技术方法对比

传统AIG：精确控制但缺乏创造性
直接LLM应用：创造性强但控制困难
本文方法：结合两者优势，实现精确控制与创造性的平衡

结论与讨论

主要结论

提示链显著优于单一提示：在质量一致性和约束遵守方面表现突出
工具使用至关重要：Python解释器解决了数值计算和图表生成的关键问题
GenAI质量验证有效：能够识别并纠正生成过程中的错误
方法具有可扩展性：可生成近乎无限数量的同构问题

局限性

质量评估单一：仅由作者评估，缺乏系统性质量审查
心理测量特性未知：缺乏学生测试数据评估同构问题的心理测量特性
上下文控制有限：主要关注结构变化，对上下文变化控制较少
图表复杂度限制：仅支持简单图表生成

未来方向

系统质量评估：进行更全面的质量审查和学生测试
上下文精细控制：探索不同写作风格等上下文变化的控制
复杂图表生成：扩展到更复杂的图表类型
自动化提示链设计：使用GenAI辅助设计提示链
实时生成系统：实现完全个性化评估的即时问题生成

深度评价

优点

方法创新性强：首次系统性地将提示链和工具使用结合用于同构问题生成
实用价值高：为普通教师提供了可访问的高效问题创建方法
实验设计完善：两个不同类型的问题库验证了方法的通用性
技术实现详细：提供了完整的提示链和实现细节，可复现性强
质量控制完整：建立了生成-验证的完整闭环

不足

评估范围有限：仅在物理学科的两种问题类型上验证
规模较小：生成的问题数量相对有限（20+26个）
成本分析缺失：未提供与传统方法的成本效益比较
用户研究不足：缺乏教师和学生的使用体验研究

影响力

领域贡献：为教育技术领域提供了新的问题生成范式
实用价值：可直接应用于个性化学习和自适应测试
技术示范：展示了LLM在教育应用中的精确控制可能性
方法可推广：技术框架可扩展到其他学科和问题类型

适用场景

个性化学习平台：为学生提供无限练习题目
自适应测试系统：生成难度相当的替代题目
教师辅助工具：帮助教师快速创建高质量题库
在线教育平台：支持大规模个性化内容生成

参考文献

论文引用了14篇相关文献，涵盖了自动问题生成、同构问题创建、LLM应用等关键领域的重要工作，为研究提供了坚实的理论基础。

总体评价：这是一篇高质量的应用研究论文，在教育技术和AI应用交叉领域做出了重要贡献。方法新颖实用，实验设计合理，结果令人信服。虽然在评估规模和学科覆盖面上还有提升空间，但为该领域的发展指明了重要方向。