2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen

We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.

academic

プロンプトチェーンとツール使用を用いた生成AIによる同型物理問題の信頼性の高い生成

基本情報

論文ID: 2508.14755
タイトル: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
著者: Zhongzhou Chen（中央フロリダ大学）
分類: physics.ed-ph cs.AI
発表年: 2024年
論文リンク: https://arxiv.org/abs/2508.14755

要約

本論文は、ChatGPTなどの生成型AI サービスを利用し、プロンプトチェーンとツール使用を通じて大量の同型物理問題を生成する方法を提案している。本手法は、構造的変化（数値および空間関係など）の正確な制御を可能にしながら、問題本体の多様な文脈的変化をサポートしている。Pythonコード解釈器を活用することで、本手法は自動解答検証と簡単な図表生成をサポートし、既存のLLMベースの手法の重大な制限を解決している。研究では2つのサンプル同型問題集を生成し、より単純な2つのプロンプトベースの手法と比較した。結果から、プロンプトチェーンが生成する出力品質が明らかに高く、より一貫していることが示された。

研究背景と動機

研究課題

本研究は、教育分野における同型物理問題生成の課題に対処することを目的としている。同型問題とは、同じ基礎概念と原理を評価しながら表面的特性が異なる問題を指し、個別化評価、再テスト、意図的練習において重要な価値を持つ。

問題の重要性

教育需要の増加：個別化学習と適応型テストの発展に伴い、大量の高品質同型問題が必要とされている
従来的手法の限界：テンプレートベースの手法は開発コストが高く、専門的なプログラミングが必要である
評価品質管理：革新性を保ちながら問題難度と構造を正確に制御する必要がある

既存手法の限界

初期のAQG/AIG手法：主にハードコードされたテンプレートに依存し、開発に時間がかかり、領域固有のプログラミングが必要である
LLMの直接応用：難度と認知的複雑性の制御が困難であり、事実想起問題へのデフォルト化が頻繁である
数値計算の問題：LLMは数値計算問題で幻覚を起こしやすく、答えが誤りである
図表生成の困難：既存のLLMは視覚要素の正確な制御において能力が限定的である

中核的貢献

プロンプトチェーンとツール使用に基づく同型問題生成手法を提案し、構造的変化の正確な制御と文脈の多様化を実現した
7段階の生成フローを開発し、構造関連変化と構造無関連変化を体系的に分離した
自動解答検証と図表生成を実装し、Pythonコード解釈器を通じてLLMの重大な限界を解決した
2つのサンプル問題集を構築し、体系的な比較を実施して手法の有効性を実証した
品質検証のためのGenAI サービスの実行可能性を実証し、完全な生成-検証ループを確立した

手法の詳細

タスク定義

入力：テンプレート問題または問題タイプ出力：大量の同型物理問題（問題本体、解答、および（オプション）図表を含む） 制約条件：

同じ認知難度と物理概念を維持する
構造的変化（数値、空間関係など）を正確に制御する
多様な文脈的変化をサポートする

中核的手法アーキテクチャ

7段階の生成フロー

テンプレート問題の識別：テンプレート問題または問題タイプを確定する
コンポーネント分解：問題の各構成要素を識別する
変化定義：構造的変化と文脈的変化およびそれらの制約を定義する
プロンプトチェーン設計：各コンポーネント変化を生成するプロンプトチェーンを設計する
実行最適化：プロンプトチェーンを実行し、反復的に改善する
出力統合：コンポーネントを統合して完全な問題を形成し、フォーマットする
品質検証：GenAIを使用して生成結果の正確性を検証する

重要概念の区別

構造的変化（Structural Variations）：

構造関連の中核的変化
ユーザー定義の正確な範囲内にある必要がある
数値、空間配置、オブジェクト数などを含む
LLM生成とPythonインタープリタツールの組み合わせで実現

文脈的変化（Contextual Variations）：

問題表面特性の変化
制約は少ないがLLMの創造性が必要である
学生の読解水準、言語熟練度、文化的背景などを考慮する
主にLLMの生成能力を通じて実現

技術的革新点

プロンプトチェーン技術：複雑なタスクを複数のサブタスクに分解し、チェーン状のプロンプト実行を通じて、単一プロンプトの限界を克服する
ツール使用の統合：Pythonコード解釈器を活用して数値計算、制約チェック、図表生成を実施する
変化タイプの分離：構造的変化と文脈的変化を体系的に区別し、独立して処理する
データテーブル伝達：プロンプトチェーン内でテーブル形式を使用して情報を保存・伝達し、信頼性を向上させる

実験設定

問題集設計

問題集1：数値計算問題

テンプレート：粗い表面上の物体が傾斜力で押されたり引かれたりして、等速運動する
構造的変化：力の方向と性質、変数数値、未知変数の選択
制約条件：角度10～60度、力の水平成分が動摩擦力と平衡する
プロンプトチェーン：5つのプロンプト、文脈生成→数値→問題本体→解答→フォーマット化

問題集2：概念選択問題（図表含む）

テンプレート：放物運動軌跡比較、同じ起点で異なる高さと射程
構造的変化：答え関係、軌跡パラメータ、干扰項設計
制約条件：視覚的重複なし、関係確定性、十分な視覚的差異
プロンプトチェーン：9つのプロンプト、より複雑な構造的変化と図表生成を処理

比較手法

単一プロンプト手法：プロンプトチェーンを1つまたは2つのプロンプトに統合
簡単なプロンプト手法：単一の例に基づく簡略化されたプロンプト（問題集1のみ）

評価指標

出力品質：問題の完全性、数値精度、フォーマット一貫性
構造制御：制約条件の遵守程度
文脈的多様性：シナリオと説明の変化程度
答え正確性：GenAIで検証された精度

実験結果

主要結果

問題集1の生成効果

成功生成：20個の同型問題（GPT-4o 10個 + Gemini Pro 2.5 10個）
品質管理：各問題は独自の背景ストーリー、適切なランダム数値、正確な答えを持つ
サンプル問題：労働者が木箱を押す問題、完全な物理パラメータと解答を含む

問題集2の生成効果

体系的生成：26個の変化（13の可能な関係 × 2つの主要干扰項）
図表品質：Pythonで自動生成された放物線軌跡図、明確に識別可能
問題の完全性：各問題は状況説明、図表、4つの選択肢を含む

比較実験結果

単一プロンプト vs プロンプトチェーン

問題集1：

単一プロンプトの欠陥：数値生成指示を完全に無視し、すべての10バージョンに数値がない
プロンプトチェーンの利点：すべての制約条件を正確に遵守し、完全な問題を生成

問題集2：

単一プロンプトの問題：軌跡が地下に出現、見えないなどのエラーが発生
生成数不足：予想の10シナリオと26の組み合わせではなく、7シナリオと13の組み合わせのみ

簡単なプロンプト vs プロンプトチェーン（問題集1）

答え精度：簡単なプロンプトで生成された答えは多くが誤り（例：140 kg vs 正確な答え148.6 kg）
ツール使用：簡単なプロンプトはPythonツールを起動せず、直接幻覚答えを生成
テキスト品質：簡単なプロンプトで生成されたテキストは明らかに短く、品質が低下

品質検証結果

問題集1：GenAIが6つの公式導出エラーを識別・修正（20問中）
問題集2：3つの干扰項が正解と等価である問題を識別
学生検証：問題集は中間試験で使用され、学生から追加エラーの報告なし

関連研究

自動問題生成（AQG）の発展

初期手法：ハードコードされたテンプレートに基づき、開発コストが高い
LLM応用：DijkstraらがGPT-3を訓練して選択問題を生成；ChanらがGPT-3.5/4を使用してSTEM問題を生成
同型問題：ArendasyとSommerがテンプレートを通じて代数問題を生成；NorbergらがGPT-4を使用して数学問題の説明を改写

技術手法の比較

従来的AIG：正確な制御が可能だが創造性に欠ける
直接LLM応用：創造性が強いが制御が困難
本論文の手法：両者の利点を結合し、正確な制御と創造性のバランスを実現

結論と考察

主要結論

プロンプトチェーンは単一プロンプトを大幅に上回る：品質一貫性と制約遵守において優れた性能を示す
ツール使用は極めて重要：Pythonインタープリタが数値計算と図表生成の重大な問題を解決
GenAI品質検証は有効：生成プロセス中のエラーを識別・修正できる
手法はスケーラビリティを有する：ほぼ無限の数の同型問題を生成可能

限界

品質評価が単一：著者のみによる評価で、体系的な品質審査に欠ける
心理測定特性が不明：同型問題の心理測定特性を評価する学生テストデータに欠ける
文脈制御が限定的：主に構造的変化に焦点を当て、文脈的変化の制御が少ない
図表複雑度の制限：簡単な図表生成のみをサポート

今後の方向性

体系的品質評価：より包括的な品質審査と学生テストを実施
文脈的精密制御：執筆スタイルなど文脈的変化の制御を探索
複雑図表生成：より複雑な図表タイプへの拡張
自動プロンプトチェーン設計：GenAIを使用したプロンプトチェーン設計の支援
リアルタイム生成システム：完全な個別化評価のための即時問題生成の実現

深層評価

強み

手法の革新性が強い：プロンプトチェーンとツール使用を同型問題生成に組み合わせた初の体系的試み
実用価値が高い：一般的な教師に対して、アクセス可能で効率的な問題作成方法を提供
実験設計が完善：2つの異なるタイプの問題集で手法の汎用性を検証
技術実装が詳細：完全なプロンプトチェーンと実装詳細を提供し、再現性が高い
品質管理が完全：生成-検証の完全なループを確立

不足

評価範囲が限定的：物理学の2つの問題タイプのみで検証
規模が比較的小さい：生成された問題数が相対的に限定的（20+26個）
コスト分析が欠落：従来的手法との費用対効果比較がない
ユーザー研究が不足：教師と学生の使用体験研究に欠ける

影響力

領域への貢献：教育技術分野に新しい問題生成パラダイムを提供
実用価値：個別化学習と適応型テストに直接応用可能
技術デモンストレーション：教育応用におけるLLMの正確な制御可能性を実証
手法の推広可能性：技術フレームワークを他の学科と問題タイプに拡張可能

適用シーン

個別化学習プラットフォーム：学生に無限の練習問題を提供
適応型テストシステム：難度が相当な代替問題を生成
教師支援ツール：教師が高品質な問題集を迅速に作成するのを支援
オンライン教育プラットフォーム：大規模な個別化コンテンツ生成をサポート

参考文献

論文は14篇の関連文献を引用しており、自動問題生成、同型問題作成、LLM応用など、重要な領域の重要な研究をカバーしており、研究に堅実な理論的基礎を提供している。

総合評価：これは教育技術とAI応用の交差領域における高品質な応用研究論文であり、重要な貢献を行っている。手法は革新的で実用的であり、実験設計は合理的で、結果は説得力がある。評価規模と学科カバー面では改善の余地があるが、この領域の発展に対して重要な方向性を示している。