2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen

We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.

academic

Génération fiable de problèmes de physique isomorphes utilisant l'IA générative avec chaînage de requêtes et utilisation d'outils

Informations de base

ID de l'article : 2508.14755
Titre : Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
Auteur : Zhongzhou Chen (Université de Floride centrale)
Classification : physics.ed-ph cs.AI
Date de publication : 2024
Lien de l'article : https://arxiv.org/abs/2508.14755

Résumé

Cet article propose une méthode utilisant des services d'IA générative (tels que ChatGPT) pour générer un grand nombre de problèmes de physique isomorphes par chaînage de requêtes et utilisation d'outils. Cette méthode permet un contrôle précis des variations structurelles (telles que les valeurs numériques et les relations spatiales), tout en soutenant la diversification des variations contextuelles de l'ontologie des problèmes. En exploitant l'interpréteur de code Python, la méthode supporte la vérification automatique des solutions et la génération de diagrammes simples, résolvant les limitations critiques des méthodes existantes basées sur les LLM. L'étude a généré deux exemples de banques de problèmes isomorphes et les a comparés à deux approches plus simples basées sur des requêtes. Les résultats montrent que la qualité et la cohérence des résultats produits par le chaînage de requêtes sont nettement supérieures.

Contexte et motivation de la recherche

Questions de recherche

Cette recherche vise à résoudre les défis de la génération de problèmes de physique isomorphes dans le domaine de l'éducation. Les problèmes isomorphes sont des problèmes qui évaluent les mêmes concepts et principes fondamentaux mais qui diffèrent par leurs caractéristiques de surface. Ces problèmes ont une valeur importante dans l'évaluation personnalisée, les tests répétés et la pratique délibérée.

Importance du problème

Croissance des besoins éducatifs : Avec le développement de l'apprentissage personnalisé et des tests adaptatifs, il existe un besoin croissant de problèmes isomorphes de haute qualité
Limitations des méthodes traditionnelles : Les approches basées sur des modèles ont un coût de développement élevé et nécessitent une programmation spécialisée
Contrôle de la qualité de l'évaluation : Nécessité de contrôler précisément la difficulté et la structure des problèmes tout en maintenant l'innovation

Limitations des méthodes existantes

Méthodes AQG/AIG précoces : Dépendent principalement de modèles codés en dur, chronophages et nécessitant une programmation spécifique au domaine
Application directe des LLM : Difficile de contrôler la difficulté et la complexité cognitive, tendance à générer des questions de rappel factuel
Problèmes de calcul numérique : Les LLM sont sujets aux hallucinations sur les problèmes de calcul numérique, produisant des réponses incorrectes
Difficultés de génération de diagrammes : Les LLM existants ont une capacité limitée à contrôler précisément les éléments visuels

Contributions principales

Proposition d'une méthode de génération de problèmes isomorphes basée sur le chaînage de requêtes et l'utilisation d'outils, réalisant un contrôle précis des variations structurelles et une diversification contextuelle
Développement d'un processus de génération en sept étapes, séparant systématiquement les variations liées à la construction des variations indépendantes de la construction
Implémentation de la vérification automatique des solutions et de la génération de diagrammes, résolvant les limitations critiques des LLM via l'interpréteur de code Python
Construction de deux exemples de banques de problèmes avec comparaison systématique, démontrant l'efficacité de la méthode
Démonstration de la faisabilité de l'utilisation des services GenAI pour la vérification de qualité, établissant une boucle complète de génération-vérification

Explication détaillée de la méthode

Définition de la tâche

Entrée : Problème modèle ou type de problème Sortie : Grand nombre de problèmes de physique isomorphes, incluant l'énoncé du problème, la solution et (optionnellement) les diagrammes Contraintes :

Maintenir la même difficulté cognitive et les mêmes concepts physiques
Contrôler précisément les variations structurelles (valeurs numériques, relations spatiales, etc.)
Soutenir la diversification des variations contextuelles

Architecture de la méthode principale

Processus de génération en sept étapes

Identification du problème modèle : Déterminer le problème modèle ou le type de problème
Décomposition des composants : Identifier les différentes parties du problème
Définition des variations : Définir les variations structurelles et contextuelles ainsi que leurs contraintes
Conception du chaînage de requêtes : Concevoir le chaînage de requêtes pour générer les variations de composants
Optimisation de l'exécution : Exécuter le chaînage de requêtes et itérer les améliorations
Combinaison des résultats : Combiner les composants en problèmes complets et formater
Vérification de la qualité : Utiliser GenAI pour vérifier l'exactitude des résultats générés

Distinction des concepts clés

Variations structurelles (Structural Variations) :

Variations de structure centrale liées à la construction
Doivent être dans des plages précises définies par l'utilisateur
Incluent les valeurs numériques, les arrangements spatiaux, le nombre d'objets, etc.
Implémentées par la combinaison de la génération par LLM et de l'outil interpréteur Python

Variations contextuelles (Contextual Variations) :

Variations des caractéristiques de surface du problème
Contraintes moins strictes mais nécessitant la créativité du LLM
Considèrent le niveau de lecture des étudiants, la maîtrise de la langue, le contexte culturel, etc.
Implémentées principalement par la capacité générative du LLM

Points d'innovation technique

Technologie de chaînage de requêtes : Décomposition des tâches complexes en sous-tâches multiples, exécutées via des requêtes chaînées, surpassant les limitations des requêtes uniques
Intégration de l'utilisation d'outils : Exploitation de l'interpréteur de code Python pour les calculs numériques, la vérification des contraintes et la génération de diagrammes
Séparation des types de variations : Distinction et traitement indépendant systématique des variations structurelles et contextuelles
Transmission de données tabulaires : Utilisation du format tabulaire pour stocker et transmettre les informations dans le chaînage de requêtes, améliorant la fiabilité

Configuration expérimentale

Conception des banques de problèmes

Banque de problèmes 1 : Problèmes de calcul numérique

Modèle : Objet poussé/tiré par une force inclinée sur une surface rugueuse, mouvement uniforme
Variations structurelles : Direction et nature de la force, valeurs numériques des variables, choix de la variable inconnue
Contraintes : Angles 10-60 degrés, composante horizontale de la force équilibre la friction cinétique
Chaînage de requêtes : 5 requêtes, générant contexte → valeurs numériques → énoncé du problème → solution → formatage

Banque de problèmes 2 : Questions à choix multiples conceptuelles (avec diagrammes)

Modèle : Comparaison de trajectoires de mouvement parabolique, même point de départ, hauteurs et portées différentes
Variations structurelles : Relations de réponse, paramètres de trajectoire, conception des distracteurs
Contraintes : Pas de chevauchement visuel, relations déterministes, différences visuelles suffisantes
Chaînage de requêtes : 9 requêtes, traitant des variations structurelles plus complexes et la génération de diagrammes

Méthodes de comparaison

Méthode de requête unique : Fusion du chaînage de requêtes en une ou deux requêtes
Méthode de requête simple : Requête simplifiée basée sur un seul exemple (pour la banque de problèmes 1 uniquement)

Métriques d'évaluation

Qualité de la sortie : Complétude du problème, exactitude numérique, cohérence du formatage
Contrôle structurel : Degré de respect des contraintes
Diversité contextuelle : Degré de variation des scénarios et descriptions
Exactitude des réponses : Taux de précision vérifié par GenAI

Résultats expérimentaux

Résultats principaux

Effet de génération de la banque de problèmes 1

Génération réussie : 20 problèmes isomorphes (10 GPT-4o + 10 Gemini Pro 2.5)
Contrôle de qualité : Chaque problème possède une histoire de fond unique, des valeurs numériques appropriées et aléatoires, des réponses correctes
Exemple de problème : Problème de travailleur poussant une caisse, incluant les paramètres physiques complets et la solution

Effet de génération de la banque de problèmes 2

Génération systématique : 26 variations (13 relations possibles × 2 distracteurs principaux)
Qualité des diagrammes : Trajectoires paraboliques générées automatiquement par Python, clairement discernables
Complétude du problème : Chaque problème inclut une description de situation, un diagramme et quatre options de réponse

Résultats des expériences comparatives

Requête unique vs chaînage de requêtes

Banque de problèmes 1 :

Défauts de requête unique : Ignore complètement les instructions de génération numérique, aucune des 10 versions ne contient de valeurs numériques
Avantages du chaînage de requêtes : Respect précis de toutes les contraintes, génération de problèmes complets

Banque de problèmes 2 :

Problèmes de requête unique : Trajectoires souterraines, invisibles et autres erreurs
Quantité insuffisante : Seulement 7 scénarios et 13 combinaisons, au lieu des 10 scénarios et 26 combinaisons attendus

Requête simple vs chaînage de requêtes (Banque de problèmes 1)

Exactitude des réponses : Les réponses générées par requête simple sont majoritairement incorrectes (par exemple, 140 kg vs réponse correcte 148,6 kg)
Utilisation d'outils : La requête simple n'active pas l'outil Python, hallucine directement les réponses
Qualité du texte : Le texte généré par requête simple est nettement plus court, qualité réduite

Résultats de vérification de qualité

Banque de problèmes 1 : GenAI a identifié et corrigé 6 erreurs de dérivation de formule (sur 20 problèmes)
Banque de problèmes 2 : Identification de 3 distracteurs équivalents à la réponse correcte
Vérification par les étudiants : La banque de problèmes a été utilisée lors d'un examen de mi-session, aucune erreur supplémentaire signalée par les étudiants

Travaux connexes

Développement de la génération automatique de questions (AQG)

Méthodes précoces : Basées sur des modèles codés en dur, coût de développement élevé
Application des LLM : Dijkstra et al. ont entraîné GPT-3 pour générer des questions à choix multiples ; Chan et al. ont utilisé GPT-3.5/4 pour générer des problèmes STEM
Problèmes isomorphes : Arendasy et Sommer ont généré des problèmes d'algèbre via des modèles ; Norberg et al. ont utilisé GPT-4 pour réécrire les explications de problèmes mathématiques

Comparaison des approches techniques

AIG traditionnel : Contrôle précis mais manque de créativité
Application directe des LLM : Créativité forte mais contrôle difficile
Méthode de cet article : Combinaison des avantages des deux, réalisant l'équilibre entre contrôle précis et créativité

Conclusion et discussion

Conclusions principales

Le chaînage de requêtes surpasse nettement la requête unique : Performance exceptionnelle en cohérence de qualité et respect des contraintes
L'utilisation d'outils est cruciale : L'interpréteur Python résout les problèmes critiques de calcul numérique et de génération de diagrammes
La vérification de qualité par GenAI est efficace : Capable d'identifier et corriger les erreurs du processus de génération
La méthode est scalable : Peut générer un nombre quasi-illimité de problèmes isomorphes

Limitations

Évaluation de qualité unique : Évaluée uniquement par l'auteur, manque d'examen systématique de la qualité
Caractéristiques psychométriques inconnues : Absence de données de test d'étudiants pour évaluer les caractéristiques psychométriques des problèmes isomorphes
Contrôle contextuel limité : Accent principal sur les variations structurelles, contrôle limité des variations contextuelles
Limitations de complexité des diagrammes : Supporte uniquement la génération de diagrammes simples

Directions futures

Évaluation systématique de la qualité : Examen plus complet de la qualité et tests d'étudiants
Contrôle contextuel fin : Exploration du contrôle des variations contextuelles telles que les styles d'écriture différents
Génération de diagrammes complexes : Extension à des types de diagrammes plus complexes
Conception automatisée du chaînage de requêtes : Utilisation de GenAI pour assister la conception du chaînage de requêtes
Système de génération en temps réel : Implémentation de la génération instantanée de problèmes pour l'évaluation entièrement personnalisée

Évaluation approfondie

Points forts

Innovation méthodologique forte : Première combinaison systématique du chaînage de requêtes et de l'utilisation d'outils pour la génération de problèmes isomorphes
Valeur pratique élevée : Fournit aux enseignants ordinaires une méthode efficace et accessible de création de problèmes
Conception expérimentale complète : Deux types différents de banques de problèmes validant l'universalité de la méthode
Implémentation technique détaillée : Fourniture complète du chaînage de requêtes et des détails d'implémentation, forte reproductibilité
Contrôle de qualité complet : Établissement d'une boucle complète de génération-vérification

Insuffisances

Portée d'évaluation limitée : Validation uniquement sur deux types de problèmes en physique
Échelle relativement petite : Nombre de problèmes générés relativement limité (20+26)
Analyse des coûts manquante : Absence de comparaison coût-bénéfice avec les méthodes traditionnelles
Recherche utilisateur insuffisante : Manque d'études sur l'expérience d'utilisation des enseignants et des étudiants

Impact

Contribution au domaine : Fournit un nouveau paradigme de génération de problèmes pour le domaine de la technologie éducative
Valeur pratique : Applicable directement à l'apprentissage personnalisé et aux tests adaptatifs
Démonstration technique : Montre la possibilité de contrôle précis des LLM dans les applications éducatives
Cadre méthodologique transférable : Le cadre technique peut être étendu à d'autres disciplines et types de problèmes

Scénarios d'application

Plateformes d'apprentissage personnalisé : Fournir des exercices illimités aux étudiants
Systèmes de tests adaptatifs : Générer des questions alternatives de difficulté équivalente
Outil d'assistance aux enseignants : Aider les enseignants à créer rapidement des banques de problèmes de haute qualité
Plateformes d'éducation en ligne : Soutenir la génération de contenu personnalisé à grande échelle

Références

L'article cite 14 références pertinentes, couvrant les travaux importants dans les domaines clés de la génération automatique de questions, de la création de problèmes isomorphes et des applications des LLM, fournissant une base théorique solide pour la recherche.

Évaluation globale : Ceci est un article de recherche appliquée de haute qualité qui apporte une contribution importante à l'intersection des technologies éducatives et des applications de l'IA. La méthode est novatrice et pratique, la conception expérimentale est raisonnable et les résultats sont convaincants. Bien qu'il y ait encore de la place pour l'amélioration en termes d'échelle d'évaluation et de couverture disciplinaire, l'article indique une direction importante pour le développement du domaine.