2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen
We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.
academic

Génération fiable de problèmes de physique isomorphes utilisant l'IA générative avec chaînage de requêtes et utilisation d'outils

Informations de base

  • ID de l'article : 2508.14755
  • Titre : Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
  • Auteur : Zhongzhou Chen (Université de Floride centrale)
  • Classification : physics.ed-ph cs.AI
  • Date de publication : 2024
  • Lien de l'article : https://arxiv.org/abs/2508.14755

Résumé

Cet article propose une méthode utilisant des services d'IA générative (tels que ChatGPT) pour générer un grand nombre de problèmes de physique isomorphes par chaînage de requêtes et utilisation d'outils. Cette méthode permet un contrôle précis des variations structurelles (telles que les valeurs numériques et les relations spatiales), tout en soutenant la diversification des variations contextuelles de l'ontologie des problèmes. En exploitant l'interpréteur de code Python, la méthode supporte la vérification automatique des solutions et la génération de diagrammes simples, résolvant les limitations critiques des méthodes existantes basées sur les LLM. L'étude a généré deux exemples de banques de problèmes isomorphes et les a comparés à deux approches plus simples basées sur des requêtes. Les résultats montrent que la qualité et la cohérence des résultats produits par le chaînage de requêtes sont nettement supérieures.

Contexte et motivation de la recherche

Questions de recherche

Cette recherche vise à résoudre les défis de la génération de problèmes de physique isomorphes dans le domaine de l'éducation. Les problèmes isomorphes sont des problèmes qui évaluent les mêmes concepts et principes fondamentaux mais qui diffèrent par leurs caractéristiques de surface. Ces problèmes ont une valeur importante dans l'évaluation personnalisée, les tests répétés et la pratique délibérée.

Importance du problème

  1. Croissance des besoins éducatifs : Avec le développement de l'apprentissage personnalisé et des tests adaptatifs, il existe un besoin croissant de problèmes isomorphes de haute qualité
  2. Limitations des méthodes traditionnelles : Les approches basées sur des modèles ont un coût de développement élevé et nécessitent une programmation spécialisée
  3. Contrôle de la qualité de l'évaluation : Nécessité de contrôler précisément la difficulté et la structure des problèmes tout en maintenant l'innovation

Limitations des méthodes existantes

  1. Méthodes AQG/AIG précoces : Dépendent principalement de modèles codés en dur, chronophages et nécessitant une programmation spécifique au domaine
  2. Application directe des LLM : Difficile de contrôler la difficulté et la complexité cognitive, tendance à générer des questions de rappel factuel
  3. Problèmes de calcul numérique : Les LLM sont sujets aux hallucinations sur les problèmes de calcul numérique, produisant des réponses incorrectes
  4. Difficultés de génération de diagrammes : Les LLM existants ont une capacité limitée à contrôler précisément les éléments visuels

Contributions principales

  1. Proposition d'une méthode de génération de problèmes isomorphes basée sur le chaînage de requêtes et l'utilisation d'outils, réalisant un contrôle précis des variations structurelles et une diversification contextuelle
  2. Développement d'un processus de génération en sept étapes, séparant systématiquement les variations liées à la construction des variations indépendantes de la construction
  3. Implémentation de la vérification automatique des solutions et de la génération de diagrammes, résolvant les limitations critiques des LLM via l'interpréteur de code Python
  4. Construction de deux exemples de banques de problèmes avec comparaison systématique, démontrant l'efficacité de la méthode
  5. Démonstration de la faisabilité de l'utilisation des services GenAI pour la vérification de qualité, établissant une boucle complète de génération-vérification

Explication détaillée de la méthode

Définition de la tâche

Entrée : Problème modèle ou type de problème Sortie : Grand nombre de problèmes de physique isomorphes, incluant l'énoncé du problème, la solution et (optionnellement) les diagrammes Contraintes :

  • Maintenir la même difficulté cognitive et les mêmes concepts physiques
  • Contrôler précisément les variations structurelles (valeurs numériques, relations spatiales, etc.)
  • Soutenir la diversification des variations contextuelles

Architecture de la méthode principale

Processus de génération en sept étapes

  1. Identification du problème modèle : Déterminer le problème modèle ou le type de problème
  2. Décomposition des composants : Identifier les différentes parties du problème
  3. Définition des variations : Définir les variations structurelles et contextuelles ainsi que leurs contraintes
  4. Conception du chaînage de requêtes : Concevoir le chaînage de requêtes pour générer les variations de composants
  5. Optimisation de l'exécution : Exécuter le chaînage de requêtes et itérer les améliorations
  6. Combinaison des résultats : Combiner les composants en problèmes complets et formater
  7. Vérification de la qualité : Utiliser GenAI pour vérifier l'exactitude des résultats générés

Distinction des concepts clés

Variations structurelles (Structural Variations) :

  • Variations de structure centrale liées à la construction
  • Doivent être dans des plages précises définies par l'utilisateur
  • Incluent les valeurs numériques, les arrangements spatiaux, le nombre d'objets, etc.
  • Implémentées par la combinaison de la génération par LLM et de l'outil interpréteur Python

Variations contextuelles (Contextual Variations) :

  • Variations des caractéristiques de surface du problème
  • Contraintes moins strictes mais nécessitant la créativité du LLM
  • Considèrent le niveau de lecture des étudiants, la maîtrise de la langue, le contexte culturel, etc.
  • Implémentées principalement par la capacité générative du LLM

Points d'innovation technique

  1. Technologie de chaînage de requêtes : Décomposition des tâches complexes en sous-tâches multiples, exécutées via des requêtes chaînées, surpassant les limitations des requêtes uniques
  2. Intégration de l'utilisation d'outils : Exploitation de l'interpréteur de code Python pour les calculs numériques, la vérification des contraintes et la génération de diagrammes
  3. Séparation des types de variations : Distinction et traitement indépendant systématique des variations structurelles et contextuelles
  4. Transmission de données tabulaires : Utilisation du format tabulaire pour stocker et transmettre les informations dans le chaînage de requêtes, améliorant la fiabilité

Configuration expérimentale

Conception des banques de problèmes

Banque de problèmes 1 : Problèmes de calcul numérique

  • Modèle : Objet poussé/tiré par une force inclinée sur une surface rugueuse, mouvement uniforme
  • Variations structurelles : Direction et nature de la force, valeurs numériques des variables, choix de la variable inconnue
  • Contraintes : Angles 10-60 degrés, composante horizontale de la force équilibre la friction cinétique
  • Chaînage de requêtes : 5 requêtes, générant contexte → valeurs numériques → énoncé du problème → solution → formatage

Banque de problèmes 2 : Questions à choix multiples conceptuelles (avec diagrammes)

  • Modèle : Comparaison de trajectoires de mouvement parabolique, même point de départ, hauteurs et portées différentes
  • Variations structurelles : Relations de réponse, paramètres de trajectoire, conception des distracteurs
  • Contraintes : Pas de chevauchement visuel, relations déterministes, différences visuelles suffisantes
  • Chaînage de requêtes : 9 requêtes, traitant des variations structurelles plus complexes et la génération de diagrammes

Méthodes de comparaison

  1. Méthode de requête unique : Fusion du chaînage de requêtes en une ou deux requêtes
  2. Méthode de requête simple : Requête simplifiée basée sur un seul exemple (pour la banque de problèmes 1 uniquement)

Métriques d'évaluation

  1. Qualité de la sortie : Complétude du problème, exactitude numérique, cohérence du formatage
  2. Contrôle structurel : Degré de respect des contraintes
  3. Diversité contextuelle : Degré de variation des scénarios et descriptions
  4. Exactitude des réponses : Taux de précision vérifié par GenAI

Résultats expérimentaux

Résultats principaux

Effet de génération de la banque de problèmes 1

  • Génération réussie : 20 problèmes isomorphes (10 GPT-4o + 10 Gemini Pro 2.5)
  • Contrôle de qualité : Chaque problème possède une histoire de fond unique, des valeurs numériques appropriées et aléatoires, des réponses correctes
  • Exemple de problème : Problème de travailleur poussant une caisse, incluant les paramètres physiques complets et la solution

Effet de génération de la banque de problèmes 2

  • Génération systématique : 26 variations (13 relations possibles × 2 distracteurs principaux)
  • Qualité des diagrammes : Trajectoires paraboliques générées automatiquement par Python, clairement discernables
  • Complétude du problème : Chaque problème inclut une description de situation, un diagramme et quatre options de réponse

Résultats des expériences comparatives

Requête unique vs chaînage de requêtes

Banque de problèmes 1 :

  • Défauts de requête unique : Ignore complètement les instructions de génération numérique, aucune des 10 versions ne contient de valeurs numériques
  • Avantages du chaînage de requêtes : Respect précis de toutes les contraintes, génération de problèmes complets

Banque de problèmes 2 :

  • Problèmes de requête unique : Trajectoires souterraines, invisibles et autres erreurs
  • Quantité insuffisante : Seulement 7 scénarios et 13 combinaisons, au lieu des 10 scénarios et 26 combinaisons attendus

Requête simple vs chaînage de requêtes (Banque de problèmes 1)

  • Exactitude des réponses : Les réponses générées par requête simple sont majoritairement incorrectes (par exemple, 140 kg vs réponse correcte 148,6 kg)
  • Utilisation d'outils : La requête simple n'active pas l'outil Python, hallucine directement les réponses
  • Qualité du texte : Le texte généré par requête simple est nettement plus court, qualité réduite

Résultats de vérification de qualité

  • Banque de problèmes 1 : GenAI a identifié et corrigé 6 erreurs de dérivation de formule (sur 20 problèmes)
  • Banque de problèmes 2 : Identification de 3 distracteurs équivalents à la réponse correcte
  • Vérification par les étudiants : La banque de problèmes a été utilisée lors d'un examen de mi-session, aucune erreur supplémentaire signalée par les étudiants

Travaux connexes

Développement de la génération automatique de questions (AQG)

  1. Méthodes précoces : Basées sur des modèles codés en dur, coût de développement élevé
  2. Application des LLM : Dijkstra et al. ont entraîné GPT-3 pour générer des questions à choix multiples ; Chan et al. ont utilisé GPT-3.5/4 pour générer des problèmes STEM
  3. Problèmes isomorphes : Arendasy et Sommer ont généré des problèmes d'algèbre via des modèles ; Norberg et al. ont utilisé GPT-4 pour réécrire les explications de problèmes mathématiques

Comparaison des approches techniques

  • AIG traditionnel : Contrôle précis mais manque de créativité
  • Application directe des LLM : Créativité forte mais contrôle difficile
  • Méthode de cet article : Combinaison des avantages des deux, réalisant l'équilibre entre contrôle précis et créativité

Conclusion et discussion

Conclusions principales

  1. Le chaînage de requêtes surpasse nettement la requête unique : Performance exceptionnelle en cohérence de qualité et respect des contraintes
  2. L'utilisation d'outils est cruciale : L'interpréteur Python résout les problèmes critiques de calcul numérique et de génération de diagrammes
  3. La vérification de qualité par GenAI est efficace : Capable d'identifier et corriger les erreurs du processus de génération
  4. La méthode est scalable : Peut générer un nombre quasi-illimité de problèmes isomorphes

Limitations

  1. Évaluation de qualité unique : Évaluée uniquement par l'auteur, manque d'examen systématique de la qualité
  2. Caractéristiques psychométriques inconnues : Absence de données de test d'étudiants pour évaluer les caractéristiques psychométriques des problèmes isomorphes
  3. Contrôle contextuel limité : Accent principal sur les variations structurelles, contrôle limité des variations contextuelles
  4. Limitations de complexité des diagrammes : Supporte uniquement la génération de diagrammes simples

Directions futures

  1. Évaluation systématique de la qualité : Examen plus complet de la qualité et tests d'étudiants
  2. Contrôle contextuel fin : Exploration du contrôle des variations contextuelles telles que les styles d'écriture différents
  3. Génération de diagrammes complexes : Extension à des types de diagrammes plus complexes
  4. Conception automatisée du chaînage de requêtes : Utilisation de GenAI pour assister la conception du chaînage de requêtes
  5. Système de génération en temps réel : Implémentation de la génération instantanée de problèmes pour l'évaluation entièrement personnalisée

Évaluation approfondie

Points forts

  1. Innovation méthodologique forte : Première combinaison systématique du chaînage de requêtes et de l'utilisation d'outils pour la génération de problèmes isomorphes
  2. Valeur pratique élevée : Fournit aux enseignants ordinaires une méthode efficace et accessible de création de problèmes
  3. Conception expérimentale complète : Deux types différents de banques de problèmes validant l'universalité de la méthode
  4. Implémentation technique détaillée : Fourniture complète du chaînage de requêtes et des détails d'implémentation, forte reproductibilité
  5. Contrôle de qualité complet : Établissement d'une boucle complète de génération-vérification

Insuffisances

  1. Portée d'évaluation limitée : Validation uniquement sur deux types de problèmes en physique
  2. Échelle relativement petite : Nombre de problèmes générés relativement limité (20+26)
  3. Analyse des coûts manquante : Absence de comparaison coût-bénéfice avec les méthodes traditionnelles
  4. Recherche utilisateur insuffisante : Manque d'études sur l'expérience d'utilisation des enseignants et des étudiants

Impact

  1. Contribution au domaine : Fournit un nouveau paradigme de génération de problèmes pour le domaine de la technologie éducative
  2. Valeur pratique : Applicable directement à l'apprentissage personnalisé et aux tests adaptatifs
  3. Démonstration technique : Montre la possibilité de contrôle précis des LLM dans les applications éducatives
  4. Cadre méthodologique transférable : Le cadre technique peut être étendu à d'autres disciplines et types de problèmes

Scénarios d'application

  1. Plateformes d'apprentissage personnalisé : Fournir des exercices illimités aux étudiants
  2. Systèmes de tests adaptatifs : Générer des questions alternatives de difficulté équivalente
  3. Outil d'assistance aux enseignants : Aider les enseignants à créer rapidement des banques de problèmes de haute qualité
  4. Plateformes d'éducation en ligne : Soutenir la génération de contenu personnalisé à grande échelle

Références

L'article cite 14 références pertinentes, couvrant les travaux importants dans les domaines clés de la génération automatique de questions, de la création de problèmes isomorphes et des applications des LLM, fournissant une base théorique solide pour la recherche.


Évaluation globale : Ceci est un article de recherche appliquée de haute qualité qui apporte une contribution importante à l'intersection des technologies éducatives et des applications de l'IA. La méthode est novatrice et pratique, la conception expérimentale est raisonnable et les résultats sont convaincants. Bien qu'il y ait encore de la place pour l'amélioration en termes d'échelle d'évaluation et de couverture disciplinaire, l'article indique une direction importante pour le développement du domaine.