We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.
- Paper-ID: 2508.14755
- Titel: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
- Autor: Zhongzhou Chen (University of Central Florida)
- Klassifizierung: physics.ed-ph cs.AI
- Veröffentlichungsjahr: 2024
- Paper-Link: https://arxiv.org/abs/2508.14755
In diesem Artikel wird eine Methode zur Generierung großer Mengen isomorpher Physikaufgaben unter Verwendung von generativen KI-Diensten (wie ChatGPT) durch Prompt-Chaining und Tool-Nutzung vorgestellt. Die Methode ermöglicht eine präzise Kontrolle struktureller Variationen (wie numerische Werte und räumliche Beziehungen) und unterstützt gleichzeitig vielfältige kontextuelle Variationen der Aufgabenontologie. Durch die Nutzung eines Python-Code-Interpreters ermöglicht die Methode automatische Lösungsverifikation und einfache Diagrammgenerierung und behebt damit kritische Einschränkungen bestehender LLM-basierter Methoden. Die Forschung generierte zwei beispielhafte isomorphe Aufgabensammlungen und verglich diese mit zwei einfacheren prompt-basierten Ansätzen. Die Ergebnisse zeigen, dass das Prompt-Chaining deutlich höhere und konsistentere Ausgabequalität erzeugt.
Diese Forschung zielt darauf ab, die Herausforderungen bei der Generierung isomorpher Physikaufgaben im Bildungsbereich zu bewältigen. Isomorphe Aufgaben sind Aufgaben, die dieselben zugrunde liegenden Konzepte und Prinzipien bewerten, sich aber in oberflächlichen Merkmalen unterscheiden. Solche Aufgaben haben großen Wert für personalisierte Bewertung, wiederholte Tests und gezieltes Üben.
- Wachsender Bildungsbedarf: Mit der Entwicklung personalisierter Lernansätze und adaptiver Tests besteht ein Bedarf an großen Mengen hochwertiger isomorpher Aufgaben
- Einschränkungen traditioneller Methoden: Template-basierte Methoden sind kostspielig in der Entwicklung und erfordern spezialisierte Programmierung
- Qualitätskontrolle bei der Bewertung: Notwendigkeit, die Aufgabenschwierigkeit und -struktur präzise zu kontrollieren und gleichzeitig Kreativität zu bewahren
- Frühe AQG/AIG-Methoden: Hauptsächlich auf hartcodierte Templates angewiesen, zeitaufwändig in der Entwicklung und erfordern domänenspezifische Programmierung
- Direkte LLM-Anwendung: Schwierig, Schwierigkeit und kognitive Komplexität zu kontrollieren; führt häufig zu faktischen Rückrufaufgaben
- Probleme bei numerischen Berechnungen: LLMs neigen zu Halluzinationen bei numerischen Berechnungsproblemen mit fehlerhaften Antworten
- Schwierigkeiten bei der Diagrammgenerierung: Bestehende LLMs haben begrenzte Fähigkeiten bei der präzisen Kontrolle visueller Elemente
- Vorschlag einer Methode zur Generierung isomorpher Aufgaben basierend auf Prompt-Chaining und Tool-Nutzung, die präzise Kontrolle struktureller Variationen und Kontextvielfalt ermöglicht
- Entwicklung eines siebenschrittigen Generierungsprozesses, der systematisch konstruktionsrelevante und konstruktionsunabhängige Variationen trennt
- Implementierung automatischer Lösungsverifikation und Diagrammgenerierung durch Python-Code-Interpreter, um kritische LLM-Einschränkungen zu beheben
- Konstruktion zweier beispielhafter Aufgabensammlungen mit systematischem Vergleich, der die Methodeneffektivität nachweist
- Demonstration der Machbarkeit von GenAI-Diensten für Qualitätsverifikation, Etablierung einer vollständigen Generierungs-Verifikations-Schleife
Eingabe: Template-Aufgabe oder Aufgabentyp
Ausgabe: Große Mengen isomorpher Physikaufgaben mit Aufgabentext, Lösung und (optional) Diagrammen
Einschränkungen:
- Beibehaltung derselben kognitiven Schwierigkeit und physikalischen Konzepte
- Präzise Kontrolle struktureller Variationen (numerische Werte, räumliche Beziehungen usw.)
- Unterstützung vielfältiger kontextueller Variationen
- Template-Identifikation: Bestimmung der Template-Aufgabe oder des Aufgabentyps
- Komponentenzerlegung: Identifikation der verschiedenen Komponenten der Aufgabe
- Variationsdefinition: Definition struktureller und kontextueller Variationen sowie deren Einschränkungen
- Prompt-Chain-Design: Gestaltung von Prompt-Chains zur Generierung von Komponentenvariationen
- Ausführungsoptimierung: Ausführung der Prompt-Chain mit iterativer Verbesserung
- Ausgabenkombination: Kombination von Komponenten zu vollständigen Aufgaben und Formatierung
- Qualitätsverifikation: Verwendung von GenAI zur Verifikation der Korrektheit generierter Ergebnisse
Strukturelle Variationen:
- Konstruktionsrelevante Kernstrukturvariationen
- Müssen innerhalb präzise benutzerdefinierten Bereiche liegen
- Umfassen numerische Werte, räumliche Anordnung, Objektanzahl usw.
- Implementiert durch Kombination von LLM-Generierung und Python-Interpreter-Tools
Kontextuelle Variationen:
- Variationen in oberflächlichen Merkmalen der Aufgabe
- Weniger Einschränkungen, erfordern aber LLM-Kreativität
- Berücksichtigung von Lesefähigkeit, Sprachkompetenz und kulturellem Hintergrund der Schüler
- Hauptsächlich durch LLM-Generierungsfähigkeiten implementiert
- Prompt-Chaining-Technik: Zerlegung komplexer Aufgaben in mehrere Teilaufgaben, Ausführung durch verkettete Prompts, Überwindung von Einschränkungen einzelner Prompts
- Tool-Nutzungsintegration: Nutzung des Python-Code-Interpreters für numerische Berechnungen, Constraint-Überprüfung und Diagrammgenerierung
- Variationstypentrennung: Systematische Unterscheidung und unabhängige Behandlung struktureller und kontextueller Variationen
- Tabellarische Datenübertragung: Verwendung von Tabellenformaten zur Speicherung und Übertragung von Informationen in Prompt-Chains zur Verbesserung der Zuverlässigkeit
- Template: Objekt auf rauer Oberfläche wird durch geneigte Kraft gezogen/geschoben, gleichförmige Bewegung
- Strukturelle Variationen: Kraftrichtung und -art, variable numerische Werte, Auswahl unbekannter Variablen
- Einschränkungen: Winkel 10-60 Grad, horizontale Kraftkomponente balanciert Gleitreibungskraft
- Prompt-Chain: 5 Prompts, Generierung von Kontext → numerische Werte → Aufgabentext → Lösung → Formatierung
- Template: Vergleich parabolischer Flugbahnen, gleicher Startpunkt, unterschiedliche Höhe und Reichweite
- Strukturelle Variationen: Antwortbeziehungen, Bahnparameter, Ablenkungsitem-Design
- Einschränkungen: Keine visuellen Überlappungen, Beziehungsdeterminiertheit, ausreichende visuelle Unterschiede
- Prompt-Chain: 9 Prompts, Behandlung komplexerer Strukturvariationen und Diagrammgenerierung
- Einzelner-Prompt-Methode: Zusammenfassung der Prompt-Chain in einen oder zwei Prompts
- Einfache-Prompt-Methode: Vereinfachter Prompt basierend auf einzelnem Beispiel (nur für Aufgabensammlung 1)
- Ausgabequalität: Aufgabenvollständigkeit, numerische Genauigkeit, Formatierungskonsistenz
- Strukturkontrolle: Einhaltungsgrad von Einschränkungen
- Kontextuelle Vielfalt: Variationsgrad von Szenarien und Beschreibungen
- Antwortgenauigkeit: Durch GenAI verifizierten Genauigkeitsrate
- Erfolgreiche Generierung: 20 isomorphe Aufgaben (10 GPT-4o + 10 Gemini Pro 2.5)
- Qualitätskontrolle: Jede Aufgabe mit einzigartiger Hintergrundgeschichte, angemessenen Zufallswerten, korrekter Antwort
- Beispielaufgabe: Arbeiter-Holzkiste-Problem mit vollständigen physikalischen Parametern und Lösung
- Systematische Generierung: 26 Variationen (13 mögliche Beziehungen × 2 Hauptablenkungsitems)
- Diagrammqualität: Automatisch generierte parabolische Flugbahndiagramme durch Python, klar erkennbar
- Aufgabenvollständigkeit: Jede Aufgabe mit Situationsbeschreibung, Diagramm und vier Auswahloptionen
Aufgabensammlung 1:
- Einzelner-Prompt-Mängel: Ignoriert vollständig numerische Generierungsanweisungen, alle 10 Versionen ohne numerische Werte
- Prompt-Chain-Vorteile: Präzise Einhaltung aller Einschränkungen, Generierung vollständiger Aufgaben
Aufgabensammlung 2:
- Einzelner-Prompt-Probleme: Flugbahnen unter Boden, unsichtbar usw.
- Unzureichende Generierungsmenge: Nur 7 Szenarien und 13 Kombinationen statt erwarteter 10 Szenarien und 26 Kombinationen
- Antwortgenauigkeit: Von einfachem Prompt generierte Antworten meist fehlerhaft (z.B. 140 kg vs. korrekte Antwort 148,6 kg)
- Tool-Nutzung: Einfacher Prompt aktiviert Python-Tool nicht, halluziniert Antworten direkt
- Textqualität: Von einfachem Prompt generierter Text deutlich kürzer, qualitativ schlechter
- Aufgabensammlung 1: GenAI identifizierte und korrigierte 6 Formelableitungsfehler (in 20 Aufgaben)
- Aufgabensammlung 2: Identifizierte 3 Ablenkungsitems, die äquivalent zur korrekten Antwort sind
- Studentenverifikation: Aufgabensammlung wurde in Midterm-Prüfung verwendet, Studenten meldeten keine zusätzlichen Fehler
- Frühe Methoden: Auf hartcodierten Templates basierend, hohe Entwicklungskosten
- LLM-Anwendung: Dijkstra et al. trainierten GPT-3 zur Generierung von Multiple-Choice-Aufgaben; Chan et al. verwendeten GPT-3.5/4 zur Generierung von STEM-Aufgaben
- Isomorphe Aufgaben: Arendasy und Sommer generierten Algebra-Aufgaben durch Templates; Norberg et al. schrieben Mathematik-Aufgabenerklärungen mit GPT-4 um
- Traditionelle AIG: Präzise Kontrolle, aber mangelnde Kreativität
- Direkte LLM-Anwendung: Starke Kreativität, aber schwierige Kontrolle
- Diese Arbeit: Kombination beider Vorteile, Erreichung präziser Kontrolle und Kreativität
- Prompt-Chaining deutlich überlegen gegenüber einzelnem Prompt: Hervorragende Leistung bei Qualitätskonsistenz und Constraint-Einhaltung
- Tool-Nutzung ist entscheidend: Python-Interpreter behebt kritische Probleme bei numerischen Berechnungen und Diagrammgenerierung
- GenAI-Qualitätsverifikation ist effektiv: Kann Fehler im Generierungsprozess identifizieren und korrigieren
- Methode ist skalierbar: Kann nahezu unbegrenzte Mengen isomorpher Aufgaben generieren
- Einzelne Qualitätsbewertung: Nur vom Autor bewertet, mangelnde systematische Qualitätsprüfung
- Unbekannte psychometrische Eigenschaften: Mangelnde Studententestdaten zur Bewertung psychometrischer Eigenschaften isomorpher Aufgaben
- Begrenzte Kontextkontrolle: Hauptfokus auf Strukturvariationen, weniger Kontrolle über kontextuelle Variationen
- Einschränkungen bei Diagrammkomplexität: Unterstützt nur einfache Diagrammgenerierung
- Systematische Qualitätsbewertung: Umfassendere Qualitätsprüfung und Studententests
- Feinkörnige Kontextkontrolle: Erkundung der Kontrolle verschiedener Schreibstile und anderer kontextueller Variationen
- Komplexe Diagrammgenerierung: Erweiterung auf komplexere Diagrammtypen
- Automatisiertes Prompt-Chain-Design: Verwendung von GenAI zur Unterstützung des Prompt-Chain-Designs
- Echtzeit-Generierungssystem: Implementierung sofortiger Aufgabengenerierung für vollständig personalisierte Bewertung
- Starke Methodennovation: Erste systematische Kombination von Prompt-Chaining und Tool-Nutzung für isomorphe Aufgabengenerierung
- Hoher praktischer Wert: Bietet gewöhnlichen Lehrern eine zugängliche und effiziente Methode zur Aufgabenerstellung
- Sorgfältiges Experimentdesign: Zwei verschiedene Aufgabentypen validieren die Methodenuniversalität
- Detaillierte technische Implementierung: Vollständige Prompt-Chain und Implementierungsdetails mit hoher Reproduzierbarkeit
- Vollständige Qualitätskontrolle: Etabliert eine vollständige Generierungs-Verifikations-Schleife
- Begrenzte Evaluierungsreichweite: Validierung nur auf zwei Aufgabentypen in der Physik
- Relativ kleine Skala: Generierte Aufgabenmenge relativ begrenzt (20+26)
- Fehlende Kostenanalyse: Keine Kosten-Nutzen-Vergleiche mit traditionellen Methoden
- Unzureichende Benutzerforschung: Mangelnde Studien zur Nutzererfahrung von Lehrern und Schülern
- Bereichsbeitrag: Bietet dem Bildungstechnologie-Bereich ein neues Aufgabengenerierungsparadigma
- Praktischer Wert: Direkt anwendbar auf personalisiertes Lernen und adaptive Tests
- Technologische Demonstration: Zeigt Möglichkeiten präziser Kontrolle von LLMs in Bildungsanwendungen
- Methodische Übertragbarkeit: Technisches Framework ist auf andere Disziplinen und Aufgabentypen erweiterbar
- Personalisierte Lernplattformen: Bereitstellung unbegrenzter Übungsaufgaben für Schüler
- Adaptive Testsysteme: Generierung äquivalenter Ersatzaufgaben
- Lehrerunterstützungswerkzeuge: Unterstützung von Lehrern bei schneller Erstellung hochwertiger Aufgabensammlungen
- Online-Bildungsplattformen: Unterstützung großflächiger personalisierter Inhaltsgenerierung
Das Papier zitiert 14 relevante Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie automatische Aufgabengenerierung, isomorphe Aufgabenerstellung und LLM-Anwendungen abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier, das wichtige Beiträge im Schnittstellenbereich von Bildungstechnologie und KI-Anwendung leistet. Die Methode ist innovativ und praktisch, das Experimentdesign ist vernünftig und die Ergebnisse überzeugend. Obwohl es noch Raum für Verbesserungen in der Evaluierungsskala und der Fachabdeckung gibt, weist die Arbeit wichtige Richtungen für die Entwicklung dieses Bereichs auf.