2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen

We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.

academic

Zuverlässige Generierung isomorpher Physikaufgaben mit generativer KI durch Prompt-Chaining und Tool-Nutzung

Grundinformationen

Paper-ID: 2508.14755
Titel: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
Autor: Zhongzhou Chen (University of Central Florida)
Klassifizierung: physics.ed-ph cs.AI
Veröffentlichungsjahr: 2024
Paper-Link: https://arxiv.org/abs/2508.14755

Zusammenfassung

In diesem Artikel wird eine Methode zur Generierung großer Mengen isomorpher Physikaufgaben unter Verwendung von generativen KI-Diensten (wie ChatGPT) durch Prompt-Chaining und Tool-Nutzung vorgestellt. Die Methode ermöglicht eine präzise Kontrolle struktureller Variationen (wie numerische Werte und räumliche Beziehungen) und unterstützt gleichzeitig vielfältige kontextuelle Variationen der Aufgabenontologie. Durch die Nutzung eines Python-Code-Interpreters ermöglicht die Methode automatische Lösungsverifikation und einfache Diagrammgenerierung und behebt damit kritische Einschränkungen bestehender LLM-basierter Methoden. Die Forschung generierte zwei beispielhafte isomorphe Aufgabensammlungen und verglich diese mit zwei einfacheren prompt-basierten Ansätzen. Die Ergebnisse zeigen, dass das Prompt-Chaining deutlich höhere und konsistentere Ausgabequalität erzeugt.

Forschungshintergrund und Motivation

Forschungsfrage

Diese Forschung zielt darauf ab, die Herausforderungen bei der Generierung isomorpher Physikaufgaben im Bildungsbereich zu bewältigen. Isomorphe Aufgaben sind Aufgaben, die dieselben zugrunde liegenden Konzepte und Prinzipien bewerten, sich aber in oberflächlichen Merkmalen unterscheiden. Solche Aufgaben haben großen Wert für personalisierte Bewertung, wiederholte Tests und gezieltes Üben.

Bedeutung des Problems

Wachsender Bildungsbedarf: Mit der Entwicklung personalisierter Lernansätze und adaptiver Tests besteht ein Bedarf an großen Mengen hochwertiger isomorpher Aufgaben
Einschränkungen traditioneller Methoden: Template-basierte Methoden sind kostspielig in der Entwicklung und erfordern spezialisierte Programmierung
Qualitätskontrolle bei der Bewertung: Notwendigkeit, die Aufgabenschwierigkeit und -struktur präzise zu kontrollieren und gleichzeitig Kreativität zu bewahren

Einschränkungen bestehender Methoden

Frühe AQG/AIG-Methoden: Hauptsächlich auf hartcodierte Templates angewiesen, zeitaufwändig in der Entwicklung und erfordern domänenspezifische Programmierung
Direkte LLM-Anwendung: Schwierig, Schwierigkeit und kognitive Komplexität zu kontrollieren; führt häufig zu faktischen Rückrufaufgaben
Probleme bei numerischen Berechnungen: LLMs neigen zu Halluzinationen bei numerischen Berechnungsproblemen mit fehlerhaften Antworten
Schwierigkeiten bei der Diagrammgenerierung: Bestehende LLMs haben begrenzte Fähigkeiten bei der präzisen Kontrolle visueller Elemente

Kernbeiträge

Vorschlag einer Methode zur Generierung isomorpher Aufgaben basierend auf Prompt-Chaining und Tool-Nutzung, die präzise Kontrolle struktureller Variationen und Kontextvielfalt ermöglicht
Entwicklung eines siebenschrittigen Generierungsprozesses, der systematisch konstruktionsrelevante und konstruktionsunabhängige Variationen trennt
Implementierung automatischer Lösungsverifikation und Diagrammgenerierung durch Python-Code-Interpreter, um kritische LLM-Einschränkungen zu beheben
Konstruktion zweier beispielhafter Aufgabensammlungen mit systematischem Vergleich, der die Methodeneffektivität nachweist
Demonstration der Machbarkeit von GenAI-Diensten für Qualitätsverifikation, Etablierung einer vollständigen Generierungs-Verifikations-Schleife

Methodische Details

Aufgabendefinition

Eingabe: Template-Aufgabe oder Aufgabentyp Ausgabe: Große Mengen isomorpher Physikaufgaben mit Aufgabentext, Lösung und (optional) Diagrammen Einschränkungen:

Beibehaltung derselben kognitiven Schwierigkeit und physikalischen Konzepte
Präzise Kontrolle struktureller Variationen (numerische Werte, räumliche Beziehungen usw.)
Unterstützung vielfältiger kontextueller Variationen

Kernmethodische Architektur

Siebenschrittiger Generierungsprozess

Template-Identifikation: Bestimmung der Template-Aufgabe oder des Aufgabentyps
Komponentenzerlegung: Identifikation der verschiedenen Komponenten der Aufgabe
Variationsdefinition: Definition struktureller und kontextueller Variationen sowie deren Einschränkungen
Prompt-Chain-Design: Gestaltung von Prompt-Chains zur Generierung von Komponentenvariationen
Ausführungsoptimierung: Ausführung der Prompt-Chain mit iterativer Verbesserung
Ausgabenkombination: Kombination von Komponenten zu vollständigen Aufgaben und Formatierung
Qualitätsverifikation: Verwendung von GenAI zur Verifikation der Korrektheit generierter Ergebnisse

Konzeptuelle Unterscheidungen

Strukturelle Variationen:

Konstruktionsrelevante Kernstrukturvariationen
Müssen innerhalb präzise benutzerdefinierten Bereiche liegen
Umfassen numerische Werte, räumliche Anordnung, Objektanzahl usw.
Implementiert durch Kombination von LLM-Generierung und Python-Interpreter-Tools

Kontextuelle Variationen:

Variationen in oberflächlichen Merkmalen der Aufgabe
Weniger Einschränkungen, erfordern aber LLM-Kreativität
Berücksichtigung von Lesefähigkeit, Sprachkompetenz und kulturellem Hintergrund der Schüler
Hauptsächlich durch LLM-Generierungsfähigkeiten implementiert

Technische Innovationen

Prompt-Chaining-Technik: Zerlegung komplexer Aufgaben in mehrere Teilaufgaben, Ausführung durch verkettete Prompts, Überwindung von Einschränkungen einzelner Prompts
Tool-Nutzungsintegration: Nutzung des Python-Code-Interpreters für numerische Berechnungen, Constraint-Überprüfung und Diagrammgenerierung
Variationstypentrennung: Systematische Unterscheidung und unabhängige Behandlung struktureller und kontextueller Variationen
Tabellarische Datenübertragung: Verwendung von Tabellenformaten zur Speicherung und Übertragung von Informationen in Prompt-Chains zur Verbesserung der Zuverlässigkeit

Experimentelle Einrichtung

Aufgabensammlungsdesign

Aufgabensammlung 1: Numerische Berechnungsaufgaben

Template: Objekt auf rauer Oberfläche wird durch geneigte Kraft gezogen/geschoben, gleichförmige Bewegung
Strukturelle Variationen: Kraftrichtung und -art, variable numerische Werte, Auswahl unbekannter Variablen
Einschränkungen: Winkel 10-60 Grad, horizontale Kraftkomponente balanciert Gleitreibungskraft
Prompt-Chain: 5 Prompts, Generierung von Kontext → numerische Werte → Aufgabentext → Lösung → Formatierung

Aufgabensammlung 2: Konzeptuelle Multiple-Choice-Aufgaben (mit Diagrammen)

Template: Vergleich parabolischer Flugbahnen, gleicher Startpunkt, unterschiedliche Höhe und Reichweite
Strukturelle Variationen: Antwortbeziehungen, Bahnparameter, Ablenkungsitem-Design
Einschränkungen: Keine visuellen Überlappungen, Beziehungsdeterminiertheit, ausreichende visuelle Unterschiede
Prompt-Chain: 9 Prompts, Behandlung komplexerer Strukturvariationen und Diagrammgenerierung

Vergleichsmethoden

Einzelner-Prompt-Methode: Zusammenfassung der Prompt-Chain in einen oder zwei Prompts
Einfache-Prompt-Methode: Vereinfachter Prompt basierend auf einzelnem Beispiel (nur für Aufgabensammlung 1)

Evaluierungsmetriken

Ausgabequalität: Aufgabenvollständigkeit, numerische Genauigkeit, Formatierungskonsistenz
Strukturkontrolle: Einhaltungsgrad von Einschränkungen
Kontextuelle Vielfalt: Variationsgrad von Szenarien und Beschreibungen
Antwortgenauigkeit: Durch GenAI verifizierten Genauigkeitsrate

Experimentelle Ergebnisse

Hauptergebnisse

Generierungseffektivität Aufgabensammlung 1

Erfolgreiche Generierung: 20 isomorphe Aufgaben (10 GPT-4o + 10 Gemini Pro 2.5)
Qualitätskontrolle: Jede Aufgabe mit einzigartiger Hintergrundgeschichte, angemessenen Zufallswerten, korrekter Antwort
Beispielaufgabe: Arbeiter-Holzkiste-Problem mit vollständigen physikalischen Parametern und Lösung

Generierungseffektivität Aufgabensammlung 2

Systematische Generierung: 26 Variationen (13 mögliche Beziehungen × 2 Hauptablenkungsitems)
Diagrammqualität: Automatisch generierte parabolische Flugbahndiagramme durch Python, klar erkennbar
Aufgabenvollständigkeit: Jede Aufgabe mit Situationsbeschreibung, Diagramm und vier Auswahloptionen

Vergleichsergebnisse

Einzelner Prompt vs. Prompt-Chain

Aufgabensammlung 1:

Einzelner-Prompt-Mängel: Ignoriert vollständig numerische Generierungsanweisungen, alle 10 Versionen ohne numerische Werte
Prompt-Chain-Vorteile: Präzise Einhaltung aller Einschränkungen, Generierung vollständiger Aufgaben

Aufgabensammlung 2:

Einzelner-Prompt-Probleme: Flugbahnen unter Boden, unsichtbar usw.
Unzureichende Generierungsmenge: Nur 7 Szenarien und 13 Kombinationen statt erwarteter 10 Szenarien und 26 Kombinationen

Einfacher Prompt vs. Prompt-Chain (Aufgabensammlung 1)

Antwortgenauigkeit: Von einfachem Prompt generierte Antworten meist fehlerhaft (z.B. 140 kg vs. korrekte Antwort 148,6 kg)
Tool-Nutzung: Einfacher Prompt aktiviert Python-Tool nicht, halluziniert Antworten direkt
Textqualität: Von einfachem Prompt generierter Text deutlich kürzer, qualitativ schlechter

Qualitätsverifikationsergebnisse

Aufgabensammlung 1: GenAI identifizierte und korrigierte 6 Formelableitungsfehler (in 20 Aufgaben)
Aufgabensammlung 2: Identifizierte 3 Ablenkungsitems, die äquivalent zur korrekten Antwort sind
Studentenverifikation: Aufgabensammlung wurde in Midterm-Prüfung verwendet, Studenten meldeten keine zusätzlichen Fehler

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Prompt-Chaining deutlich überlegen gegenüber einzelnem Prompt: Hervorragende Leistung bei Qualitätskonsistenz und Constraint-Einhaltung
Tool-Nutzung ist entscheidend: Python-Interpreter behebt kritische Probleme bei numerischen Berechnungen und Diagrammgenerierung
GenAI-Qualitätsverifikation ist effektiv: Kann Fehler im Generierungsprozess identifizieren und korrigieren
Methode ist skalierbar: Kann nahezu unbegrenzte Mengen isomorpher Aufgaben generieren

Einschränkungen

Einzelne Qualitätsbewertung: Nur vom Autor bewertet, mangelnde systematische Qualitätsprüfung
Unbekannte psychometrische Eigenschaften: Mangelnde Studententestdaten zur Bewertung psychometrischer Eigenschaften isomorpher Aufgaben
Begrenzte Kontextkontrolle: Hauptfokus auf Strukturvariationen, weniger Kontrolle über kontextuelle Variationen
Einschränkungen bei Diagrammkomplexität: Unterstützt nur einfache Diagrammgenerierung

Zukünftige Richtungen

Systematische Qualitätsbewertung: Umfassendere Qualitätsprüfung und Studententests
Feinkörnige Kontextkontrolle: Erkundung der Kontrolle verschiedener Schreibstile und anderer kontextueller Variationen
Komplexe Diagrammgenerierung: Erweiterung auf komplexere Diagrammtypen
Automatisiertes Prompt-Chain-Design: Verwendung von GenAI zur Unterstützung des Prompt-Chain-Designs
Echtzeit-Generierungssystem: Implementierung sofortiger Aufgabengenerierung für vollständig personalisierte Bewertung

Tiefgreifende Bewertung

Stärken

Starke Methodennovation: Erste systematische Kombination von Prompt-Chaining und Tool-Nutzung für isomorphe Aufgabengenerierung
Hoher praktischer Wert: Bietet gewöhnlichen Lehrern eine zugängliche und effiziente Methode zur Aufgabenerstellung
Sorgfältiges Experimentdesign: Zwei verschiedene Aufgabentypen validieren die Methodenuniversalität
Detaillierte technische Implementierung: Vollständige Prompt-Chain und Implementierungsdetails mit hoher Reproduzierbarkeit
Vollständige Qualitätskontrolle: Etabliert eine vollständige Generierungs-Verifikations-Schleife

Mängel

Begrenzte Evaluierungsreichweite: Validierung nur auf zwei Aufgabentypen in der Physik
Relativ kleine Skala: Generierte Aufgabenmenge relativ begrenzt (20+26)
Fehlende Kostenanalyse: Keine Kosten-Nutzen-Vergleiche mit traditionellen Methoden
Unzureichende Benutzerforschung: Mangelnde Studien zur Nutzererfahrung von Lehrern und Schülern

Auswirkungen

Bereichsbeitrag: Bietet dem Bildungstechnologie-Bereich ein neues Aufgabengenerierungsparadigma
Praktischer Wert: Direkt anwendbar auf personalisiertes Lernen und adaptive Tests
Technologische Demonstration: Zeigt Möglichkeiten präziser Kontrolle von LLMs in Bildungsanwendungen
Methodische Übertragbarkeit: Technisches Framework ist auf andere Disziplinen und Aufgabentypen erweiterbar

Anwendungsszenarien

Personalisierte Lernplattformen: Bereitstellung unbegrenzter Übungsaufgaben für Schüler
Adaptive Testsysteme: Generierung äquivalenter Ersatzaufgaben
Lehrerunterstützungswerkzeuge: Unterstützung von Lehrern bei schneller Erstellung hochwertiger Aufgabensammlungen
Online-Bildungsplattformen: Unterstützung großflächiger personalisierter Inhaltsgenerierung

Literaturverzeichnis

Das Papier zitiert 14 relevante Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie automatische Aufgabengenerierung, isomorphe Aufgabenerstellung und LLM-Anwendungen abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier, das wichtige Beiträge im Schnittstellenbereich von Bildungstechnologie und KI-Anwendung leistet. Die Methode ist innovativ und praktisch, das Experimentdesign ist vernünftig und die Ergebnisse überzeugend. Obwohl es noch Raum für Verbesserungen in der Evaluierungsskala und der Fachabdeckung gibt, weist die Arbeit wichtige Richtungen für die Entwicklung dieses Bereichs auf.