2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen

We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.

academic

Generazione affidabile di problemi di fisica isomorfi utilizzando l'IA generativa con prompt-chaining e utilizzo di strumenti

Informazioni di base

ID articolo: 2508.14755
Titolo: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
Autore: Zhongzhou Chen (University of Central Florida)
Classificazione: physics.ed-ph cs.AI
Data di pubblicazione: 2024
Link articolo: https://arxiv.org/abs/2508.14755

Riassunto

Questo articolo propone un metodo per generare un gran numero di problemi di fisica isomorfi utilizzando servizi di IA generativa (come ChatGPT) attraverso prompt-chaining e utilizzo di strumenti. Il metodo consente un controllo preciso delle variazioni strutturali (come valori numerici e relazioni spaziali), supportando al contempo variazioni di contesto diversificate nell'ontologia dei problemi. Sfruttando l'interprete di codice Python, il metodo supporta la verifica automatica delle soluzioni e la generazione di diagrammi semplici, affrontando le limitazioni critiche dei metodi basati su LLM esistenti. Lo studio ha generato due librerie di problemi isomorfi di esempio e le ha confrontate con due approcci basati su prompt più semplici. I risultati dimostrano che l'output prodotto dal prompt-chaining ha una qualità significativamente superiore e più coerente.

Contesto di ricerca e motivazione

Problema di ricerca

Questo studio affronta la sfida della generazione di problemi di fisica isomorfi nel campo dell'educazione. I problemi isomorfi sono problemi che valutano gli stessi concetti e principi fondamentali ma differiscono nelle caratteristiche superficiali, e hanno un valore significativo nell'assessment personalizzato, nei test ripetuti e nella pratica deliberata.

Importanza del problema

Crescente esigenza educativa: Con lo sviluppo dell'apprendimento personalizzato e dei test adattivi, è necessaria una grande quantità di problemi isomorfi di alta qualità
Limitazioni dei metodi tradizionali: Gli approcci basati su template hanno costi di sviluppo elevati e richiedono programmazione specializzata
Controllo della qualità della valutazione: È necessario controllare con precisione la difficoltà e la struttura dei problemi mantenendo l'innovazione

Limitazioni dei metodi esistenti

Metodi AQG/AIG precedenti: Dipendono principalmente da template hardcoded, richiedono molto tempo e necessitano di programmazione specifica del dominio
Applicazione diretta di LLM: Difficile controllare la difficoltà e la complessità cognitiva, spesso si riduce a problemi di richiamo fattuale
Problemi di calcolo numerico: Gli LLM tendono ad allucinare su problemi di calcolo numerico, producendo risposte errate
Difficoltà nella generazione di diagrammi: Gli LLM attuali hanno capacità limitate nel controllare con precisione gli elementi visivi

Contributi principali

Propone un metodo di generazione di problemi isomorfi basato su prompt-chaining e utilizzo di strumenti, realizzando un controllo preciso delle variazioni strutturali e la diversificazione del contesto
Sviluppa un processo generativo in sette fasi che separa sistematicamente le variazioni costruttive correlate da quelle non correlate
Implementa la verifica automatica delle soluzioni e la generazione di diagrammi attraverso l'interprete di codice Python, affrontando le limitazioni critiche degli LLM
Costruisce due librerie di problemi di esempio e conduce confronti sistematici, dimostrando l'efficacia del metodo
Dimostra la fattibilità dei servizi GenAI per la verifica della qualità, stabilendo un ciclo completo di generazione-verifica

Spiegazione dettagliata del metodo

Definizione del compito

Input: Problema template o tipo di problema Output: Un gran numero di problemi di fisica isomorfi, inclusi il corpo del problema, la soluzione e (opzionalmente) diagrammi Vincoli:

Mantenere la stessa difficoltà cognitiva e concetti fisici
Controllare con precisione le variazioni strutturali (valori numerici, relazioni spaziali, ecc.)
Supportare variazioni di contesto diversificate

Architettura del metodo principale

Processo generativo in sette fasi

Identificazione del problema template: Determinare il problema template o il tipo di problema
Decomposizione dei componenti: Identificare i vari componenti del problema
Definizione delle variazioni: Definire le variazioni strutturali e contestuali e i loro vincoli
Progettazione del prompt-chaining: Progettare catene di prompt per generare variazioni di componenti
Ottimizzazione dell'esecuzione: Eseguire il prompt-chaining e iterare per miglioramenti
Combinazione dell'output: Combinare i componenti in problemi completi e formattare
Verifica della qualità: Utilizzare GenAI per verificare la correttezza dei risultati generati

Distinzione dei concetti chiave

Variazioni strutturali (Structural Variations):

Variazioni strutturali fondamentali correlate alla costruzione
Devono rientrare in intervalli definiti dall'utente con precisione
Includono valori numerici, disposizioni spaziali, numero di oggetti, ecc.
Implementate attraverso la combinazione di generazione LLM e strumento interprete Python

Variazioni contestuali (Contextual Variations):

Variazioni nelle caratteristiche superficiali del problema
Vincoli meno ristretti ma richiedono creatività dell'LLM
Considerano il livello di lettura dello studente, la competenza linguistica, lo sfondo culturale, ecc.
Implementate principalmente attraverso la capacità generativa dell'LLM

Punti di innovazione tecnica

Tecnologia del prompt-chaining: Scompone compiti complessi in sottotask multipli, eseguiti attraverso prompt concatenati, superando le limitazioni dei prompt singoli
Integrazione dell'utilizzo di strumenti: Sfrutta l'interprete di codice Python per calcoli numerici, controllo dei vincoli e generazione di diagrammi
Separazione dei tipi di variazione: Distingue e gestisce sistematicamente in modo indipendente le variazioni strutturali da quelle contestuali
Trasmissione di dati tabulari: Utilizza il formato tabellare nella catena di prompt per archiviare e trasmettere informazioni, migliorando l'affidabilità

Configurazione sperimentale

Progettazione della libreria di problemi

Libreria di problemi 1: Problemi di calcolo numerico

Template: Oggetto su superficie ruvida spinto/tirato da forza inclinata, movimento uniforme
Variazioni strutturali: Direzione e natura della forza, valori delle variabili, scelta delle variabili incognite
Vincoli: Angoli 10-60 gradi, componente orizzontale della forza bilancia l'attrito dinamico
Prompt-chaining: 5 prompt, generano contesto → valori numerici → corpo del problema → soluzione → formattazione

Libreria di problemi 2: Domande a scelta multipla concettuale (con diagrammi)

Template: Confronto di traiettorie di moto parabolico, stesso punto di partenza con altezze e portate diverse
Variazioni strutturali: Relazione di risposta, parametri di traiettoria, progettazione di distrattori
Vincoli: Nessuna sovrapposizione visiva, determinatezza della relazione, differenza visiva sufficiente
Prompt-chaining: 9 prompt, gestiscono variazioni strutturali più complesse e generazione di diagrammi

Metodi di confronto

Metodo a prompt singolo: Consolida la catena di prompt in uno o due prompt
Metodo a prompt semplice: Prompt semplificato basato su un singolo esempio (solo per la libreria di problemi 1)

Metriche di valutazione

Qualità dell'output: Completezza del problema, accuratezza numerica, coerenza del formato
Controllo strutturale: Grado di conformità ai vincoli
Diversità contestuale: Grado di variazione negli scenari e nelle descrizioni
Correttezza della risposta: Tasso di accuratezza verificato da GenAI

Risultati sperimentali

Risultati principali

Effetto di generazione della libreria di problemi 1

Generazione riuscita: 20 problemi isomorfi (10 GPT-4o + 10 Gemini Pro 2.5)
Controllo della qualità: Ogni problema ha una storia di sfondo unica, valori numerici appropriati e casuali, risposte corrette
Problema di esempio: Problema del lavoratore che spinge una scatola, con parametri fisici completi e soluzione

Effetto di generazione della libreria di problemi 2

Generazione sistematica: 26 variazioni (13 possibili relazioni × 2 distrattori principali)
Qualità del diagramma: Traiettorie paraboliche generate automaticamente da Python, chiaramente distinguibili
Completezza del problema: Ogni problema include descrizione della situazione, diagramma e quattro opzioni di risposta

Risultati degli esperimenti di confronto

Prompt singolo vs Prompt-chaining

Libreria di problemi 1:

Difetti del prompt singolo: Ignora completamente le istruzioni di generazione numerica, tutte le 10 versioni mancano di valori numerici
Vantaggi del prompt-chaining: Rispetta con precisione tutti i vincoli, genera problemi completi

Libreria di problemi 2:

Problemi del prompt singolo: Traiettorie che appaiono sottoterra, invisibili e altri errori
Quantità di generazione insufficiente: Solo 7 scenari e 13 combinazioni, anziché i 10 scenari e 26 combinazioni previsti

Prompt semplice vs Prompt-chaining (Libreria di problemi 1)

Accuratezza della risposta: Le risposte generate da prompt semplici sono per lo più errate (ad es. 140 kg vs risposta corretta 148,6 kg)
Utilizzo di strumenti: Il prompt semplice non attiva lo strumento Python, allucinando direttamente le risposte
Qualità del testo: Il testo generato da prompt semplice è notevolmente più breve, con qualità ridotta

Risultati della verifica della qualità

Libreria di problemi 1: GenAI ha identificato e corretto 6 errori nella derivazione di formule (su 20 problemi)
Libreria di problemi 2: Ha identificato 3 problemi in cui i distrattori erano equivalenti alla risposta corretta
Verifica degli studenti: La libreria è stata utilizzata nell'esame di metà semestre, gli studenti non hanno segnalato errori aggiuntivi

Lavori correlati

Sviluppo della generazione automatica di domande (AQG)

Metodi precedenti: Basati su template hardcoded, costi di sviluppo elevati
Applicazione di LLM: Dijkstra et al. hanno addestrato GPT-3 per generare domande a scelta multipla; Chan et al. hanno utilizzato GPT-3.5/4 per generare problemi STEM
Problemi isomorfi: Arendasy e Sommer hanno generato problemi di algebra attraverso template; Norberg et al. hanno utilizzato GPT-4 per riscrivere spiegazioni di problemi matematici

Confronto dei metodi tecnici

AIG tradizionale: Controllo preciso ma mancanza di creatività
Applicazione diretta di LLM: Creatività forte ma controllo difficile
Metodo di questo articolo: Combina i vantaggi di entrambi, realizzando l'equilibrio tra controllo preciso e creatività

Conclusioni e discussione

Conclusioni principali

Il prompt-chaining è significativamente superiore ai prompt singoli: Eccelle nella coerenza della qualità e nel rispetto dei vincoli
L'utilizzo di strumenti è fondamentale: L'interprete Python risolve i problemi critici nel calcolo numerico e nella generazione di diagrammi
La verifica della qualità di GenAI è efficace: Può identificare e correggere gli errori nel processo di generazione
Il metodo è scalabile: Può generare un numero quasi illimitato di problemi isomorfi

Limitazioni

Valutazione della qualità singola: Valutata solo dall'autore, manca una revisione sistematica della qualità
Caratteristiche psicometriche sconosciute: Mancano dati di test degli studenti per valutare le caratteristiche psicometriche dei problemi isomorfi
Controllo del contesto limitato: Si concentra principalmente sulle variazioni strutturali, controllo limitato sulle variazioni contestuali
Limitazione della complessità dei diagrammi: Supporta solo la generazione di diagrammi semplici

Direzioni future

Valutazione sistematica della qualità: Condurre revisioni della qualità più complete e test degli studenti
Controllo fine del contesto: Esplorare il controllo delle variazioni contestuali come stili di scrittura diversi
Generazione di diagrammi complessi: Estendere a tipi di diagrammi più complessi
Progettazione automatica del prompt-chaining: Utilizzare GenAI per assistere nella progettazione del prompt-chaining
Sistema di generazione in tempo reale: Implementare la generazione istantanea di problemi per l'assessment completamente personalizzato

Valutazione approfondita

Punti di forza

Forte innovazione metodologica: Prima integrazione sistematica di prompt-chaining e utilizzo di strumenti per la generazione di problemi isomorfi
Alto valore pratico: Fornisce ai docenti comuni un metodo efficiente e accessibile per la creazione di problemi
Progettazione sperimentale completa: Due librerie di problemi di diverso tipo verificano l'universalità del metodo
Implementazione tecnica dettagliata: Fornisce prompt-chaining completo e dettagli di implementazione, forte riproducibilità
Controllo della qualità completo: Stabilisce un ciclo completo di generazione-verifica

Insufficienze

Ambito di valutazione limitato: Verificato solo su due tipi di problemi nella disciplina della fisica
Scala relativamente piccola: Il numero di problemi generati è relativamente limitato (20+26)
Analisi dei costi mancante: Non fornisce confronto costi-benefici con metodi tradizionali
Ricerca insufficiente con gli utenti: Manca la ricerca sull'esperienza di utilizzo di insegnanti e studenti

Impatto

Contributo al settore: Fornisce un nuovo paradigma di generazione di problemi per il campo della tecnologia educativa
Valore pratico: Può essere applicato direttamente all'apprendimento personalizzato e ai test adattivi
Dimostrazione tecnica: Mostra la possibilità di controllo preciso degli LLM nelle applicazioni educative
Metodo generalizzabile: Il framework tecnico può essere esteso ad altre discipline e tipi di problemi

Scenari applicabili

Piattaforme di apprendimento personalizzato: Fornire agli studenti un numero illimitato di esercizi
Sistemi di test adattivi: Generare problemi alternativi di difficoltà equivalente
Strumento di supporto per insegnanti: Aiutare gli insegnanti a creare rapidamente librerie di problemi di alta qualità
Piattaforme di educazione online: Supportare la generazione di contenuti personalizzati su larga scala

Riferimenti bibliografici

L'articolo cita 14 riferimenti correlati, che coprono lavori importanti nei campi chiave della generazione automatica di domande, creazione di problemi isomorfi e applicazioni di LLM, fornendo una base teorica solida per la ricerca.

Valutazione complessiva: Questo è un articolo di ricerca applicata di alta qualità che ha apportato contributi importanti nell'intersezione tra tecnologia educativa e applicazioni di IA. Il metodo è innovativo e pratico, la progettazione sperimentale è ragionevole e i risultati sono convincenti. Sebbene vi sia ancora spazio per miglioramenti nella scala di valutazione e nella copertura disciplinare, il lavoro indica una direzione importante per lo sviluppo del settore.