We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.
Generazione affidabile di problemi di fisica isomorfi utilizzando l'IA generativa con prompt-chaining e utilizzo di strumenti
- ID articolo: 2508.14755
- Titolo: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
- Autore: Zhongzhou Chen (University of Central Florida)
- Classificazione: physics.ed-ph cs.AI
- Data di pubblicazione: 2024
- Link articolo: https://arxiv.org/abs/2508.14755
Questo articolo propone un metodo per generare un gran numero di problemi di fisica isomorfi utilizzando servizi di IA generativa (come ChatGPT) attraverso prompt-chaining e utilizzo di strumenti. Il metodo consente un controllo preciso delle variazioni strutturali (come valori numerici e relazioni spaziali), supportando al contempo variazioni di contesto diversificate nell'ontologia dei problemi. Sfruttando l'interprete di codice Python, il metodo supporta la verifica automatica delle soluzioni e la generazione di diagrammi semplici, affrontando le limitazioni critiche dei metodi basati su LLM esistenti. Lo studio ha generato due librerie di problemi isomorfi di esempio e le ha confrontate con due approcci basati su prompt più semplici. I risultati dimostrano che l'output prodotto dal prompt-chaining ha una qualità significativamente superiore e più coerente.
Questo studio affronta la sfida della generazione di problemi di fisica isomorfi nel campo dell'educazione. I problemi isomorfi sono problemi che valutano gli stessi concetti e principi fondamentali ma differiscono nelle caratteristiche superficiali, e hanno un valore significativo nell'assessment personalizzato, nei test ripetuti e nella pratica deliberata.
- Crescente esigenza educativa: Con lo sviluppo dell'apprendimento personalizzato e dei test adattivi, è necessaria una grande quantità di problemi isomorfi di alta qualità
- Limitazioni dei metodi tradizionali: Gli approcci basati su template hanno costi di sviluppo elevati e richiedono programmazione specializzata
- Controllo della qualità della valutazione: È necessario controllare con precisione la difficoltà e la struttura dei problemi mantenendo l'innovazione
- Metodi AQG/AIG precedenti: Dipendono principalmente da template hardcoded, richiedono molto tempo e necessitano di programmazione specifica del dominio
- Applicazione diretta di LLM: Difficile controllare la difficoltà e la complessità cognitiva, spesso si riduce a problemi di richiamo fattuale
- Problemi di calcolo numerico: Gli LLM tendono ad allucinare su problemi di calcolo numerico, producendo risposte errate
- Difficoltà nella generazione di diagrammi: Gli LLM attuali hanno capacità limitate nel controllare con precisione gli elementi visivi
- Propone un metodo di generazione di problemi isomorfi basato su prompt-chaining e utilizzo di strumenti, realizzando un controllo preciso delle variazioni strutturali e la diversificazione del contesto
- Sviluppa un processo generativo in sette fasi che separa sistematicamente le variazioni costruttive correlate da quelle non correlate
- Implementa la verifica automatica delle soluzioni e la generazione di diagrammi attraverso l'interprete di codice Python, affrontando le limitazioni critiche degli LLM
- Costruisce due librerie di problemi di esempio e conduce confronti sistematici, dimostrando l'efficacia del metodo
- Dimostra la fattibilità dei servizi GenAI per la verifica della qualità, stabilendo un ciclo completo di generazione-verifica
Input: Problema template o tipo di problema
Output: Un gran numero di problemi di fisica isomorfi, inclusi il corpo del problema, la soluzione e (opzionalmente) diagrammi
Vincoli:
- Mantenere la stessa difficoltà cognitiva e concetti fisici
- Controllare con precisione le variazioni strutturali (valori numerici, relazioni spaziali, ecc.)
- Supportare variazioni di contesto diversificate
- Identificazione del problema template: Determinare il problema template o il tipo di problema
- Decomposizione dei componenti: Identificare i vari componenti del problema
- Definizione delle variazioni: Definire le variazioni strutturali e contestuali e i loro vincoli
- Progettazione del prompt-chaining: Progettare catene di prompt per generare variazioni di componenti
- Ottimizzazione dell'esecuzione: Eseguire il prompt-chaining e iterare per miglioramenti
- Combinazione dell'output: Combinare i componenti in problemi completi e formattare
- Verifica della qualità: Utilizzare GenAI per verificare la correttezza dei risultati generati
Variazioni strutturali (Structural Variations):
- Variazioni strutturali fondamentali correlate alla costruzione
- Devono rientrare in intervalli definiti dall'utente con precisione
- Includono valori numerici, disposizioni spaziali, numero di oggetti, ecc.
- Implementate attraverso la combinazione di generazione LLM e strumento interprete Python
Variazioni contestuali (Contextual Variations):
- Variazioni nelle caratteristiche superficiali del problema
- Vincoli meno ristretti ma richiedono creatività dell'LLM
- Considerano il livello di lettura dello studente, la competenza linguistica, lo sfondo culturale, ecc.
- Implementate principalmente attraverso la capacità generativa dell'LLM
- Tecnologia del prompt-chaining: Scompone compiti complessi in sottotask multipli, eseguiti attraverso prompt concatenati, superando le limitazioni dei prompt singoli
- Integrazione dell'utilizzo di strumenti: Sfrutta l'interprete di codice Python per calcoli numerici, controllo dei vincoli e generazione di diagrammi
- Separazione dei tipi di variazione: Distingue e gestisce sistematicamente in modo indipendente le variazioni strutturali da quelle contestuali
- Trasmissione di dati tabulari: Utilizza il formato tabellare nella catena di prompt per archiviare e trasmettere informazioni, migliorando l'affidabilità
- Template: Oggetto su superficie ruvida spinto/tirato da forza inclinata, movimento uniforme
- Variazioni strutturali: Direzione e natura della forza, valori delle variabili, scelta delle variabili incognite
- Vincoli: Angoli 10-60 gradi, componente orizzontale della forza bilancia l'attrito dinamico
- Prompt-chaining: 5 prompt, generano contesto → valori numerici → corpo del problema → soluzione → formattazione
- Template: Confronto di traiettorie di moto parabolico, stesso punto di partenza con altezze e portate diverse
- Variazioni strutturali: Relazione di risposta, parametri di traiettoria, progettazione di distrattori
- Vincoli: Nessuna sovrapposizione visiva, determinatezza della relazione, differenza visiva sufficiente
- Prompt-chaining: 9 prompt, gestiscono variazioni strutturali più complesse e generazione di diagrammi
- Metodo a prompt singolo: Consolida la catena di prompt in uno o due prompt
- Metodo a prompt semplice: Prompt semplificato basato su un singolo esempio (solo per la libreria di problemi 1)
- Qualità dell'output: Completezza del problema, accuratezza numerica, coerenza del formato
- Controllo strutturale: Grado di conformità ai vincoli
- Diversità contestuale: Grado di variazione negli scenari e nelle descrizioni
- Correttezza della risposta: Tasso di accuratezza verificato da GenAI
- Generazione riuscita: 20 problemi isomorfi (10 GPT-4o + 10 Gemini Pro 2.5)
- Controllo della qualità: Ogni problema ha una storia di sfondo unica, valori numerici appropriati e casuali, risposte corrette
- Problema di esempio: Problema del lavoratore che spinge una scatola, con parametri fisici completi e soluzione
- Generazione sistematica: 26 variazioni (13 possibili relazioni × 2 distrattori principali)
- Qualità del diagramma: Traiettorie paraboliche generate automaticamente da Python, chiaramente distinguibili
- Completezza del problema: Ogni problema include descrizione della situazione, diagramma e quattro opzioni di risposta
Libreria di problemi 1:
- Difetti del prompt singolo: Ignora completamente le istruzioni di generazione numerica, tutte le 10 versioni mancano di valori numerici
- Vantaggi del prompt-chaining: Rispetta con precisione tutti i vincoli, genera problemi completi
Libreria di problemi 2:
- Problemi del prompt singolo: Traiettorie che appaiono sottoterra, invisibili e altri errori
- Quantità di generazione insufficiente: Solo 7 scenari e 13 combinazioni, anziché i 10 scenari e 26 combinazioni previsti
- Accuratezza della risposta: Le risposte generate da prompt semplici sono per lo più errate (ad es. 140 kg vs risposta corretta 148,6 kg)
- Utilizzo di strumenti: Il prompt semplice non attiva lo strumento Python, allucinando direttamente le risposte
- Qualità del testo: Il testo generato da prompt semplice è notevolmente più breve, con qualità ridotta
- Libreria di problemi 1: GenAI ha identificato e corretto 6 errori nella derivazione di formule (su 20 problemi)
- Libreria di problemi 2: Ha identificato 3 problemi in cui i distrattori erano equivalenti alla risposta corretta
- Verifica degli studenti: La libreria è stata utilizzata nell'esame di metà semestre, gli studenti non hanno segnalato errori aggiuntivi
- Metodi precedenti: Basati su template hardcoded, costi di sviluppo elevati
- Applicazione di LLM: Dijkstra et al. hanno addestrato GPT-3 per generare domande a scelta multipla; Chan et al. hanno utilizzato GPT-3.5/4 per generare problemi STEM
- Problemi isomorfi: Arendasy e Sommer hanno generato problemi di algebra attraverso template; Norberg et al. hanno utilizzato GPT-4 per riscrivere spiegazioni di problemi matematici
- AIG tradizionale: Controllo preciso ma mancanza di creatività
- Applicazione diretta di LLM: Creatività forte ma controllo difficile
- Metodo di questo articolo: Combina i vantaggi di entrambi, realizzando l'equilibrio tra controllo preciso e creatività
- Il prompt-chaining è significativamente superiore ai prompt singoli: Eccelle nella coerenza della qualità e nel rispetto dei vincoli
- L'utilizzo di strumenti è fondamentale: L'interprete Python risolve i problemi critici nel calcolo numerico e nella generazione di diagrammi
- La verifica della qualità di GenAI è efficace: Può identificare e correggere gli errori nel processo di generazione
- Il metodo è scalabile: Può generare un numero quasi illimitato di problemi isomorfi
- Valutazione della qualità singola: Valutata solo dall'autore, manca una revisione sistematica della qualità
- Caratteristiche psicometriche sconosciute: Mancano dati di test degli studenti per valutare le caratteristiche psicometriche dei problemi isomorfi
- Controllo del contesto limitato: Si concentra principalmente sulle variazioni strutturali, controllo limitato sulle variazioni contestuali
- Limitazione della complessità dei diagrammi: Supporta solo la generazione di diagrammi semplici
- Valutazione sistematica della qualità: Condurre revisioni della qualità più complete e test degli studenti
- Controllo fine del contesto: Esplorare il controllo delle variazioni contestuali come stili di scrittura diversi
- Generazione di diagrammi complessi: Estendere a tipi di diagrammi più complessi
- Progettazione automatica del prompt-chaining: Utilizzare GenAI per assistere nella progettazione del prompt-chaining
- Sistema di generazione in tempo reale: Implementare la generazione istantanea di problemi per l'assessment completamente personalizzato
- Forte innovazione metodologica: Prima integrazione sistematica di prompt-chaining e utilizzo di strumenti per la generazione di problemi isomorfi
- Alto valore pratico: Fornisce ai docenti comuni un metodo efficiente e accessibile per la creazione di problemi
- Progettazione sperimentale completa: Due librerie di problemi di diverso tipo verificano l'universalità del metodo
- Implementazione tecnica dettagliata: Fornisce prompt-chaining completo e dettagli di implementazione, forte riproducibilità
- Controllo della qualità completo: Stabilisce un ciclo completo di generazione-verifica
- Ambito di valutazione limitato: Verificato solo su due tipi di problemi nella disciplina della fisica
- Scala relativamente piccola: Il numero di problemi generati è relativamente limitato (20+26)
- Analisi dei costi mancante: Non fornisce confronto costi-benefici con metodi tradizionali
- Ricerca insufficiente con gli utenti: Manca la ricerca sull'esperienza di utilizzo di insegnanti e studenti
- Contributo al settore: Fornisce un nuovo paradigma di generazione di problemi per il campo della tecnologia educativa
- Valore pratico: Può essere applicato direttamente all'apprendimento personalizzato e ai test adattivi
- Dimostrazione tecnica: Mostra la possibilità di controllo preciso degli LLM nelle applicazioni educative
- Metodo generalizzabile: Il framework tecnico può essere esteso ad altre discipline e tipi di problemi
- Piattaforme di apprendimento personalizzato: Fornire agli studenti un numero illimitato di esercizi
- Sistemi di test adattivi: Generare problemi alternativi di difficoltà equivalente
- Strumento di supporto per insegnanti: Aiutare gli insegnanti a creare rapidamente librerie di problemi di alta qualità
- Piattaforme di educazione online: Supportare la generazione di contenuti personalizzati su larga scala
L'articolo cita 14 riferimenti correlati, che coprono lavori importanti nei campi chiave della generazione automatica di domande, creazione di problemi isomorfi e applicazioni di LLM, fornendo una base teorica solida per la ricerca.
Valutazione complessiva: Questo è un articolo di ricerca applicata di alta qualità che ha apportato contributi importanti nell'intersezione tra tecnologia educativa e applicazioni di IA. Il metodo è innovativo e pratico, la progettazione sperimentale è ragionevole e i risultati sono convincenti. Sebbene vi sia ancora spazio per miglioramenti nella scala di valutazione e nella copertura disciplinare, il lavoro indica una direzione importante per lo sviluppo del settore.