We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.
Generación confiable de problemas de física isomórficos utilizando IA generativa con encadenamiento de indicaciones y uso de herramientas
- ID del Artículo: 2508.14755
- Título: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
- Autor: Zhongzhou Chen (Universidad de Florida Central)
- Clasificación: physics.ed-ph cs.AI
- Fecha de Publicación: 2024
- Enlace del Artículo: https://arxiv.org/abs/2508.14755
Este artículo propone un método para generar grandes cantidades de problemas de física isomórficos utilizando servicios de IA generativa (como ChatGPT) mediante encadenamiento de indicaciones y uso de herramientas. El método permite un control preciso de variaciones estructurales (como valores numéricos y relaciones espaciales), mientras que respalda cambios de contexto diversificados en la ontología del problema. Al aprovechar el intérprete de código Python, el método respalda la verificación automática de soluciones y la generación de diagramas simples, abordando limitaciones críticas de los métodos basados en LLM existentes. La investigación generó dos bibliotecas de problemas isomórficos de ejemplo y las comparó con dos métodos basados en indicaciones más simples. Los resultados demuestran que la salida producida por el encadenamiento de indicaciones tiene una calidad significativamente mayor y más consistente.
Esta investigación aborda el desafío de la generación de problemas de física isomórficos en el ámbito educativo. Los problemas isomórficos son aquellos que evalúan conceptos y principios fundamentales idénticos pero que difieren en características superficiales, teniendo un valor importante en la evaluación personalizada, pruebas repetidas y práctica deliberada.
- Creciente demanda educativa: Con el desarrollo del aprendizaje personalizado y las pruebas adaptativas, existe una necesidad de grandes cantidades de problemas isomórficos de alta calidad
- Limitaciones de métodos tradicionales: Los métodos basados en plantillas tienen altos costos de desarrollo y requieren programación especializada
- Control de calidad en evaluación: Se requiere control preciso de la dificultad y estructura del problema mientras se mantiene la innovación
- Métodos AQG/AIG tempranos: Dependen principalmente de plantillas codificadas, requieren tiempo de desarrollo y programación específica del dominio
- Aplicación directa de LLM: Difícil de controlar la dificultad y complejidad cognitiva, frecuentemente por defecto en problemas de recuperación de hechos
- Problemas de cálculo numérico: Los LLM tienden a alucinar en problemas de cálculo numérico, produciendo respuestas incorrectas
- Dificultad en generación de diagramas: Los LLM existentes tienen capacidad limitada para controlar con precisión elementos visuales
- Propone un método de generación de problemas isomórficos basado en encadenamiento de indicaciones y uso de herramientas, logrando control preciso de variaciones estructurales y diversificación de contexto
- Desarrolla un proceso de generación de siete pasos que separa sistemáticamente variaciones relacionadas con la construcción de variaciones independientes de la construcción
- Implementa verificación automática de soluciones y generación de diagramas a través del intérprete de código Python, resolviendo limitaciones críticas de los LLM
- Construye dos bibliotecas de problemas de ejemplo y realiza comparaciones sistemáticas, demostrando la efectividad del método
- Demuestra la viabilidad de servicios GenAI para verificación de calidad, estableciendo un ciclo cerrado completo de generación-verificación
Entrada: Problema de plantilla o tipo de problema
Salida: Gran cantidad de problemas de física isomórficos, incluyendo ontología del problema, solución y (opcionalmente) diagramas
Restricciones:
- Mantener la misma dificultad cognitiva y conceptos físicos
- Control preciso de variaciones estructurales (valores numéricos, relaciones espaciales, etc.)
- Respaldar cambios de contexto diversificados
- Identificar problema de plantilla: Determinar el problema de plantilla o tipo de problema
- Descomposición de componentes: Identificar los diversos componentes del problema
- Definición de variaciones: Definir variaciones estructurales y contextuales y sus restricciones
- Diseño de encadenamiento de indicaciones: Diseñar encadenamiento de indicaciones para generar variaciones de componentes
- Optimización de ejecución: Ejecutar encadenamiento de indicaciones e iterar mejoras
- Combinación de salida: Combinar componentes en problemas completos y formatear
- Verificación de calidad: Utilizar GenAI para verificar la corrección de resultados generados
Variaciones Estructurales (Structural Variations):
- Cambios de estructura central relacionados con la construcción
- Deben estar dentro de rangos precisos definidos por el usuario
- Incluyen valores numéricos, disposición espacial, cantidad de objetos, etc.
- Se implementan mediante combinación de generación de LLM e intérprete de herramientas Python
Variaciones Contextuales (Contextual Variations):
- Cambios en características superficiales del problema
- Restricciones menores pero requieren creatividad del LLM
- Consideran nivel de lectura del estudiante, competencia lingüística, trasfondo cultural, etc.
- Se implementan principalmente a través de capacidades generativas del LLM
- Tecnología de encadenamiento de indicaciones: Descompone tareas complejas en múltiples subtareas, ejecutadas mediante indicaciones encadenadas, superando limitaciones de indicaciones únicas
- Integración de uso de herramientas: Utiliza intérprete de código Python para cálculo numérico, verificación de restricciones y generación de diagramas
- Separación de tipos de variación: Diferencia y procesa sistemáticamente variaciones estructurales y contextuales de manera independiente
- Transmisión de tabla de datos: Utiliza formato de tabla para almacenar y transmitir información en el encadenamiento de indicaciones, mejorando confiabilidad
- Plantilla: Objeto empujado/tirado por fuerza inclinada en superficie rugosa, movimiento uniforme
- Variaciones estructurales: Dirección y naturaleza de la fuerza, valores de variables, selección de variables desconocidas
- Restricciones: Ángulos 10-60 grados, componente horizontal de fuerza equilibra fricción cinética
- Encadenamiento de indicaciones: 5 indicaciones, generan contexto → valores numéricos → ontología del problema → solución → formateo
- Plantilla: Comparación de trayectorias de movimiento parabólico, mismo punto de inicio, diferentes alturas y alcances
- Variaciones estructurales: Relación de respuestas, parámetros de trayectoria, diseño de opciones distractoras
- Restricciones: Sin superposición visual, determinación de relación, diferencia visual suficiente
- Encadenamiento de indicaciones: 9 indicaciones, manejan variaciones estructurales más complejas y generación de diagramas
- Método de indicación única: Combina encadenamiento de indicaciones en una o dos indicaciones
- Método de indicación simple: Indicación simplificada basada en un único ejemplo (solo para Biblioteca de Problemas 1)
- Calidad de salida: Completitud del problema, precisión numérica, consistencia de formato
- Control estructural: Grado de cumplimiento de restricciones
- Diversidad contextual: Grado de variación en escenarios y descripciones
- Corrección de respuestas: Tasa de precisión verificada por GenAI
- Generación exitosa: 20 problemas isomórficos (10 GPT-4o + 10 Gemini Pro 2.5)
- Control de calidad: Cada problema tiene historia de fondo única, valores numéricos apropiadamente aleatorios, respuestas correctas
- Problema de ejemplo: Problema de trabajador empujando caja, incluye parámetros físicos completos y solución
- Generación sistemática: 26 variaciones (13 relaciones posibles × 2 opciones distractoras principales)
- Calidad de diagrama: Trayectorias parabólicas generadas automáticamente por Python, claramente discernibles
- Completitud del problema: Cada problema incluye descripción de situación, diagrama y cuatro opciones de selección
Biblioteca de Problemas 1:
- Defectos de indicación única: Ignora completamente instrucciones de generación numérica, todas las 10 versiones carecen de valores numéricos
- Ventaja de encadenamiento de indicaciones: Cumple con precisión todas las restricciones, genera problemas completos
Biblioteca de Problemas 2:
- Problemas de indicación única: Trayectorias aparecen bajo tierra, invisibles, etc.
- Cantidad de generación insuficiente: Solo 7 escenarios y 13 combinaciones, en lugar de los 10 escenarios y 26 combinaciones esperados
- Precisión de respuesta: Las respuestas generadas por indicación simple son mayormente incorrectas (ej. 140 kg vs respuesta correcta 148.6 kg)
- Uso de herramientas: La indicación simple no activa la herramienta Python, alucina respuestas directamente
- Calidad de texto: El texto generado por indicación simple es notablemente más corto, calidad reducida
- Biblioteca de Problemas 1: GenAI identifica y corrige 6 errores de derivación de fórmulas (de 20 problemas)
- Biblioteca de Problemas 2: Identifica 3 problemas donde opciones distractoras son equivalentes a la respuesta correcta
- Verificación de estudiantes: La biblioteca se utilizó en examen parcial, estudiantes no reportaron errores adicionales
- Métodos tempranos: Basados en plantillas codificadas, alto costo de desarrollo
- Aplicación de LLM: Dijkstra et al. entrenaron GPT-3 para generar preguntas de opción múltiple; Chan et al. utilizaron GPT-3.5/4 para generar problemas STEM
- Problemas isomórficos: Arendasy y Sommer generaron problemas de álgebra mediante plantillas; Norberg et al. utilizaron GPT-4 para reescribir explicaciones de problemas matemáticos
- AIG tradicional: Control preciso pero falta creatividad
- Aplicación directa de LLM: Creatividad fuerte pero control difícil
- Método de este artículo: Combina ventajas de ambos, logrando equilibrio entre control preciso y creatividad
- El encadenamiento de indicaciones es significativamente superior a indicaciones únicas: Destaca en consistencia de calidad y cumplimiento de restricciones
- El uso de herramientas es crítico: El intérprete Python resuelve problemas clave en cálculo numérico y generación de diagramas
- La verificación de calidad de GenAI es efectiva: Puede identificar y corregir errores en el proceso de generación
- El método es escalable: Puede generar cantidades casi ilimitadas de problemas isomórficos
- Evaluación de calidad única: Solo evaluado por el autor, falta revisión de calidad sistemática
- Características psicométricas desconocidas: Falta datos de pruebas de estudiantes para evaluar características psicométricas de problemas isomórficos
- Control de contexto limitado: Se enfoca principalmente en variaciones estructurales, control limitado de variaciones contextuales
- Limitación de complejidad de diagramas: Solo respalda generación de diagramas simples
- Evaluación de calidad sistemática: Realizar revisión de calidad más completa y pruebas de estudiantes
- Control de contexto refinado: Explorar control de variaciones contextuales como diferentes estilos de escritura
- Generación de diagramas complejos: Extender a tipos de diagramas más complejos
- Diseño automático de encadenamiento de indicaciones: Utilizar GenAI para asistir en diseño de encadenamiento de indicaciones
- Sistema de generación en tiempo real: Implementar generación instantánea de problemas para evaluación completamente personalizada
- Innovación metodológica fuerte: Primera combinación sistemática de encadenamiento de indicaciones y uso de herramientas para generación de problemas isomórficos
- Alto valor práctico: Proporciona a maestros ordinarios un método eficiente y accesible para creación de problemas
- Diseño experimental completo: Dos bibliotecas de problemas de diferentes tipos verifican universalidad del método
- Implementación técnica detallada: Proporciona encadenamiento de indicaciones completo y detalles de implementación, fuerte reproducibilidad
- Control de calidad completo: Establece ciclo cerrado completo de generación-verificación
- Alcance de evaluación limitado: Verificado solo en dos tipos de problemas en disciplina de física
- Escala relativamente pequeña: Cantidad de problemas generados relativamente limitada (20+26)
- Análisis de costos faltante: No proporciona comparación de costo-beneficio con métodos tradicionales
- Investigación de usuarios insuficiente: Falta investigación de experiencia de uso de maestros y estudiantes
- Contribución disciplinaria: Proporciona nuevo paradigma de generación de problemas para campo de tecnología educativa
- Valor práctico: Aplicable directamente a aprendizaje personalizado y sistemas de pruebas adaptativas
- Demostración técnica: Demuestra posibilidad de control preciso de LLM en aplicaciones educativas
- Marco metodológico generalizable: Marco técnico extensible a otras disciplinas y tipos de problemas
- Plataformas de aprendizaje personalizado: Proporciona cantidad ilimitada de problemas de práctica para estudiantes
- Sistemas de pruebas adaptativas: Genera problemas alternativos de dificultad equivalente
- Herramienta de asistencia docente: Ayuda a maestros a crear rápidamente bibliotecas de problemas de alta calidad
- Plataformas de educación en línea: Respalda generación de contenido personalizado a gran escala
El artículo cita 14 referencias relacionadas, cubriendo trabajo importante en generación automática de preguntas, creación de problemas isomórficos, aplicaciones de LLM y otros campos clave, proporcionando base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación aplicada de alta calidad que realiza contribuciones importantes en la intersección de tecnología educativa y aplicaciones de IA. El método es novedoso y práctico, el diseño experimental es razonable y los resultados son convincentes. Aunque hay espacio para mejora en escala de evaluación y cobertura disciplinaria, proporciona dirección importante para el desarrollo del campo.