2025-11-25T12:37:17.809472

Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use

Chen

We present a method for generating large numbers of isomorphic physics problems using generative AI services such as ChatGPT, through prompt chaining and tool use. This approach enables precise control over structural variations-such as numeric values and spatial relations-while supporting diverse contextual variations in the problem body. By utilizing the Python code interpreter, the method supports automatic solution validation and simple diagram generation, addressing key limitations in existing LLM-based methods. We generated two example isomorphic problem banks and compared the outcome against two simpler prompt-based approaches. Results show that prompt-chaining produces significantly higher quality and more consistent outputs than simpler, non-chaining prompts. We also show that GenAI services can be used to validate the quality of the generated isomorphic problems. This work demonstrates a promising method for efficient and scalable problem creation accessible to the average instructor, which opens new possibilities for personalized adaptive testing and automated content development.

academic

Generación confiable de problemas de física isomórficos utilizando IA generativa con encadenamiento de indicaciones y uso de herramientas

Información Básica

ID del Artículo: 2508.14755
Título: Reliable generation of isomorphic physics problems using Generative AI with prompt-chaining and tool use
Autor: Zhongzhou Chen (Universidad de Florida Central)
Clasificación: physics.ed-ph cs.AI
Fecha de Publicación: 2024
Enlace del Artículo: https://arxiv.org/abs/2508.14755

Resumen

Este artículo propone un método para generar grandes cantidades de problemas de física isomórficos utilizando servicios de IA generativa (como ChatGPT) mediante encadenamiento de indicaciones y uso de herramientas. El método permite un control preciso de variaciones estructurales (como valores numéricos y relaciones espaciales), mientras que respalda cambios de contexto diversificados en la ontología del problema. Al aprovechar el intérprete de código Python, el método respalda la verificación automática de soluciones y la generación de diagramas simples, abordando limitaciones críticas de los métodos basados en LLM existentes. La investigación generó dos bibliotecas de problemas isomórficos de ejemplo y las comparó con dos métodos basados en indicaciones más simples. Los resultados demuestran que la salida producida por el encadenamiento de indicaciones tiene una calidad significativamente mayor y más consistente.

Antecedentes de Investigación y Motivación

Pregunta de Investigación

Esta investigación aborda el desafío de la generación de problemas de física isomórficos en el ámbito educativo. Los problemas isomórficos son aquellos que evalúan conceptos y principios fundamentales idénticos pero que difieren en características superficiales, teniendo un valor importante en la evaluación personalizada, pruebas repetidas y práctica deliberada.

Importancia del Problema

Creciente demanda educativa: Con el desarrollo del aprendizaje personalizado y las pruebas adaptativas, existe una necesidad de grandes cantidades de problemas isomórficos de alta calidad
Limitaciones de métodos tradicionales: Los métodos basados en plantillas tienen altos costos de desarrollo y requieren programación especializada
Control de calidad en evaluación: Se requiere control preciso de la dificultad y estructura del problema mientras se mantiene la innovación

Limitaciones de Métodos Existentes

Métodos AQG/AIG tempranos: Dependen principalmente de plantillas codificadas, requieren tiempo de desarrollo y programación específica del dominio
Aplicación directa de LLM: Difícil de controlar la dificultad y complejidad cognitiva, frecuentemente por defecto en problemas de recuperación de hechos
Problemas de cálculo numérico: Los LLM tienden a alucinar en problemas de cálculo numérico, produciendo respuestas incorrectas
Dificultad en generación de diagramas: Los LLM existentes tienen capacidad limitada para controlar con precisión elementos visuales

Contribuciones Principales

Propone un método de generación de problemas isomórficos basado en encadenamiento de indicaciones y uso de herramientas, logrando control preciso de variaciones estructurales y diversificación de contexto
Desarrolla un proceso de generación de siete pasos que separa sistemáticamente variaciones relacionadas con la construcción de variaciones independientes de la construcción
Implementa verificación automática de soluciones y generación de diagramas a través del intérprete de código Python, resolviendo limitaciones críticas de los LLM
Construye dos bibliotecas de problemas de ejemplo y realiza comparaciones sistemáticas, demostrando la efectividad del método
Demuestra la viabilidad de servicios GenAI para verificación de calidad, estableciendo un ciclo cerrado completo de generación-verificación

Explicación Detallada del Método

Definición de Tarea

Entrada: Problema de plantilla o tipo de problema Salida: Gran cantidad de problemas de física isomórficos, incluyendo ontología del problema, solución y (opcionalmente) diagramas Restricciones:

Mantener la misma dificultad cognitiva y conceptos físicos
Control preciso de variaciones estructurales (valores numéricos, relaciones espaciales, etc.)
Respaldar cambios de contexto diversificados

Arquitectura del Método Principal

Proceso de Generación de Siete Pasos

Identificar problema de plantilla: Determinar el problema de plantilla o tipo de problema
Descomposición de componentes: Identificar los diversos componentes del problema
Definición de variaciones: Definir variaciones estructurales y contextuales y sus restricciones
Diseño de encadenamiento de indicaciones: Diseñar encadenamiento de indicaciones para generar variaciones de componentes
Optimización de ejecución: Ejecutar encadenamiento de indicaciones e iterar mejoras
Combinación de salida: Combinar componentes en problemas completos y formatear
Verificación de calidad: Utilizar GenAI para verificar la corrección de resultados generados

Conceptos Clave Diferenciados

Variaciones Estructurales (Structural Variations):

Cambios de estructura central relacionados con la construcción
Deben estar dentro de rangos precisos definidos por el usuario
Incluyen valores numéricos, disposición espacial, cantidad de objetos, etc.
Se implementan mediante combinación de generación de LLM e intérprete de herramientas Python

Variaciones Contextuales (Contextual Variations):

Cambios en características superficiales del problema
Restricciones menores pero requieren creatividad del LLM
Consideran nivel de lectura del estudiante, competencia lingüística, trasfondo cultural, etc.
Se implementan principalmente a través de capacidades generativas del LLM

Puntos de Innovación Técnica

Tecnología de encadenamiento de indicaciones: Descompone tareas complejas en múltiples subtareas, ejecutadas mediante indicaciones encadenadas, superando limitaciones de indicaciones únicas
Integración de uso de herramientas: Utiliza intérprete de código Python para cálculo numérico, verificación de restricciones y generación de diagramas
Separación de tipos de variación: Diferencia y procesa sistemáticamente variaciones estructurales y contextuales de manera independiente
Transmisión de tabla de datos: Utiliza formato de tabla para almacenar y transmitir información en el encadenamiento de indicaciones, mejorando confiabilidad

Configuración Experimental

Diseño de Biblioteca de Problemas

Biblioteca de Problemas 1: Problemas de Cálculo Numérico

Plantilla: Objeto empujado/tirado por fuerza inclinada en superficie rugosa, movimiento uniforme
Variaciones estructurales: Dirección y naturaleza de la fuerza, valores de variables, selección de variables desconocidas
Restricciones: Ángulos 10-60 grados, componente horizontal de fuerza equilibra fricción cinética
Encadenamiento de indicaciones: 5 indicaciones, generan contexto → valores numéricos → ontología del problema → solución → formateo

Biblioteca de Problemas 2: Preguntas de Opción Conceptual (con Diagramas)

Plantilla: Comparación de trayectorias de movimiento parabólico, mismo punto de inicio, diferentes alturas y alcances
Variaciones estructurales: Relación de respuestas, parámetros de trayectoria, diseño de opciones distractoras
Restricciones: Sin superposición visual, determinación de relación, diferencia visual suficiente
Encadenamiento de indicaciones: 9 indicaciones, manejan variaciones estructurales más complejas y generación de diagramas

Métodos de Comparación

Método de indicación única: Combina encadenamiento de indicaciones en una o dos indicaciones
Método de indicación simple: Indicación simplificada basada en un único ejemplo (solo para Biblioteca de Problemas 1)

Métricas de Evaluación

Calidad de salida: Completitud del problema, precisión numérica, consistencia de formato
Control estructural: Grado de cumplimiento de restricciones
Diversidad contextual: Grado de variación en escenarios y descripciones
Corrección de respuestas: Tasa de precisión verificada por GenAI

Resultados Experimentales

Resultados Principales

Efecto de Generación de Biblioteca de Problemas 1

Generación exitosa: 20 problemas isomórficos (10 GPT-4o + 10 Gemini Pro 2.5)
Control de calidad: Cada problema tiene historia de fondo única, valores numéricos apropiadamente aleatorios, respuestas correctas
Problema de ejemplo: Problema de trabajador empujando caja, incluye parámetros físicos completos y solución

Efecto de Generación de Biblioteca de Problemas 2

Generación sistemática: 26 variaciones (13 relaciones posibles × 2 opciones distractoras principales)
Calidad de diagrama: Trayectorias parabólicas generadas automáticamente por Python, claramente discernibles
Completitud del problema: Cada problema incluye descripción de situación, diagrama y cuatro opciones de selección

Resultados de Experimentos Comparativos

Indicación Única vs Encadenamiento de Indicaciones

Biblioteca de Problemas 1:

Defectos de indicación única: Ignora completamente instrucciones de generación numérica, todas las 10 versiones carecen de valores numéricos
Ventaja de encadenamiento de indicaciones: Cumple con precisión todas las restricciones, genera problemas completos

Biblioteca de Problemas 2:

Problemas de indicación única: Trayectorias aparecen bajo tierra, invisibles, etc.
Cantidad de generación insuficiente: Solo 7 escenarios y 13 combinaciones, en lugar de los 10 escenarios y 26 combinaciones esperados

Indicación Simple vs Encadenamiento de Indicaciones (Biblioteca de Problemas 1)

Precisión de respuesta: Las respuestas generadas por indicación simple son mayormente incorrectas (ej. 140 kg vs respuesta correcta 148.6 kg)
Uso de herramientas: La indicación simple no activa la herramienta Python, alucina respuestas directamente
Calidad de texto: El texto generado por indicación simple es notablemente más corto, calidad reducida

Resultados de Verificación de Calidad

Biblioteca de Problemas 1: GenAI identifica y corrige 6 errores de derivación de fórmulas (de 20 problemas)
Biblioteca de Problemas 2: Identifica 3 problemas donde opciones distractoras son equivalentes a la respuesta correcta
Verificación de estudiantes: La biblioteca se utilizó en examen parcial, estudiantes no reportaron errores adicionales

Trabajo Relacionado

Desarrollo de Generación Automática de Preguntas (AQG)

Métodos tempranos: Basados en plantillas codificadas, alto costo de desarrollo
Aplicación de LLM: Dijkstra et al. entrenaron GPT-3 para generar preguntas de opción múltiple; Chan et al. utilizaron GPT-3.5/4 para generar problemas STEM
Problemas isomórficos: Arendasy y Sommer generaron problemas de álgebra mediante plantillas; Norberg et al. utilizaron GPT-4 para reescribir explicaciones de problemas matemáticos

Comparación de Métodos Técnicos

AIG tradicional: Control preciso pero falta creatividad
Aplicación directa de LLM: Creatividad fuerte pero control difícil
Método de este artículo: Combina ventajas de ambos, logrando equilibrio entre control preciso y creatividad

Conclusiones y Discusión

Conclusiones Principales

El encadenamiento de indicaciones es significativamente superior a indicaciones únicas: Destaca en consistencia de calidad y cumplimiento de restricciones
El uso de herramientas es crítico: El intérprete Python resuelve problemas clave en cálculo numérico y generación de diagramas
La verificación de calidad de GenAI es efectiva: Puede identificar y corregir errores en el proceso de generación
El método es escalable: Puede generar cantidades casi ilimitadas de problemas isomórficos

Limitaciones

Evaluación de calidad única: Solo evaluado por el autor, falta revisión de calidad sistemática
Características psicométricas desconocidas: Falta datos de pruebas de estudiantes para evaluar características psicométricas de problemas isomórficos
Control de contexto limitado: Se enfoca principalmente en variaciones estructurales, control limitado de variaciones contextuales
Limitación de complejidad de diagramas: Solo respalda generación de diagramas simples

Direcciones Futuras

Evaluación de calidad sistemática: Realizar revisión de calidad más completa y pruebas de estudiantes
Control de contexto refinado: Explorar control de variaciones contextuales como diferentes estilos de escritura
Generación de diagramas complejos: Extender a tipos de diagramas más complejos
Diseño automático de encadenamiento de indicaciones: Utilizar GenAI para asistir en diseño de encadenamiento de indicaciones
Sistema de generación en tiempo real: Implementar generación instantánea de problemas para evaluación completamente personalizada

Evaluación Profunda

Fortalezas

Innovación metodológica fuerte: Primera combinación sistemática de encadenamiento de indicaciones y uso de herramientas para generación de problemas isomórficos
Alto valor práctico: Proporciona a maestros ordinarios un método eficiente y accesible para creación de problemas
Diseño experimental completo: Dos bibliotecas de problemas de diferentes tipos verifican universalidad del método
Implementación técnica detallada: Proporciona encadenamiento de indicaciones completo y detalles de implementación, fuerte reproducibilidad
Control de calidad completo: Establece ciclo cerrado completo de generación-verificación

Insuficiencias

Alcance de evaluación limitado: Verificado solo en dos tipos de problemas en disciplina de física
Escala relativamente pequeña: Cantidad de problemas generados relativamente limitada (20+26)
Análisis de costos faltante: No proporciona comparación de costo-beneficio con métodos tradicionales
Investigación de usuarios insuficiente: Falta investigación de experiencia de uso de maestros y estudiantes

Impacto

Contribución disciplinaria: Proporciona nuevo paradigma de generación de problemas para campo de tecnología educativa
Valor práctico: Aplicable directamente a aprendizaje personalizado y sistemas de pruebas adaptativas
Demostración técnica: Demuestra posibilidad de control preciso de LLM en aplicaciones educativas
Marco metodológico generalizable: Marco técnico extensible a otras disciplinas y tipos de problemas

Escenarios Aplicables

Plataformas de aprendizaje personalizado: Proporciona cantidad ilimitada de problemas de práctica para estudiantes
Sistemas de pruebas adaptativas: Genera problemas alternativos de dificultad equivalente
Herramienta de asistencia docente: Ayuda a maestros a crear rápidamente bibliotecas de problemas de alta calidad
Plataformas de educación en línea: Respalda generación de contenido personalizado a gran escala

Referencias

El artículo cita 14 referencias relacionadas, cubriendo trabajo importante en generación automática de preguntas, creación de problemas isomórficos, aplicaciones de LLM y otros campos clave, proporcionando base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación aplicada de alta calidad que realiza contribuciones importantes en la intersección de tecnología educativa y aplicaciones de IA. El método es novedoso y práctico, el diseño experimental es razonable y los resultados son convincentes. Aunque hay espacio para mejora en escala de evaluación y cobertura disciplinaria, proporciona dirección importante para el desarrollo del campo.