2025-11-11T11:43:09.580597

Automatically Generating Questions About Scratch Programs

ObermÃ¼ller, Fraser

When learning to program, students are usually assessed based on the code they wrote. However, the mere completion of a programming task does not guarantee actual comprehension of the underlying concepts. Asking learners questions about the code they wrote has therefore been proposed as a means to assess program comprehension. As creating targeted questions for individual student programs can be tedious and challenging, prior work has proposed to generate such questions automatically. In this paper we generalize this idea to the block-based programming language Scratch. We propose a set of 30 different questions for Scratch code covering an established program comprehension model, and extend the LitterBox static analysis tool to automatically generate corresponding questions for a given Scratch program. On a dataset of 600,913 projects we generated 54,118,694 questions automatically. Our initial experiments with 34 ninth graders demonstrate that this approach can indeed generate meaningful questions for Scratch programs, and we find that the ability of students to answer these questions on their programs relates to their overall performance.

academic

Automatische Generierung von Fragen zu Scratch-Programmen

Grundlegende Informationen

Paper-ID: 2510.11658
Titel: Automatically Generating Questions About Scratch Programs
Autoren: Florian Obermüller, Gordon Fraser
Klassifizierung: cs.SE (Softwaretechnik)
Veröffentlichungszeit/Konferenz: CompEd 2025 (ACM Global Computing Education Conference 2025)
Paper-Link: https://arxiv.org/abs/2510.11658

Zusammenfassung

Beim Programmierunterricht werden Schüler normalerweise anhand des von ihnen geschriebenen Codes bewertet. Die bloße Fertigstellung einer Programmieraufgabe garantiert jedoch nicht das echte Verständnis der zugrunde liegenden Konzepte. Daher wurde in früheren Forschungsarbeiten vorgeschlagen, die Programmverständnisfähigkeit von Lernenden durch Fragen zu ihrem Code zu bewerten. Da die Erstellung gezielter Fragen für jedes Schülerprogramm mühsam und herausfordernd ist, haben frühere Arbeiten Methoden zur automatischen Generierung solcher Fragen vorgeschlagen. Dieses Paper erweitert diese Idee auf die blockbasierte Programmiersprache Scratch. Wir präsentieren 30 verschiedene Arten von Scratch-Code-Fragen, die etablierte Programmverständnismodelle abdecken, und erweitern das statische Analysetool LitterBox, um automatisch entsprechende Fragen für ein gegebenes Scratch-Programm zu generieren. Auf einem Datensatz mit 600.913 Projekten haben wir automatisch 54.118.694 Fragen generiert. Vorläufige Experimente mit 34 Schülern der neunten Klasse zeigen, dass diese Methode tatsächlich aussagekräftige Fragen für Scratch-Programme generieren kann und dass die Fähigkeit der Schüler, diese Fragen zu beantworten, mit ihrer Gesamtleistung korreliert.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist: Wie kann man effektiv bewerten, inwieweit Schüler die von ihnen geschriebenen Scratch-Programme verstehen, anstatt nur zu überprüfen, ob das Programm korrekt funktioniert?

Bedeutung des Problems

Lücke zwischen Verständnis und Implementierung: Schüler können Programmieraufgaben durch Ausprobieren, Kopieren oder KI-Unterstützung abschließen, ohne die zugrunde liegenden Programmierkonzepte wirklich zu verstehen
Einschränkungen von Bewertungsmethoden: Traditionelle Bewertungsmethoden konzentrieren sich hauptsächlich auf die Korrektheit des Codes, nicht auf die Programmverständnisfähigkeit der Schüler
Skalierungsherausforderung: In großflächigen Unterrichtsszenarien ist es für Lehrer schwierig, für jedes Schülerprogramm manuell personalisierte Verständnisbewertungsfragen zu erstellen

Einschränkungen bestehender Methoden

Einschränkung auf Textsprachen: Bestehende Methoden zur Fragegenerierung konzentrieren sich hauptsächlich auf Textprogrammiersprachen wie Java und sind nicht auf blockbasierte Sprachen wie Scratch anwendbar
Unterschiede in Sprachmerkmalen: In Scratch werden Variablen über die Benutzeroberfläche erstellt, nicht durch Deklarationsanweisungen, und Blöcke können nicht durch Zeilennummern referenziert werden
Mangel an Systematik: Es fehlt ein systematischer Ansatz zur Fragenerstellung auf Grundlage eines theoretischen Rahmens

Forschungsmotivation

Die Motivation dieser Arbeit ist es, das bestehende Konzept der "Fragen zum Code des Lernenden" (Questions about Learner's Code, QLCs) auf die Scratch-Umgebung auszuweiten und ein automatisiertes Bewertungstool für das Programmverständnis in der blockbasierten Programmierausbildung bereitzustellen.

Kernbeiträge

Systematische Fragenerstellung: Basierend auf dem Block Model-Programmverständnismodell wurden systematisch 30 verschiedene Arten von Fragen für Scratch-Code entworfen
Tool-Erweiterung: Das Open-Source-Tool zur statischen Analyse LitterBox wurde erweitert, um automatisch Verständnisfragen für Scratch-Programme zu generieren
Großflächige Validierung: Die Methode wurde auf einem Datensatz mit 600.913 öffentlichen Scratch-Projekten validiert
Empirische Forschung: Durch Klassenexperimente mit 34 Schülern der neunten Klasse wurde die Wirksamkeit der Fragen und die Korrelation zwischen Antwortleistung und Programmierfähigkeit nachgewiesen

Methodische Details

Aufgabendefinition

Eingabe: Ein Scratch-Programmprojekt Ausgabe: Ein Satz automatisch generierter Verständnisfragen zum Programm, einschließlich Fragetext, Antwortalternativen und korrekter Antwort Einschränkungen: Fragen müssen auf tatsächlich im Programm vorhandenen Codekonstrukten basieren und dem theoretischen Rahmen des Block Model entsprechen

Methodische Architektur

1. Theoretische Grundlage: Block Model-Anpassung

Das Block Model umfasst vier Ebenen des Fokus und drei Programmdimensionen:

Ebene	Textdimension	Ausführungsdimension	Zweckdimension
Atomare Ebene	Sprachelemente	Elementoperationen	Elementzweck
Block-Ebene	Syntax-/Semantik-bezogene Bereiche	Codeblock-Operationen	Codeblock-Funktionalität
Beziehungsebene	Referenzen zwischen Codeblöcken	Kontrollfluss zwischen Codeblöcken	Ziel- und Unterzielbeziehungen
Makroebene	Gesamtprogrammstruktur	Algorithmus oder Programmverhalten	Programm-Ziel oder -Zweck

2. Fragentypdesign

Basierend auf dem Block Model wurden 30 Fragetypen mit 5 Antwortformaten entworfen:

Numerisch (🔢): Antwort ist eine einzelne Zahl
Zeichenkette (📝): Antwort ist eine oder mehrere Zeichenketten
Ja/Nein (✓/✗): Antwort ist ja oder nein
Multiple Choice (☑️): Wählen Sie die richtige Antwort aus Optionen
Freier Text (📄): Offene Fragen, die erklärende Antworten erfordern

3. Automatische Generierungsimplementierung

Implementiert durch Erweiterung des LitterBox-Tools:

AST-Parsing: Konvertierung des Scratch-Programms in einen abstrakten Syntaxbaum
Visitor-Muster: Implementierung eines Fragenfinders für jeden Fragetyp
Code-Traversierung: Durchlaufen des AST zur Identifikation von Codemustern, die Fragen generieren können
Optionsgenerierung: Automatische Generierung von Distraktoren für Multiple-Choice-Fragen

Technische Innovationspunkte

Blockprogrammieradaption: Erste systematische Anwendung des QLCs-Konzepts auf blockbasierte Programmiersprachen
Theoriegesteuerte Gestaltung: Fragentypdesign basierend auf einem etablierten theoretischen Rahmen für Programmverständnis
Automatisierte Generierung: Vollständig automatisierter Fragengenerierungsprozess
Mehrdimensionale Abdeckung: Fragen decken alle Ebenen vom grundlegenden Sprachelemente bis zum Gesamtzweck des Programms ab

Experimentelle Einrichtung

Datensätze

Großflächiger Datensatz: 600.913 öffentliche Scratch-Projekte, ausgenommen leere und gemischte Projekte
Klassenzimmerdaten: 34 deutsche Schüler der neunten Klasse mit Scratch-Programmiererfahrung
Gerüstprojekte: Verwendung des Boat Race-Spiels als Grundlagenprojekt für Klassenexperimente

Bewertungsmetriken

Fragengenerierungsfrequenz: Gesamtzahl und Projektabdeckung für jeden Fragetyp
Korrelationsanalyse: Pearson-Korrelationskoeffizient zwischen Antwortleistung und Aufgabenvollständigkeit
Abdeckungsanalyse: Projektabdeckungsprozentsatz für jede Dimension des Block Model

Vergleichsmethoden

Da dies die erste QLCs-Forschung für Scratch ist, wird die Validierung hauptsächlich durch folgende Methoden durchgeführt:

Konzeptvergleich mit bestehenden QLCs für Textsprachen
Systematische Validierung basierend auf dem theoretischen Rahmen
Validierung in realen Unterrichtsszenarien

Implementierungsdetails

Tool-Erweiterung: Basierend auf dem LitterBox-Tool zur statischen Analyse
Ausgabeformat: JSON-Format mit Codeausschnitten in ScratchBlocks-Syntax
Fragenpräsentation: Hervorhebung des Zielcodeabschnitts (wie in Abbildung 1a gezeigt)
Bewertungsmechanismus: 0,2 Punkte pro korrekte Auswahl bei Multiple-Choice-Fragen, 1 Punkt für korrekte Antwort bei Einfachauswahl

Experimentelle Ergebnisse

Hauptergebnisse

RQ1: Fragengenerierungsfrequenz

Gesamtstatistik: 54.118.694 Fragen wurden in 600.913 Projekten generiert
Häufigste Fragen:
- Purpose of Script: 9.748.844 Mal (100% Projektabdeckung)
- Purpose of If Condition: 5.103.322 Mal (41,1% Projektabdeckung)
- Scripts for Actor: 3.524.268 Mal (100% Projektabdeckung)
Seltenste Fragen:
- My Block Definition: 368.712 Mal (11,3% Projektabdeckung)
- Purpose of Loop Condition: 486.902 Mal (15,2% Projektabdeckung)

Block Model-Abdeckungsanalyse

Dimension	Atomare Ebene	Block-Ebene	Beziehungsebene	Makroebene
Text	64,5%	61,2%	46,5%	100,0%
Ausführung	30,4%	58,4%	99,0%	71,1%
Zweck	49,0%	100,0%	31,2%	100,0%

RQ2: Korrelation zwischen Antwortleistung und Programmierfähigkeit

Korrelationskoeffizient: r = 0,467 (p = 0,005)
Korrelationsstärke: Mittlere positive Korrelation
Statistische Signifikanz: p < 0,01, statistisch signifikant
Praktische Bedeutung: Die Fähigkeit der Schüler, QLCs zu beantworten, korreliert signifikant mit ihrer Aufgabenvollständigkeit

Experimentelle Erkenntnisse

Universalitätsvalidierung: Alle 30 Fragetypen können häufig in realen Projekten generiert werden
Hierarchische Merkmale: Fragen auf höherer Ebene (wie Programmpurpose) können in fast allen Projekten generiert werden, während Fragen auf niedrigerer Ebene von spezifischen Programmierkonstrukten abhängen
Wirksamkeitsnachweis: QLCs können tatsächlich als wirksamer Indikator für Programmverständnisfähigkeit verwendet werden
Pädagogischer Wert: Kann zur Erkennung von Wissenslücken bei Schülern verwendet werden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Technische Machbarkeit: Automatische Generierung großer Mengen aussagekräftiger Verständnisfragen für Scratch-Programme ist möglich
Pädagogische Wirksamkeit: Generierte Fragen können die Programmverständnisfähigkeit von Schülern effektiv bewerten
Praktischer Wert: Bereitstellung eines skalierbaren automatisierten Bewertungstools für die Scratch-Ausbildung

Einschränkungen

Bewertung von Freitextantworten: Automatische Bewertung offener Fragen erfordert weiterhin menschliche Beteiligung
Fragabdeckung: Bestimmte Scratch-spezifische Konstrukte haben unzureichende Abdeckung auf niedrigeren Ebenen
Experimentelle Skalierung: Klassenzimmerstichprobe ist relativ klein (34 Schüler)
Zeitliche Einschränkung: Zeitliche Einschränkungen im Klassenzimmer können die Ergebnisse beeinflussen

Zukünftige Richtungen

LLM-Integration: Nutzung großer Sprachmodelle zur automatischen Bewertung von Freitextantworten
Fragenerweiterung: Hinzufügen weiterer Fragetypen für Scratch-spezifische Konstrukte
Benutzeroberfläche: Entwicklung einer für den Klassenzimmergebrauch geeigneten Schnittstelle zur Fragengenerierung und -verwaltung
Langzeiteffektstudien: Bewertung der langfristigen Auswirkungen von QLCs auf Lernergebnisse

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste systematische Anwendung von QLCs auf blockbasierte Programmiersprachen, schließt eine Forschungslücke
Solide theoretische Grundlage: Systematisches Design basierend auf dem Block Model gewährleistet theoretische Vollständigkeit der Fragen
Umfassende Experimente: Kombination von großflächiger Datenanalyse und Klassenexperimenten validiert Machbarkeit und Wirksamkeit der Methode
Hoher praktischer Wert: Die Veröffentlichung von Open-Source-Tools ermöglicht direkte Anwendung der Forschungsergebnisse in der Unterrichtspraxis
Klare Darstellung: Klare Papierstruktur und genaue Beschreibung technischer Details

Schwächen

Bewertungseinschränkungen: Automatische Bewertung von Freitextfragen erfordert weiterhin menschliche Beteiligung, was die vollständige Automatisierung einschränkt
Stichprobenbeschränkung: Kleine Stichprobengröße bei Klassenexperimenten erfordert größflächigere Validierung
Unzureichende Tiefenanalyse: Mangel an feingranularer Analyse der Wirksamkeit verschiedener Fragetypen
Adaptivitätsprobleme: Unzureichende Diskussion zur Anpassung an verschiedene Altersgruppen und Fähigkeitsstufen von Schülern

Einflussfähigkeit

Akademischer Beitrag: Bietet neue Forschungsrichtung und Tools für das Feld der Programmierausbildungsbewertung
Praktischer Wert: Bereitstellung praktischer automatisierter Bewertungstools für Scratch-Lehrer
Reproduzierbarkeit: Open-Source-Code und detaillierte experimentelle Einrichtung gewährleisten Reproduzierbarkeit der Forschung
Ausbreitungspotenzial: Methode ist auf andere blockbasierte Programmiersprachen und Plattformen erweiterbar

Anwendungsszenarien

K-12-Programmierausbildung: Besonders geeignet für Klassenzimmer, die Scratch zur Programmiereinführung verwenden
Online-Lernplattformen: Kann in Online-Programmierlernplattformen integriert werden, um automatisches Feedback bereitzustellen
Lehrerfortbildung: Hilft Lehrern, das Programmverständnisniveau von Schülern besser zu verstehen
Forschungswerkzeuge: Bietet standardisierte Bewertungswerkzeuge für Programmierausbildungsforschung

Literaturverzeichnis

Das Paper zitiert 23 wichtige Referenzen, die Programmverständnistheorie, Programmierausbildungsbewertung, Scratch-Analysetools und verwandte Forschungsergebnisse abdecken. Besondere Aufmerksamkeit verdienen die Originalarbeiten zum Block Model, verwandte Arbeiten zum LitterBox-Tool sowie empirische Forschung zur Beziehung zwischen Programmverständnis und Programmierfähigkeit.