2025-11-11T11:43:09.580597

Automatically Generating Questions About Scratch Programs

ObermÃ¼ller, Fraser

When learning to program, students are usually assessed based on the code they wrote. However, the mere completion of a programming task does not guarantee actual comprehension of the underlying concepts. Asking learners questions about the code they wrote has therefore been proposed as a means to assess program comprehension. As creating targeted questions for individual student programs can be tedious and challenging, prior work has proposed to generate such questions automatically. In this paper we generalize this idea to the block-based programming language Scratch. We propose a set of 30 different questions for Scratch code covering an established program comprehension model, and extend the LitterBox static analysis tool to automatically generate corresponding questions for a given Scratch program. On a dataset of 600,913 projects we generated 54,118,694 questions automatically. Our initial experiments with 34 ninth graders demonstrate that this approach can indeed generate meaningful questions for Scratch programs, and we find that the ability of students to answer these questions on their programs relates to their overall performance.

academic

Automatically Generating Questions About Scratch Programs

基本信息

论文ID: 2510.11658
标题: Automatically Generating Questions About Scratch Programs
作者: Florian Obermüller, Gordon Fraser
分类: cs.SE (软件工程)
发表时间/会议: CompEd 2025 (ACM Global Computing Education Conference 2025)
论文链接: https://arxiv.org/abs/2510.11658

摘要

在编程学习中，学生通常基于他们编写的代码进行评估。然而，仅仅完成编程任务并不能保证对底层概念的真正理解。因此，有研究提出通过询问学习者关于其代码的问题来评估程序理解能力。由于为每个学生程序创建针对性问题既繁琐又具有挑战性，先前的工作提出了自动生成此类问题的方法。本文将这一想法推广到基于块的编程语言Scratch。我们提出了30种不同类型的Scratch代码问题，涵盖了既定的程序理解模型，并扩展了LitterBox静态分析工具来自动为给定的Scratch程序生成相应问题。在包含600,913个项目的数据集上，我们自动生成了54,118,694个问题。我们对34名九年级学生的初步实验表明，这种方法确实能够为Scratch程序生成有意义的问题，并发现学生回答这些问题的能力与其整体表现相关。

研究背景与动机

核心问题

该研究要解决的核心问题是：如何有效评估学生对自己编写的Scratch程序的理解程度，而不仅仅是检查程序是否能够正确运行。

问题重要性

理解与实现的差距：学生可能通过试错、复制或AI辅助完成编程任务，但并不真正理解底层的编程概念
评估方法的局限性：传统的评估方法主要关注代码的正确性，而非学生的程序理解能力
规模化挑战：在大规模教学场景中，教师难以为每个学生的程序手动创建个性化的理解评估问题

现有方法局限性

文本语言局限：现有的问题生成方法主要针对Java等文本编程语言，不适用于Scratch这样的块编程语言
语言特性差异：Scratch中变量通过用户界面创建而非声明语句，块无法通过行号引用
缺乏系统性：缺乏基于理论框架的系统性问题设计方法

研究动机

本文的研究动机是将已有的"关于学习者代码的问题"(Questions about Learner's Code, QLCs)概念扩展到Scratch环境，为块编程教育提供自动化的程序理解评估工具。

核心贡献

系统化问题设计：基于Block Model程序理解模型，系统性地设计了30种针对Scratch代码的问题类型
工具扩展：扩展了开源静态分析工具LitterBox，使其能够自动生成Scratch程序的理解问题
大规模验证：在包含600,913个公开Scratch项目的数据集上验证了方法的适用性
实证研究：通过34名九年级学生的课堂实验验证了问题的有效性和学生答题表现与编程能力的相关性

方法详解

任务定义

输入：一个Scratch程序项目输出：一组自动生成的关于该程序的理解问题，包括问题文本、答案选项和正确答案 约束条件：问题必须基于程序中实际存在的代码构造，且符合Block Model的理论框架

方法架构

1. 理论基础：Block Model适配

Block Model包含四个层次的关注范围和三个程序维度：

层次	文本维度	执行维度	目的维度
原子级	语言元素	元素操作	元素目的
块级	语法/语义相关区域	代码块操作	代码块功能
关系级	代码块间引用	代码块间流程	目标与子目标关系
宏级	程序整体结构	算法或程序行为	程序目标或目的

2. 问题类型设计

基于Block Model，设计了30种问题类型，分为5种答案格式：

数字型（🔢）：答案为单个数字
字符串型（📝）：答案为一个或多个字符串
是非型（✓/✗）：答案为是或否
多选型（☑️）：从选项中选择正确答案
自由文本型（📄）：开放式问题，需要解释性回答

3. 自动生成实现

通过扩展LitterBox工具实现：

AST解析：将Scratch程序转换为抽象语法树
访问者模式：为每种问题类型实现一个问题查找器
代码遍历：遍历AST识别可生成问题的代码模式
选项生成：为多选题自动生成干扰项

技术创新点

块编程适配：首次将QLCs概念系统性地应用于块编程语言
理论驱动设计：基于成熟的程序理解理论框架设计问题类型
自动化生成：实现了完全自动化的问题生成流程
多维度覆盖：问题涵盖了从基本语言元素到程序整体目的的各个层面

实验设置

数据集

大规模数据集：600,913个公开的Scratch项目，排除空项目和混合项目
课堂实验数据：34名德国九年级学生，具有Scratch编程经验
脚手架项目：使用Boat Race游戏作为课堂实验的基础项目

评价指标

问题生成频率：各类问题的生成总数和覆盖项目数
相关性分析：学生答题表现与编程任务完成度的Pearson相关系数
覆盖率分析：Block Model各维度的项目覆盖百分比

对比方法

由于是首次针对Scratch的QLCs研究，主要通过以下方式验证：

与现有文本语言QLCs的概念对比
基于理论框架的系统性验证
实际教学场景的应用验证

实现细节

工具扩展：基于LitterBox静态分析工具
输出格式：JSON格式，包含ScratchBlocks语法的代码片段
问题呈现：突出显示目标代码部分（如图1a所示）
评分机制：多选题每个正确选择0.2分，单选题正确答案1分

实验结果

主要结果

RQ1: 问题生成频率

总体统计：在600,913个项目中生成了54,118,694个问题
最高频问题：
- Purpose of Script: 9,748,844次（100%项目覆盖）
- Purpose of If Condition: 5,103,322次（41.1%项目覆盖）
- Scripts for Actor: 3,524,268次（100%项目覆盖）
最低频问题：
- My Block Definition: 368,712次（11.3%项目覆盖）
- Purpose of Loop Condition: 486,902次（15.2%项目覆盖）