2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman
In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
academic

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

基本信息

  • 论文ID: 2412.09475
  • 标题: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
  • 作者: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
  • 分类: cs.CV cs.AI
  • 发表时间/会议: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
  • 论文链接: https://arxiv.org/abs/2412.09475

摘要

本文提出了一种新颖的基于关键点的分类模型,用于识别连续手语序列中的英国手语(BSL)单词。该模型在BOBSL数据集上进行评估,结果表明基于关键点的方法在计算效率和内存使用方面超越了基于RGB的对应方法,同时提供更快的训练时间并需要更少的计算资源。据作者所知,这是首次将基于关键点的模型应用于BSL单词分类,因此无法与现有工作进行直接比较。

研究背景与动机

问题定义

手语识别是一个重要的计算机视觉任务,旨在从视频序列中自动识别手语单词或短语。传统方法主要依赖RGB视频,但存在计算复杂度高、对环境因素敏感等问题。

重要性

  1. 社会意义: 提高聋人社区的可访问性,促进包容性交流
  2. 技术挑战: 连续手语中的协同发音(co-articulation)现象使得识别任务极具挑战性
  3. 实时需求: 实际应用需要能够实时处理的高效模型

现有方法局限性

  1. RGB方法: 计算复杂度高,内存占用大,训练时间长
  2. 环境敏感: 容易受光照、服装等外在因素影响
  3. 实时性差: 难以满足实时应用需求

研究动机

作者提出使用2D关键点表示来解决上述问题,主要基于三个原因:

  1. 可控性:能够灵活选择关键点子集,控制计算成本
  2. 紧凑性:消除光照、服装等干扰因素,提供更紧凑的表示
  3. 实时性:关键点可以实时计算,支持实时模型执行

核心贡献

  1. 首创性应用: 首次将基于关键点的方法应用于BSL单词分类任务
  2. 高效架构: 提出基于Transformer的关键点序列处理架构
  3. 计算效率: 相比RGB方法显著降低计算成本、内存使用和训练时间
  4. 实用价值: 为手语识别提供了一种更加高效和实用的解决方案

方法详解

任务定义

  • 输入: 连续BSL手语视频序列的2D关键点表示
  • 输出: 8162个BSL单词类别的分类结果
  • 约束: 处理协同发音现象,支持实时处理

关键点提取

使用MediaPipe库提取关键点:

  • 姿态关键点: 33个
  • 手部关键点: 左手和右手各21个
  • 面部关键点: 468个(在203kp模型中减少到128个)
  • 总计: 543个关键点(或203个关键点的简化版本)

模型架构

输入表示

  • 提取连续16帧的关键点序列(基于研究发现协同发音持续13-20帧)
  • 形成16 × K × 2的三维向量,其中K为每帧关键点数量

Transformer架构

  1. Tokenizer: 对输入数据进行标记化
  2. 位置编码: 添加位置信息以区分序列中的顺序
  3. 编码器: 6层编码器,每层包含:
    • 多头自注意力机制(8个注意力头)
    • 位置前馈神经网络
    • 层归一化
  4. 生成器: 将学习到的表示转换为分类输出

注意力机制

  • Frame-wise Attention: 帧级别的注意力模型
  • Trajectory-wise Attention: 轨迹级别的注意力模型
  • 使用缩放点积注意力机制

技术创新点

  1. 直接关键点输入: 不同于基于图神经网络的方法,直接将关键点作为Transformer输入
  2. 时序建模: 利用Transformer的自注意力机制捕获长程依赖关系
  3. 多尺度关键点: 探索不同数量的关键点配置以平衡性能和效率
  4. 数据增强: 针对关键点设计的增强策略(平移、缩放、旋转、翻转)

实验设置

数据集

BOBSL数据集:

  • 规模: 1,467小时的BBC节目
  • 分辨率: 444×444像素,25fps
  • 词汇量: 8,162个手语单词
  • 签名者: 39名手语翻译员
  • 训练集: 8,162个唯一单词,3,555,141帧
  • 验证集: 3,348个单词,53,768帧
  • 划分策略: 按签名者划分,确保训练、验证、测试集之间无签名者重叠

评价指标

  • Top-5准确率

实现细节

  • 优化器: Adam优化器,学习率1e-4
  • 批大小: 128
  • 早停策略: 验证损失连续3个epoch无改善时停止
  • 模型维度: 512维嵌入
  • 参数量: 23.9百万参数(vs RGB模型的34.5百万)

实验结果

主要结果

  • 准确率: Top-5准确率达到60%
  • 参数效率: 相比RGB方法减少30.7%的参数量(23.9M vs 34.5M)
  • 计算效率: 显著降低计算成本、内存使用和训练时间

关键点数量对比

  • 543关键点模型: 使用468个面部关键点
  • 203关键点模型: 使用128个面部关键点
  • 发现: 增加面部关键点数量能够提升性能

数据增强效果

测试了多种增强技术:

  1. 平移增强: 提供最大的性能提升
  2. 缩放增强: 90-110%范围内缩放
  3. 旋转增强: 小角度旋转
  4. 水平翻转: 镜像翻转

每种增强方法都能单独提升模型性能,其中平移增强效果最佳。

实验发现

  1. 面部关键点对BSL识别至关重要
  2. 基于关键点的方法在保持合理准确率的同时大幅降低计算成本
  3. 数据增强技术对关键点模型同样有效

相关工作

BSL识别研究

  • 以往工作主要使用RGB视频进行BSL识别
  • 重点关注协同发音和唇部模式识别
  • 本文是首个纯关键点方法

关键点表示研究

  • 从手工特征工程发展到深度学习方法(CNNs)
  • 图神经网络(GNNs)在动作识别、手势识别中的应用
  • Transformer架构在计算机视觉中的成功应用

技术对比

本文采用直接将关键点输入Transformer的方法,区别于构建图神经网络的传统做法。

结论与讨论

主要结论

  1. 基于关键点的方法在BSL识别中具有显著的计算优势
  2. Transformer架构能够有效处理关键点序列
  3. 面部关键点对BSL识别性能至关重要
  4. 适当的数据增强能够进一步提升模型性能

局限性

  1. 准确率: 60%的准确率仍有提升空间
  2. 比较缺失: 作为首个关键点方法,缺乏直接比较基准
  3. 数据集限制: 仅在BOBSL数据集上验证
  4. 实时性验证: 缺乏实际实时性能测试

未来方向

  1. 多模态融合: 结合关键点和RGB图像以提高准确率
  2. 3D姿态估计: 探索序列级3D姿态估计技术
  3. 骨架图像: 尝试基于关键点的黑白骨架图像表示
  4. 更大规模验证: 在更多手语数据集上验证方法有效性

深度评价

优点

  1. 创新性强: 首次将纯关键点方法应用于BSL识别
  2. 实用价值高: 显著降低计算成本,适合资源受限环境
  3. 方法合理: 技术路线清晰,实现细节完整
  4. 实验充分: 包含多种配置和增强策略的对比实验

不足

  1. 性能有限: 60%的准确率相对较低
  2. 缺乏对比: 无法与其他方法直接比较
  3. 分析不足: 对失败案例缺乏深入分析
  4. 泛化性未知: 仅在单一数据集上验证

影响力

  1. 开创性: 为手语识别提供了新的技术路径
  2. 实用性: 高效的方法有利于实际应用部署
  3. 可扩展性: 为后续研究提供了良好基础
  4. 社会价值: 有助于提高聋人群体的技术可访问性

适用场景

  1. 资源受限环境: 移动设备、边缘计算场景
  2. 实时应用: 需要快速响应的交互系统
  3. 大规模部署: 需要处理大量视频数据的场景
  4. 研究原型: 作为更复杂系统的基础组件

参考文献

论文引用了多个重要的相关工作,包括:

  • BOBSL数据集相关论文 3
  • MediaPipe关键点提取框架 13
  • Transformer架构原始论文 18
  • 手语识别相关研究 1,2,6
  • 图神经网络在动作识别中的应用 21

总体评价: 这是一篇具有开创性意义的论文,首次将基于关键点的方法应用于BSL识别任务。虽然在准确率方面还有提升空间,但其在计算效率方面的显著优势使其具有重要的实用价值。该工作为手语识别领域提供了一个新的研究方向,特别是在资源受限和实时应用场景下具有重要意义。