2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman

In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.

academic

시퀀스로부터 영국 수화(BSL) 인식을 위한 새로운 키포인트 기반 접근법

기본 정보

논문 ID: 2412.09475
제목: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
저자: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
분류: cs.CV cs.AI
발표 시간/학회: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
논문 링크: https://arxiv.org/abs/2412.09475

초록

본 논문은 연속 수화 시퀀스에서 영국 수화(BSL) 단어를 인식하기 위한 새로운 키포인트 기반 분류 모델을 제안한다. 이 모델은 BOBSL 데이터셋에서 평가되었으며, 키포인트 기반 방법이 RGB 기반 방법과 비교하여 계산 효율성과 메모리 사용 측면에서 우수하면서도 더 빠른 훈련 시간과 더 적은 계산 자원을 필요로 함을 보여준다. 저자들의 지식으로는 이것이 BSL 단어 분류에 키포인트 기반 모델을 적용한 첫 번째 사례이므로 기존 연구와의 직접적인 비교가 불가능하다.

연구 배경 및 동기

문제 정의

수화 인식은 비디오 시퀀스로부터 자동으로 수화 단어 또는 구절을 인식하는 것을 목표로 하는 중요한 컴퓨터 비전 과제이다. 기존 방법은 주로 RGB 비디오에 의존하지만 높은 계산 복잡도와 환경 요인에 대한 민감성 등의 문제가 있다.

중요성

사회적 의의: 청각 장애인 커뮤니티의 접근성 향상 및 포용적 소통 촉진
기술적 도전: 연속 수화에서의 협음 현상(co-articulation)으로 인한 인식 작업의 극도의 어려움
실시간 요구: 실제 응용에서는 실시간 처리 가능한 효율적인 모델 필요

기존 방법의 한계

RGB 방법: 높은 계산 복잡도, 큰 메모리 점유, 긴 훈련 시간
환경 민감성: 조명, 의류 등 외부 요인에 쉽게 영향을 받음
실시간성 부족: 실시간 응용 요구를 충족하기 어려움

연구 동기

저자들은 위의 문제들을 해결하기 위해 2D 키포인트 표현 사용을 제안하며, 주요 이유는 다음과 같다:

제어 가능성: 키포인트 부분집합을 유연하게 선택하여 계산 비용 제어 가능
간결성: 조명, 의류 등 방해 요소 제거, 더 간결한 표현 제공
실시간성: 키포인트를 실시간으로 계산 가능, 실시간 모델 실행 지원

핵심 기여

최초 적용: BSL 단어 분류 작업에 키포인트 기반 방법을 최초로 적용
효율적 아키텍처: Transformer 기반 키포인트 시퀀스 처리 아키텍처 제안
계산 효율성: RGB 방법 대비 계산 비용, 메모리 사용, 훈련 시간 대폭 감소
실용적 가치: 수화 인식을 위한 더욱 효율적이고 실용적인 솔루션 제공

방법 상세 설명

작업 정의

입력: 연속 BSL 수화 비디오 시퀀스의 2D 키포인트 표현
출력: 8,162개 BSL 단어 범주의 분류 결과
제약: 협음 현상 처리, 실시간 처리 지원

키포인트 추출

MediaPipe 라이브러리를 사용하여 키포인트 추출:

자세 키포인트: 33개
손 키포인트: 좌수와 우수 각 21개
얼굴 키포인트: 468개 (203kp 모델에서 128개로 감소)
총계: 543개 키포인트 (또는 간소화된 203개 키포인트 버전)

모델 아키텍처

입력 표현

연속 16프레임의 키포인트 시퀀스 추출 (협음이 13-20프레임 지속된다는 연구 기반)
16 × K × 2의 3차원 벡터 형성, 여기서 K는 각 프레임의 키포인트 수

Transformer 아키텍처

토크나이저: 입력 데이터 토큰화
위치 인코딩: 시퀀스의 순서를 구분하기 위해 위치 정보 추가
인코더: 6개 층의 인코더, 각 층 포함:
- 다중 헤드 자기 주의 메커니즘 (8개 주의 헤드)
- 위치별 피드포워드 신경망
- 층 정규화
생성기: 학습된 표현을 분류 출력으로 변환

주의 메커니즘

프레임 단위 주의: 프레임 수준의 주의 모델
궤적 단위 주의: 궤적 수준의 주의 모델
스케일된 점곱 주의 메커니즘 사용

기술적 혁신점

직접 키포인트 입력: 그래프 신경망 기반 방법과 달리 키포인트를 Transformer에 직접 입력
시간 시퀀스 모델링: Transformer의 자기 주의 메커니즘을 활용하여 장거리 의존성 포착
다중 스케일 키포인트: 성능과 효율성의 균형을 맞추기 위해 다양한 키포인트 수 구성 탐색
데이터 증강: 키포인트를 위해 설계된 증강 전략 (평행이동, 스케일링, 회전, 뒤집기)

실험 설정

데이터셋

BOBSL 데이터셋:

규모: BBC 프로그램 1,467시간
해상도: 444×444 픽셀, 25fps
어휘량: 8,162개 수화 단어
수화자: 39명의 수화 번역가
훈련 집합: 8,162개 고유 단어, 3,555,141프레임
검증 집합: 3,348개 단어, 53,768프레임
분할 전략: 수화자별 분할, 훈련/검증/테스트 집합 간 수화자 중복 없음 보장

평가 지표

Top-5 정확도

구현 세부사항

최적화기: Adam 최적화기, 학습률 1e-4
배치 크기: 128
조기 중단 전략: 검증 손실이 연속 3개 에포크 동안 개선되지 않을 때 중단
모델 차원: 512차원 임베딩
매개변수 수: 23.9백만 매개변수 (RGB 모델의 34.5백만 대비)

실험 결과

주요 결과

정확도: Top-5 정확도 60% 달성
매개변수 효율성: RGB 방법 대비 30.7% 매개변수 감소 (23.9M vs 34.5M)
계산 효율성: 계산 비용, 메모리 사용, 훈련 시간 대폭 감소

키포인트 수 비교

543 키포인트 모델: 468개 얼굴 키포인트 사용
203 키포인트 모델: 128개 얼굴 키포인트 사용
발견: 얼굴 키포인트 수 증가가 성능 향상을 가져옴

데이터 증강 효과

다양한 증강 기법 테스트:

평행이동 증강: 최대 성능 향상 제공
스케일링 증강: 90-110% 범위 내 스케일링
회전 증강: 작은 각도 회전
수평 뒤집기: 거울 뒤집기

각 증강 방법이 모델 성능을 개별적으로 향상시킬 수 있으며, 평행이동 증강이 가장 효과적이다.

실험 발견

얼굴 키포인트는 BSL 인식에 매우 중요함
키포인트 기반 방법은 합리적인 정확도를 유지하면서 계산 비용을 대폭 감소
데이터 증강 기법은 키포인트 모델에도 동일하게 효과적

결론 및 논의

주요 결론

키포인트 기반 방법은 BSL 인식에서 현저한 계산 이점을 가짐
Transformer 아키텍처는 키포인트 시퀀스를 효과적으로 처리 가능
얼굴 키포인트는 BSL 인식 성능에 매우 중요함
적절한 데이터 증강은 모델 성능을 추가로 향상 가능

한계

정확도: 60%의 정확도는 여전히 개선 여지 있음
비교 부재: 첫 번째 키포인트 방법으로서 직접 비교 기준 부재
데이터셋 제한: BOBSL 데이터셋에서만 검증
실시간성 검증: 실제 실시간 성능 테스트 부재

향후 방향

다중 모달 융합: 키포인트와 RGB 이미지 결합으로 정확도 향상
3D 자세 추정: 시퀀스 수준 3D 자세 추정 기법 탐색
골격 이미지: 키포인트 기반 흑백 골격 이미지 표현 시도
대규모 검증: 더 많은 수화 데이터셋에서 방법 유효성 검증

심층 평가

장점

높은 혁신성: 순수 키포인트 방법을 BSL 인식에 최초로 적용
높은 실용 가치: 계산 비용 대폭 감소, 자원 제한 환경에 적합
합리적 방법: 명확한 기술 경로, 완전한 구현 세부사항
충분한 실험: 다양한 구성 및 증강 전략의 비교 실험 포함

부족한 점

제한된 성능: 60%의 정확도는 상대적으로 낮음
비교 부재: 다른 방법과의 직접 비교 불가능
분석 부족: 실패 사례에 대한 심층 분석 부재
일반화 미지수: 단일 데이터셋에서만 검증

영향력

개척성: 수화 인식을 위한 새로운 기술 경로 제공
실용성: 효율적인 방법은 실제 응용 배포에 유리
확장성: 후속 연구를 위한 좋은 기초 제공
사회적 가치: 청각 장애인 집단의 기술 접근성 향상에 기여

적용 시나리오

자원 제한 환경: 모바일 기기, 엣지 컴퓨팅 시나리오
실시간 응용: 빠른 응답이 필요한 상호작용 시스템
대규모 배포: 대량의 비디오 데이터 처리가 필요한 시나리오
연구 프로토타입: 더 복잡한 시스템의 기초 구성 요소

참고문헌

논문은 다음을 포함한 여러 중요한 관련 연구를 인용한다:

BOBSL 데이터셋 관련 논문 3
MediaPipe 키포인트 추출 프레임워크 13
Transformer 아키텍처 원본 논문 18
수화 인식 관련 연구 1,2,6
동작 인식에서의 그래프 신경망 적용 21

종합 평가: 이것은 키포인트 기반 방법을 BSL 인식 작업에 최초로 적용한 개척적 의미의 논문이다. 정확도 측면에서는 개선 여지가 있지만, 계산 효율성 측면에서의 현저한 이점으로 인해 중요한 실용적 가치를 가진다. 본 연구는 수화 인식 분야에 새로운 연구 방향을 제공하며, 특히 자원 제한 및 실시간 응용 시나리오에서 중요한 의미를 가진다.