Many blind and low vision (BLV) people are excluded from professional roles that may involve visual tasks due to access barriers and persisting stigmas. Advancing generative AI systems can support BLV people through providing contextual and personalized visual descriptions for creation, critique, and consumption. In this workshop paper, we provide design suggestions for how visual descriptions can be better contextualized for multiple professional tasks. We conclude by discussing how these designs can improve autonomy, inclusion, and skill development over time.
- 논문 ID: 2510.08991
- 제목: Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks
- 저자: Lucy Jiang, Lotus Zhang, Leah Findlater (워싱턴 대학교)
- 분류: cs.HC (인간-컴퓨터 상호작용)
- 발표 시간/학회: ASSETS '25 Workshop: AT @ Work, Virtual 2025
- 논문 링크: https://arxiv.org/abs/2510.08991
많은 시각 장애인 및 저시력(BLV) 인구는 접근성 장벽과 지속적인 편견으로 인해 시각 작업을 포함할 수 있는 전문직 역할에서 배제되고 있습니다. 고급 생성형 AI 시스템은 창작, 비평, 소비를 위한 맥락화되고 개인화된 시각 설명을 제공함으로써 BLV 인구를 지원할 수 있습니다. 본 워크숍 논문에서 저자들은 다양한 전문 작업을 위해 맥락화된 시각 설명을 더 잘 제공하는 방법에 대한 설계 권장사항을 제시하고, 이러한 설계가 시간 경과에 따라 자율성, 포용성, 기술 개발을 어떻게 개선하는지 논의합니다.
- 심각한 고용 격차: 장애인의 고용률은 비장애인의 약 3분의 1 수준이며, BLV 인구가 직면한 고용 장벽이 특히 두드러집니다
- 시각 작업이 직장 진입 장벽으로 작용: 현대 직장에서 슬라이드 제작, 문서 형식 지정, 사진 촬영, 교육 동영상 시청 등 시각적 소통을 포함하는 많은 작업이 BLV 전문가의 주요 장애물이 됩니다
- 기존 보조 기술의 한계: 현존하는 접근성 솔루션은 주로 기본 시각 정보 접근 제공에 국한되어 있으며, 완전한 직장 참여를 실현하지 못합니다
- 생성형 AI 기술의 빠른 발전은 맥락화되고 개인화된 시각 설명 제공의 새로운 기회를 창출합니다
- 기본 정보 접근을 넘어 시각적 소통 작업에서 BLV 전문가의 완전한 참여를 지원할 필요가 있습니다
- 기술 혁신을 통해 고용 장벽을 제거하고 BLV 인구의 직장 포용성을 향상시킵니다
- 전문화된 시각 설명 시스템의 설계 프레임워크 제시: 다양한 직업 시나리오를 위한 맥락화되고 개인화된 AI 설명 서비스
- 두 가지 구체적인 응용 시나리오 구축: 독립 콘텐츠 제작자의 비디오 제작 및 대형 광고 회사의 마케팅 자료 제작
- 체계적인 설계 권장사항 제공: 창작, 비평, 소비 세 가지 차원의 시각 작업 지원 포함
- 장기적 영향 메커니즘 설명: 이러한 설계가 BLV 전문가의 자율성, 포용성, 기술 개발을 어떻게 개선하는지 분석
본 연구는 BLV 전문가를 지원하는 생성형 AI 시각 설명 시스템 설계에 초점을 맞추고 있으며, 세 가지 핵심 작업 차원을 포함합니다:
- 창작(Creation): BLV 인사의 시각 콘텐츠 생성 지원
- 비평(Critique): 시각 작품의 평가 및 피드백 지원
- 소비(Consumption): 시각 정보의 이해 및 처리 지원
핵심 요구사항 분석:
- 시각적 트렌드 식별의 어려움
- 촬영 구성 및 피사체 위치 결정의 과제
- 후반 편집의 시각 효과 검증 필요
AI 설명 시스템 설계:
- 트렌드 식별 지원: 인기 있는 음악 트랙의 일반적인 시각적 동반 요소(제스처, 화면 텍스트 등) 설명
- 촬영 과정 지원:
- 촬영 피사체가 화면의 이상적인 위치에 있는지 확인
- 예술적 구성을 보조하기 위한 상세한 콘텐츠 설명 제공
- 편집 과정 강화:
- 비디오의 색온도 설명
- 필터 및 특수 효과의 정확성 평가
- 콘텐츠 편집을 넘어선 예술적 정보 제공
핵심 과제:
- 협업 워크플로우의 복잡성
- 다중 형식 콘텐츠 제작 요구사항
- 빠른 반복 및 실시간 협업 요구사항
- 엄격한 브랜드 지침 준수
AI 설명 시스템 설계:
- 브랜드 일관성 지원:
- 정확한 브랜드 지침 설명
- 브랜드 대표성을 보장하는 정확한 색상 설명
- 팀 협업 강화:
- 전체 시각적 외관에 대한 거시적 설명
- 객체 수준 설명(예: 스티커 메모 그룹)
- 협업자 커서 위치 추적(시각적 초점 대리인으로서)
- 맥락 인식 설명: 특정 직업 작업 요구사항에 따라 설명 내용 및 상세 수준 맞춤화
- 다층 정보 아키텍처: 거시적에서 미시적까지 계층화된 시각 정보 제공
- 실시간 협업 지원: 팀 워크플로우의 동적 시각 피드백 통합
- 개인화 적응: 사용자 역할 및 작업 유형에 따라 설명 전략 조정
참고: 본 논문은 워크숍 논문으로, 주로 설계 권장사항 및 개념 프레임워크를 제시하며 전통적 의미의 실험 설정 및 결과를 포함하지 않습니다.
- 기존 문헌에 기반한 BLV 콘텐츠 제작자가 직면한 과제 분석
- 기존 시각 편집 보조 시스템 연구 참고(예: Huh 등의 텍스트 비디오 편집 시스템)
- 디지털 그래픽 제작 접근성 관련 연구와 결합
- 문헌 검토를 통한 문제의 보편성 검증
- 기존 시스템의 한계 분석을 통한 설계 요구사항 도출
- 관련 분야의 성공 사례를 참고한 설계 영감
- Chang 등의 EditScribe: BLV 인구의 비시각적 이미지 편집을 지원하기 위해 자연어 검증 루프 사용
- Huh 등의 AVScript: 시각 설명 및 음성을 통합한 텍스트 비디오 편집 시스템
- Zhang 등의 A11yboard: 디지털 드로잉 보드 접근성 연구
- 소셜 미디어 플랫폼 참여: 비디오 플랫폼에서 BLV 제작자의 일상 공유 및 창작 경제 참여
- 접근성 장벽 연구: 시각적으로 매력적인 콘텐츠 제작의 어려움, 필터 기능 검증 문제, 트렌드 추적 과제
- 실시간 협업 도구: 텍스트 편집기 및 슬라이드 소프트웨어의 혼합 능력 협업 개선
- 협업 환경 접근성: 와이어프레임, 화이트보드 토론 등 시각 지향적 협업 활동의 접근성
- 시각 문해력의 재정의: BLV 인구는 깊이 있는 시각적 이해 능력을 가지고 있으며, 기술은 부재를 가정하기보다는 이를 지원하고 강화해야 합니다
- 직장 포용성의 체계적 개선: 기술 혁신을 통해 편견을 점진적으로 감소시키고 BLV 인구의 자율성, 포용성, 기술 개발을 개선할 수 있습니다
- 개인화 설명의 중요성: 다양한 직업 시나리오는 맞춤형 시각 설명 전략을 필요로 합니다
Georgina Kleege의 관점 인용: "평균적으로, 완전하고 선천적으로 맹인인 사람이 시각이 의미하는 바에 대해 이해하는 정도는 평균적인 시력 정상인이 맹인이 의미하는 바에 대해 이해하는 정도를 훨씬 초과합니다."
예상 효과:
- 자율성 향상: 타인의 지원에 대한 의존성 감소
- 포용성 개선: 더욱 포용적인 설계 관행 및 직장 문화 촉진
- 기술 개발: BLV 전문가의 창의적 능력 발휘 지원
- 문제 지향성이 강함: BLV 인구의 직장 참여의 핵심 장벽을 직접 다룸
- 설계 사고의 혁신성: 맥락화되고 개인화된 AI 설명 시스템의 개념 제시
- 실용적 가치가 높음: 구체적이고 실행 가능한 설계 권장사항 제공
- 이론적 기초가 견고함: 관련 문헌을 충분히 인용하고 논증이 충분함
- 사회적 의의가 큼: 취약 계층의 직장 평등권에 주목
- 실증적 검증 부재: 개념적 논문으로서 사용자 연구 및 시스템 평가 부족
- 기술 구현 세부사항 부족: AI 시스템의 구체적 기술 아키텍처 설명 제한적
- 확장성 분석 미흡: 설계 권장사항의 다른 직업 시나리오 적용 가능성에 대한 심층 논의 부족
- 비용-편익 분석 결여: 시스템 개발 및 배포의 실제 비용 미고려
- 학술적 기여: 접근성 기술 연구에 새로운 설계 사고 제시
- 실무 지침: 관련 기술 개발자에게 구체적인 설계 지침 제공
- 정책 영감: 직장 접근성 정책 수립에 영향을 미칠 가능성
- 사회적 가치: BLV 인구의 직업 능력에 대한 사회적 재인식 촉진
- 콘텐츠 제작 산업: 비디오 제작, 그래픽 디자인, 마케팅 창의 등 분야
- 협업 작업 환경: 실시간 시각적 협업이 필요한 팀 작업 시나리오
- 교육 훈련: 시각 기술 훈련 및 직업 개발 지원
- 기술 개발: AI 보조 도구 및 접근성 기술 제품 개발
- 사용자 연구: 다양한 직업 BLV 전문가의 구체적 요구사항 심층 파악
- 기술 구현: 프로토타입 시스템 개발 및 기술 타당성 검증
- 효과 평가: 평가 지표 체계 설계, 사용자 업무 효율성 및 만족도에 미치는 영향 검증
- 분야 간 확장: 설계 원칙의 다른 직업 분야 적용 가능성 탐색
- 윤리적 고려: AI 설명 시스템이 야기할 수 있는 편견 및 개인정보 보호 문제 연구
요약: 본 논문은 생성형 AI 기술을 통해 BLV 전문가에게 더 나은 직장 지원을 제공하는 중요하고 선제적인 연구 방향을 제시합니다. 개념적 연구로서 실증적 검증이 부족하지만, 그 설계 사고와 사회적 가치는 추가적인 심층 연구 및 실제 응용 탐색의 가치가 있습니다.