2025-11-22T21:07:16.151293

Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks

Jiang, Zhang, Findlater

Many blind and low vision (BLV) people are excluded from professional roles that may involve visual tasks due to access barriers and persisting stigmas. Advancing generative AI systems can support BLV people through providing contextual and personalized visual descriptions for creation, critique, and consumption. In this workshop paper, we provide design suggestions for how visual descriptions can be better contextualized for multiple professional tasks. We conclude by discussing how these designs can improve autonomy, inclusion, and skill development over time.

academic

창작, 비평, 소비: 시각 장애인 및 저시력 전문가의 시각 작업 지원을 위한 생성형 AI 설명 탐색

기본 정보

논문 ID: 2510.08991
제목: Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks
저자: Lucy Jiang, Lotus Zhang, Leah Findlater (워싱턴 대학교)
분류: cs.HC (인간-컴퓨터 상호작용)
발표 시간/학회: ASSETS '25 Workshop: AT @ Work, Virtual 2025
논문 링크: https://arxiv.org/abs/2510.08991

초록

많은 시각 장애인 및 저시력(BLV) 인구는 접근성 장벽과 지속적인 편견으로 인해 시각 작업을 포함할 수 있는 전문직 역할에서 배제되고 있습니다. 고급 생성형 AI 시스템은 창작, 비평, 소비를 위한 맥락화되고 개인화된 시각 설명을 제공함으로써 BLV 인구를 지원할 수 있습니다. 본 워크숍 논문에서 저자들은 다양한 전문 작업을 위해 맥락화된 시각 설명을 더 잘 제공하는 방법에 대한 설계 권장사항을 제시하고, 이러한 설계가 시간 경과에 따라 자율성, 포용성, 기술 개발을 어떻게 개선하는지 논의합니다.

연구 배경 및 동기

문제 배경

심각한 고용 격차: 장애인의 고용률은 비장애인의 약 3분의 1 수준이며, BLV 인구가 직면한 고용 장벽이 특히 두드러집니다
시각 작업이 직장 진입 장벽으로 작용: 현대 직장에서 슬라이드 제작, 문서 형식 지정, 사진 촬영, 교육 동영상 시청 등 시각적 소통을 포함하는 많은 작업이 BLV 전문가의 주요 장애물이 됩니다
기존 보조 기술의 한계: 현존하는 접근성 솔루션은 주로 기본 시각 정보 접근 제공에 국한되어 있으며, 완전한 직장 참여를 실현하지 못합니다

연구 동기

생성형 AI 기술의 빠른 발전은 맥락화되고 개인화된 시각 설명 제공의 새로운 기회를 창출합니다
기본 정보 접근을 넘어 시각적 소통 작업에서 BLV 전문가의 완전한 참여를 지원할 필요가 있습니다
기술 혁신을 통해 고용 장벽을 제거하고 BLV 인구의 직장 포용성을 향상시킵니다

핵심 기여

전문화된 시각 설명 시스템의 설계 프레임워크 제시: 다양한 직업 시나리오를 위한 맥락화되고 개인화된 AI 설명 서비스
두 가지 구체적인 응용 시나리오 구축: 독립 콘텐츠 제작자의 비디오 제작 및 대형 광고 회사의 마케팅 자료 제작
체계적인 설계 권장사항 제공: 창작, 비평, 소비 세 가지 차원의 시각 작업 지원 포함
장기적 영향 메커니즘 설명: 이러한 설계가 BLV 전문가의 자율성, 포용성, 기술 개발을 어떻게 개선하는지 분석

방법론 상세 설명

작업 정의

본 연구는 BLV 전문가를 지원하는 생성형 AI 시각 설명 시스템 설계에 초점을 맞추고 있으며, 세 가지 핵심 작업 차원을 포함합니다:

창작(Creation): BLV 인사의 시각 콘텐츠 생성 지원
비평(Critique): 시각 작품의 평가 및 피드백 지원
소비(Consumption): 시각 정보의 이해 및 처리 지원

설계 프레임워크

시나리오 1: 독립 콘텐츠 제작자의 비디오 제작

핵심 요구사항 분석:

시각적 트렌드 식별의 어려움
촬영 구성 및 피사체 위치 결정의 과제
후반 편집의 시각 효과 검증 필요

AI 설명 시스템 설계:

트렌드 식별 지원: 인기 있는 음악 트랙의 일반적인 시각적 동반 요소(제스처, 화면 텍스트 등) 설명
촬영 과정 지원:
- 촬영 피사체가 화면의 이상적인 위치에 있는지 확인
- 예술적 구성을 보조하기 위한 상세한 콘텐츠 설명 제공
편집 과정 강화:
- 비디오의 색온도 설명
- 필터 및 특수 효과의 정확성 평가
- 콘텐츠 편집을 넘어선 예술적 정보 제공

시나리오 2: 대형 광고 회사의 마케팅 자료 제작

핵심 과제:

협업 워크플로우의 복잡성
다중 형식 콘텐츠 제작 요구사항
빠른 반복 및 실시간 협업 요구사항
엄격한 브랜드 지침 준수

AI 설명 시스템 설계:

브랜드 일관성 지원:
- 정확한 브랜드 지침 설명
- 브랜드 대표성을 보장하는 정확한 색상 설명
팀 협업 강화:
- 전체 시각적 외관에 대한 거시적 설명
- 객체 수준 설명(예: 스티커 메모 그룹)
- 협업자 커서 위치 추적(시각적 초점 대리인으로서)

기술 혁신 포인트

맥락 인식 설명: 특정 직업 작업 요구사항에 따라 설명 내용 및 상세 수준 맞춤화
다층 정보 아키텍처: 거시적에서 미시적까지 계층화된 시각 정보 제공
실시간 협업 지원: 팀 워크플로우의 동적 시각 피드백 통합
개인화 적응: 사용자 역할 및 작업 유형에 따라 설명 전략 조정

실험 설정

참고: 본 논문은 워크숍 논문으로, 주로 설계 권장사항 및 개념 프레임워크를 제시하며 전통적 의미의 실험 설정 및 결과를 포함하지 않습니다.

이론적 기초

기존 문헌에 기반한 BLV 콘텐츠 제작자가 직면한 과제 분석
기존 시각 편집 보조 시스템 연구 참고(예: Huh 등의 텍스트 비디오 편집 시스템)
디지털 그래픽 제작 접근성 관련 연구와 결합

설계 검증 방법

문헌 검토를 통한 문제의 보편성 검증
기존 시스템의 한계 분석을 통한 설계 요구사항 도출
관련 분야의 성공 사례를 참고한 설계 영감

결론 및 논의

주요 결론

시각 문해력의 재정의: BLV 인구는 깊이 있는 시각적 이해 능력을 가지고 있으며, 기술은 부재를 가정하기보다는 이를 지원하고 강화해야 합니다
직장 포용성의 체계적 개선: 기술 혁신을 통해 편견을 점진적으로 감소시키고 BLV 인구의 자율성, 포용성, 기술 개발을 개선할 수 있습니다
개인화 설명의 중요성: 다양한 직업 시나리오는 맞춤형 시각 설명 전략을 필요로 합니다

장기적 영향 메커니즘

Georgina Kleege의 관점 인용: "평균적으로, 완전하고 선천적으로 맹인인 사람이 시각이 의미하는 바에 대해 이해하는 정도는 평균적인 시력 정상인이 맹인이 의미하는 바에 대해 이해하는 정도를 훨씬 초과합니다."

예상 효과:

자율성 향상: 타인의 지원에 대한 의존성 감소
포용성 개선: 더욱 포용적인 설계 관행 및 직장 문화 촉진
기술 개발: BLV 전문가의 창의적 능력 발휘 지원

심층 평가

장점

문제 지향성이 강함: BLV 인구의 직장 참여의 핵심 장벽을 직접 다룸
설계 사고의 혁신성: 맥락화되고 개인화된 AI 설명 시스템의 개념 제시
실용적 가치가 높음: 구체적이고 실행 가능한 설계 권장사항 제공
이론적 기초가 견고함: 관련 문헌을 충분히 인용하고 논증이 충분함
사회적 의의가 큼: 취약 계층의 직장 평등권에 주목

부족한 점

실증적 검증 부재: 개념적 논문으로서 사용자 연구 및 시스템 평가 부족
기술 구현 세부사항 부족: AI 시스템의 구체적 기술 아키텍처 설명 제한적
확장성 분석 미흡: 설계 권장사항의 다른 직업 시나리오 적용 가능성에 대한 심층 논의 부족
비용-편익 분석 결여: 시스템 개발 및 배포의 실제 비용 미고려

영향력

학술적 기여: 접근성 기술 연구에 새로운 설계 사고 제시
실무 지침: 관련 기술 개발자에게 구체적인 설계 지침 제공
정책 영감: 직장 접근성 정책 수립에 영향을 미칠 가능성
사회적 가치: BLV 인구의 직업 능력에 대한 사회적 재인식 촉진

적용 시나리오

콘텐츠 제작 산업: 비디오 제작, 그래픽 디자인, 마케팅 창의 등 분야
협업 작업 환경: 실시간 시각적 협업이 필요한 팀 작업 시나리오
교육 훈련: 시각 기술 훈련 및 직업 개발 지원
기술 개발: AI 보조 도구 및 접근성 기술 제품 개발

향후 연구 방향

사용자 연구: 다양한 직업 BLV 전문가의 구체적 요구사항 심층 파악
기술 구현: 프로토타입 시스템 개발 및 기술 타당성 검증
효과 평가: 평가 지표 체계 설계, 사용자 업무 효율성 및 만족도에 미치는 영향 검증
분야 간 확장: 설계 원칙의 다른 직업 분야 적용 가능성 탐색
윤리적 고려: AI 설명 시스템이 야기할 수 있는 편견 및 개인정보 보호 문제 연구

요약: 본 논문은 생성형 AI 기술을 통해 BLV 전문가에게 더 나은 직장 지원을 제공하는 중요하고 선제적인 연구 방향을 제시합니다. 개념적 연구로서 실증적 검증이 부족하지만, 그 설계 사고와 사회적 가치는 추가적인 심층 연구 및 실제 응용 탐색의 가치가 있습니다.