2025-11-22T21:07:16.151293

Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks

Jiang, Zhang, Findlater

Many blind and low vision (BLV) people are excluded from professional roles that may involve visual tasks due to access barriers and persisting stigmas. Advancing generative AI systems can support BLV people through providing contextual and personalized visual descriptions for creation, critique, and consumption. In this workshop paper, we provide design suggestions for how visual descriptions can be better contextualized for multiple professional tasks. We conclude by discussing how these designs can improve autonomy, inclusion, and skill development over time.

academic

Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks

基本信息

论文ID: 2510.08991
标题: Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks
作者: Lucy Jiang, Lotus Zhang, Leah Findlater (University of Washington)
分类: cs.HC (Human-Computer Interaction)
发表时间/会议: ASSETS '25 Workshop: AT @ Work, Virtual 2025
论文链接: https://arxiv.org/abs/2510.08991

摘要

许多盲人和低视力（BLV）人群由于访问障碍和持续存在的偏见而被排除在可能涉及视觉任务的专业角色之外。先进的生成式AI系统可以通过为创作、批评和消费提供上下文化和个性化的视觉描述来支持BLV人群。在这篇研讨会论文中，作者提供了关于如何更好地为多种专业任务提供上下文化视觉描述的设计建议，并讨论了这些设计如何随时间推移改善自主性、包容性和技能发展。

研究背景与动机

问题背景

就业差距严重：残障人士的就业率大约是非残障人士的三分之一，BLV人群面临的就业障碍尤为突出
视觉任务成为职场门槛：现代职场中大量涉及视觉沟通的任务（如制作幻灯片、格式化文档、拍摄照片、观看培训视频等）成为BLV专业人士的主要障碍
传统辅助技术的局限性：现有的无障碍解决方案主要局限于提供基本视觉信息的访问，而非实现完全的职场参与

研究动机

生成式AI技术的快速发展为提供上下文化、个性化的视觉描述创造了新机遇
需要超越基础信息访问，支持BLV专业人士在视觉沟通任务中的全面参与
通过技术创新打破就业壁垒，提升BLV人群的职场包容性

核心贡献

提出了专业化视觉描述系统的设计框架：针对不同职业场景提供上下文化和个性化的AI描述服务
构建了两个具体应用场景：独立内容创作者的视频制作和大型广告公司的营销材料创作
提供了系统性的设计建议：涵盖创作、批评、消费三个维度的视觉任务支持
阐述了长期影响机制：分析了这些设计如何改善BLV专业人士的自主性、包容性和技能发展

方法详解

任务定义

本研究聚焦于为BLV专业人士提供支持的生成式AI视觉描述系统设计，涵盖三个核心任务维度：

创作（Creation）：协助BLV人士创建视觉内容
批评（Critique）：支持对视觉作品的评估和反馈
消费（Consumption）：帮助理解和处理视觉信息

设计框架

场景一：独立内容创作者的视频制作

核心需求分析：

视觉趋势识别困难
拍摄构图和主体定位挑战
后期编辑的视觉效果验证需求

AI描述系统设计：

趋势识别支持：描述流行音轨的常见视觉配套元素（手势、屏幕文字等）
拍摄过程辅助：
- 确保拍摄主体在画面中的理想位置
- 提供详细的内容描述以辅助艺术构图
编辑过程增强：
- 描述视频的色彩温度
- 评估滤镜和特效的准确性
- 提供超越内容编辑的艺术信息

场景二：大型广告公司的营销材料创作

核心挑战：

协作工作流程的复杂性
多格式内容制作需求
快速迭代和实时协作要求
严格的品牌指导原则遵循

AI描述系统设计：

品牌一致性支持：
- 精确的品牌指导原则描述
- 准确的色彩描述确保品牌代表性
团队协作增强：
- 大局观描述（整体视觉外观）
- 对象级描述（如便签群组）
- 协作者光标位置跟踪（作为视觉焦点代理）

技术创新点

上下文感知描述：根据具体职业任务需求定制描述内容和详细程度
多层次信息架构：从宏观到微观提供分层次的视觉信息
实时协作支持：集成团队工作流程的动态视觉反馈
个性化适配：基于用户角色和任务类型调整描述策略

实验设置

注：本文为研讨会论文，主要提供设计建议和概念框架，未包含传统意义上的实验设置和结果。

理论基础

基于现有文献对BLV内容创作者面临挑战的分析
参考已有的视觉编辑辅助系统研究（如Huh等人的文本视频编辑系统）
结合数字图形创作无障碍性的相关工作

设计验证方法

通过文献综述验证问题的普遍性
基于现有系统的局限性分析设计需求
参考相关领域的成功案例进行设计启发

相关工作

视觉内容创作辅助技术

Chang等人的EditScribe：使用自然语言验证循环支持BLV人群的非视觉图像编辑
Huh等人的AVScript：文本视频编辑系统，集成视觉描述和语音
Zhang等人的A11yboard：数字画板无障碍化研究

BLV群体的数字内容参与

社交媒体平台参与：BLV创作者在视频平台上的日常生活分享和创作经济参与
访问障碍研究：视觉吸引力内容创作困难、滤镜功能验证问题、趋势跟踪挑战

混合能力协作

实时协作工具：文本编辑器和幻灯片软件的混合能力协作改进
协作环境无障碍性：视觉导向协作活动（线框图、白板讨论）的无障碍化

结论与讨论

主要结论

视觉素养的重新定义：BLV人群具有深厚的视觉理解能力，技术应该支持和增强而非假设其缺失
职场包容性的系统性改进：通过技术创新可以逐步减少偏见，改善BLV人群的自主性、包容性和技能发展
个性化描述的重要性：不同职业场景需要定制化的视觉描述策略

长期影响机制

引用Georgina Kleege的观点："平均而言，一个完全的、先天性盲人对于视觉意味着什么的了解，远超过平均视力正常者对盲人意味着什么的了解。"

预期效果：

自主性提升：减少对他人协助的依赖
包容性改善：促进更包容的设计实践和工作文化
技能发展：支持BLV专业人士展示创意能力

深度评价

优点

问题导向性强：直击BLV人群职场参与的核心障碍
设计思路创新：提出上下文化、个性化的AI描述系统概念
实用价值高：提供具体的、可操作的设计建议
理论基础扎实：充分引用相关文献，论证充分
社会意义重大：关注弱势群体的职场平等权利

不足

缺乏实证验证：作为概念性论文，缺少用户研究和系统评估
技术实现细节不足：对AI系统的具体技术架构描述有限
可扩展性分析欠缺：未深入讨论设计建议在其他职业场景的适用性
成本效益分析缺失：未考虑系统开发和部署的实际成本

影响力

学术贡献：为无障碍技术研究提供新的设计思路
实践指导：为相关技术开发者提供具体的设计指导
政策启发：可能影响职场无障碍政策的制定
社会价值：推动社会对BLV群体职业能力的重新认知

适用场景

内容创作行业：视频制作、图形设计、营销创意等领域
协作工作环境：需要实时视觉协作的团队工作场景
教育培训：视觉技能培训和职业发展支持
技术开发：AI辅助工具和无障碍技术产品开发

未来研究方向

用户研究：深入了解不同职业BLV专业人士的具体需求
技术实现：开发原型系统并进行技术可行性验证
效果评估：设计评估指标体系，验证系统对用户工作效率和满意度的影响
跨领域扩展：探索设计原则在其他职业领域的适用性
伦理考量：研究AI描述系统可能带来的偏见和隐私问题

总结：这篇论文提出了一个重要且具有前瞻性的研究方向，通过生成式AI技术为BLV专业人士提供更好的职场支持。虽然作为概念性研究缺乏实证验证，但其设计思路和社会价值值得进一步深入研究和实际应用探索。