2025-11-22T21:07:16.151293

Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks

Jiang, Zhang, Findlater
Many blind and low vision (BLV) people are excluded from professional roles that may involve visual tasks due to access barriers and persisting stigmas. Advancing generative AI systems can support BLV people through providing contextual and personalized visual descriptions for creation, critique, and consumption. In this workshop paper, we provide design suggestions for how visual descriptions can be better contextualized for multiple professional tasks. We conclude by discussing how these designs can improve autonomy, inclusion, and skill development over time.
academic

創作、批評、消費:盲人および低視力専門家の視覚タスク支援のための生成型AI記述の探索

基本情報

  • 論文ID: 2510.08991
  • タイトル: Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks
  • 著者: Lucy Jiang、Lotus Zhang、Leah Findlater(ワシントン大学)
  • 分類: cs.HC(ヒューマンコンピュータインタラクション)
  • 発表時期/会議: ASSETS '25 Workshop: AT @ Work、バーチャル2025
  • 論文リンク: https://arxiv.org/abs/2510.08991

要約

盲人および低視力(BLV)者の多くは、アクセス障害と根強い偏見のため、視覚タスクを含む可能性のある専門職から除外されている。高度な生成型AIシステムは、創作、批評、消費のための文脈化および個人化された視覚記述を提供することにより、BLV者を支援することができる。本ワークショップ論文では、著者は複数の専門的タスクのためにより良い文脈化された視覚記述を提供する方法に関する設計提言を提供し、これらの設計が時間経過に伴い自律性、包括性、およびスキル発展をいかに改善するかについて論じている。

研究背景と動機

問題背景

  1. 深刻な雇用格差:障害者の雇用率は非障害者の約3分の1であり、BLV者が直面する雇用障害は特に顕著である
  2. 視覚タスクが職場の障壁となる:現代の職場における視覚コミュニケーションを伴う多くのタスク(スライド作成、文書フォーマット、写真撮影、トレーニングビデオ視聴など)がBLV専門家の主要な障壁となっている
  3. 従来の支援技術の限界:既存のアクセシビリティソリューションは主に基本的な視覚情報へのアクセス提供に限定されており、完全な職場参加の実現には至っていない

研究動機

  • 生成型AI技術の急速な発展により、文脈化および個人化された視覚記述を提供する新たな機会が生まれている
  • 基本的な情報アクセスを超えて、視覚コミュニケーションタスクにおけるBLV専門家の完全な参加を支援する必要がある
  • 技術革新を通じて雇用障壁を打ち破り、BLV者の職場包括性を向上させる

核心的貢献

  1. 専門化された視覚記述システムの設計フレームワークを提案:異なる職業シナリオに対応した文脈化および個人化されたAI記述サービスを提供
  2. 2つの具体的なアプリケーションシナリオを構築:独立系コンテンツクリエイターのビデオ制作と大規模広告会社のマーケティング資料作成
  3. 体系的な設計提言を提供:創作、批評、消費の3つの側面にわたる視覚タスク支援をカバー
  4. 長期的な影響メカニズムを説明:これらの設計がBLV専門家の自律性、包括性、スキル発展をいかに改善するかを分析

方法論の詳細

タスク定義

本研究は、BLV専門家を支援するための生成型AI視覚記述システムの設計に焦点を当てており、3つのコア的なタスク側面をカバーしている:

  • 創作(Creation):BLV者による視覚コンテンツ作成の支援
  • 批評(Critique):視覚作品の評価とフィードバックの支援
  • 消費(Consumption):視覚情報の理解と処理の支援

設計フレームワーク

シナリオ1:独立系コンテンツクリエイターのビデオ制作

コア的なニーズ分析

  • 視覚トレンド識別の困難さ
  • 撮影構図と被写体配置の課題
  • ポストプロダクション視覚効果検証の必要性

AI記述システム設計

  1. トレンド識別支援:流行音声トラックの一般的な視覚的付属要素(ジェスチャー、画面テキストなど)の記述
  2. 撮影プロセス支援
    • 撮影被写体がフレーム内の理想的な位置にあることを確保
    • 芸術的構図を支援するための詳細なコンテンツ記述を提供
  3. 編集プロセスの強化
    • ビデオの色温度の記述
    • フィルターと特殊効果の精度評価
    • コンテンツ編集を超えた芸術的情報の提供

シナリオ2:大規模広告会社のマーケティング資料作成

コア的な課題

  • 協働ワークフローの複雑性
  • 複数形式コンテンツ制作の必要性
  • 迅速な反復と実時間協働の要件
  • 厳格なブランドガイドライン遵守

AI記述システム設計

  1. ブランド一貫性支援
    • 正確なブランドガイドライン記述
    • ブランド代表性を確保するための正確な色記述
  2. チーム協働の強化
    • 全体的な見方の記述(全体的な視覚的外観)
    • オブジェクトレベルの記述(付箋グループなど)
    • 協働者カーソル位置追跡(視覚的焦点エージェントとして)

技術革新点

  1. 文脈認識記述:特定の職業タスク要件に応じてカスタマイズされた記述内容と詳細度
  2. 多層情報アーキテクチャ:マクロからミクロまでの階層化された視覚情報提供
  3. 実時間協働支援:チームワークフローの動的視覚フィードバック統合
  4. 個人化適応:ユーザーロールとタスクタイプに基づいた記述戦略の調整

実験設定

:本論文はワークショップ論文であり、主に設計提言と概念フレームワークを提供しており、従来の意味での実験設定と結果は含まれていない。

理論的基礎

  • BLVコンテンツクリエイターが直面する課題に関する既存文献の分析に基づく
  • テキストビデオ編集システム(Huhら)などの視覚編集支援システム研究を参照
  • デジタルグラフィックス作成のアクセシビリティに関連する研究と組み合わせ

設計検証方法

  • 文献レビューを通じた問題の普遍性の検証
  • 既存システムの限界分析に基づく設計要件の導出
  • 関連分野の成功事例を参照した設計インスピレーション

関連研究

視覚コンテンツ作成支援技術

  1. ChangらのEditScribe:自然言語検証ループを使用してBLV者の非視覚画像編集を支援
  2. HuhらのAVScript:視覚記述と音声を統合したテキストビデオ編集システム
  3. ZhangらのA11yboard:デジタルホワイトボードのアクセシビリティ研究

BLV者のデジタルコンテンツ参加

  1. ソーシャルメディアプラットフォーム参加:ビデオプラットフォーム上でのBLVクリエイターの日常生活共有と創作経済参加
  2. アクセス障害研究:視覚的に魅力的なコンテンツ作成の困難さ、フィルター機能検証の問題、トレンド追跡の課題

混合能力協働

  1. 実時間協働ツール:テキストエディタとスライドソフトウェアの混合能力協働改善
  2. 協働環境のアクセシビリティ:ワイヤーフレーム、ホワイトボード討論などの視覚指向協働活動のアクセシビリティ化

結論と考察

主要な結論

  1. 視覚リテラシーの再定義:BLV者は深い視覚理解能力を有しており、技術はそれを欠いていると仮定するのではなく支援および強化すべきである
  2. 職場包括性の体系的改善:技術革新を通じて段階的に偏見を減らし、BLV者の自律性、包括性、スキル発展を改善できる
  3. 個人化記述の重要性:異なる職業シナリオには、カスタマイズされた視覚記述戦略が必要である

長期的な影響メカニズム

Georgina Kleegeの見方を引用:「平均的に、完全で先天性盲人が視覚の意味について理解していることは、平均的な視力を持つ者が盲人の意味について理解していることをはるかに上回っている。」

予想される効果

  • 自律性の向上:他者の支援への依存を減らす
  • 包括性の改善:より包括的な設計実践と職場文化を促進
  • スキル発展:BLV専門家が創造的能力を発揮することを支援

深度評価

強み

  1. 問題指向性が強い:BLV者の職場参加の中核的障壁に直接対応
  2. 設計思想が革新的:文脈化および個人化されたAI記述システムの概念を提案
  3. 実用価値が高い:具体的で実行可能な設計提言を提供
  4. 理論的基礎が堅実:関連文献を十分に引用し、論証が充分
  5. 社会的意義が重大:弱者層の職場平等権に焦点を当てている

不足点

  1. 実証検証の欠如:概念論文として、ユーザー研究とシステム評価が不足
  2. 技術実装の詳細が不十分:AIシステムの具体的な技術アーキテクチャの説明が限定的
  3. スケーラビリティ分析の欠落:設計提言の他の職業シナリオへの適用可能性の深い検討がない
  4. 費用便益分析の欠失:システム開発と展開の実際のコストを考慮していない

影響力

  1. 学術的貢献:アクセシビリティ技術研究に新しい設計思想を提供
  2. 実践的指導:関連技術開発者に具体的な設計指導を提供
  3. 政策への示唆:職場アクセシビリティ政策策定に影響を与える可能性
  4. 社会的価値:BLV者の職業能力に対する社会的認識の転換を推進

適用シナリオ

  1. コンテンツ作成産業:ビデオ制作、グラフィックデザイン、マーケティング創作などの分野
  2. 協働作業環境:実時間視覚協働が必要なチームワークシナリオ
  3. 教育訓練:視覚スキル訓練と職業発展支援
  4. 技術開発:AI支援ツールとアクセシビリティ技術製品開発

今後の研究方向

  1. ユーザー研究:異なる職業のBLV専門家の具体的なニーズの深い理解
  2. 技術実装:プロトタイプシステムの開発と技術的実現可能性の検証
  3. 効果評価:評価指標体系の設計、ユーザーの作業効率と満足度への影響の検証
  4. 分野横断的拡張:設計原則の他の職業分野への適用可能性の探索
  5. 倫理的考慮:AI記述システムがもたらす可能性のある偏見とプライバシー問題の研究

総括:本論文は、生成型AI技術を通じてBLV専門家により良い職場支援を提供するという、重要で先見的な研究方向を提案している。概念研究として実証検証が不足しているが、その設計思想と社会的価値は、さらなる深い研究と実際の応用探索に値する。