2025-11-22T21:07:16.151293

Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks

Jiang, Zhang, Findlater
Many blind and low vision (BLV) people are excluded from professional roles that may involve visual tasks due to access barriers and persisting stigmas. Advancing generative AI systems can support BLV people through providing contextual and personalized visual descriptions for creation, critique, and consumption. In this workshop paper, we provide design suggestions for how visual descriptions can be better contextualized for multiple professional tasks. We conclude by discussing how these designs can improve autonomy, inclusion, and skill development over time.
academic

الإنشاء والنقد والاستهلاك: استكشاف أوصاف الذكاء الاصطناعي التوليدي لدعم المهنيين العميان وضعاف البصر في المهام البصرية

المعلومات الأساسية

  • معرّف الورقة: 2510.08991
  • العنوان: Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks
  • المؤلفون: Lucy Jiang, Lotus Zhang, Leah Findlater (جامعة واشنطن)
  • التصنيف: cs.HC (تفاعل الإنسان والحاسوب)
  • وقت النشر/المؤتمر: ورشة عمل ASSETS '25: AT @ Work، افتراضي 2025
  • رابط الورقة: https://arxiv.org/abs/2510.08991

الملخص

يتم استبعاد العديد من الأشخاص العميان وضعاف البصر (BLV) من الأدوار المهنية التي قد تتضمن مهام بصرية بسبب حواجز الوصول والتحيزات المستمرة. يمكن لأنظمة الذكاء الاصطناعي التوليدي المتقدمة أن تدعم مجتمع BLV من خلال توفير أوصاف بصرية سياقية وشخصية للإنشاء والنقد والاستهلاك. في هذه ورقة ورشة العمل، يقدم المؤلفون توصيات تصميمية حول كيفية توفير أوصاف بصرية سياقية بشكل أفضل لمهام مهنية متنوعة، ويناقشون كيفية تحسين هذه التصاميم للاستقلالية والشمول وتطوير المهارات بمرور الوقت.

خلفية البحث والدافع

خلفية المشكلة

  1. الفجوة في التوظيف حادة: معدل التوظيف للأشخاص ذوي الإعاقة يبلغ حوالي ثلث معدل التوظيف للأشخاص بدون إعاقة، والحواجز التي يواجهها مجتمع BLV بارزة بشكل خاص
  2. المهام البصرية كعتبة في مكان العمل: تشكل المهام الحديثة التي تتضمن الاتصالات البصرية (مثل إنشاء الشرائح وتنسيق المستندات والتقاط الصور ومشاهدة مقاطع التدريب) عقبات رئيسية للمهنيين من مجتمع BLV
  3. قيود تكنولوجيا المساعدة التقليدية: تقتصر الحلول المتاحة للوصول بشكل أساسي على توفير الوصول إلى المعلومات البصرية الأساسية بدلاً من تحقيق المشاركة الكاملة في مكان العمل

دافع البحث

  • يوفر التطور السريع لتكنولوجيا الذكاء الاصطناعي التوليدي فرصاً جديدة لتوفير أوصاف بصرية سياقية وشخصية
  • الحاجة إلى تجاوز الوصول الأساسي للمعلومات لدعم المشاركة الشاملة للمهنيين من مجتمع BLV في مهام الاتصالات البصرية
  • كسر حواجز التوظيف من خلال الابتكار التكنولوجي وتحسين شمول مكان العمل لمجتمع BLV

المساهمات الأساسية

  1. اقتراح إطار تصميم لنظام أوصاف بصرية متخصصة: توفير خدمات وصف ذكاء اصطناعي سياقية وشخصية لسيناريوهات مهنية مختلفة
  2. بناء سيناريوهات تطبيق ملموسة: إنتاج الفيديو للمنشئين المستقلين وإنشاء مواد التسويق في شركات الإعلانات الكبرى
  3. توفير توصيات تصميمية منهجية: تغطي دعم المهام البصرية عبر ثلاثة أبعاد: الإنشاء والنقد والاستهلاك
  4. توضيح آليات التأثير طويلة الأجل: تحليل كيفية تحسين هذه التصاميم للاستقلالية والشمول وتطوير المهارات لدى المهنيين من مجتمع BLV

شرح المنهجية

تعريف المهام

يركز هذا البحث على تصميم أنظمة وصف بصري بالذكاء الاصطناعي التوليدي لدعم المهنيين من مجتمع BLV، ويغطي ثلاثة أبعاد مهام أساسية:

  • الإنشاء (Creation): مساعدة أفراد مجتمع BLV على إنشاء محتوى بصري
  • النقد (Critique): دعم تقييم وتقديم ملاحظات على الأعمال البصرية
  • الاستهلاك (Consumption): مساعدة في فهم ومعالجة المعلومات البصرية

إطار التصميم

السيناريو الأول: إنتاج الفيديو للمنشئين المستقلين

تحليل الاحتياجات الأساسية:

  • صعوبة تحديد الاتجاهات البصرية
  • تحديات التكوين والموضع الموضوعي في الصور
  • الحاجة إلى التحقق من المؤثرات البصرية في المرحلة اللاحقة

تصميم نظام وصف الذكاء الاصطناعي:

  1. دعم تحديد الاتجاهات: وصف العناصر البصرية الشائعة المرافقة للمسارات الصوتية الشهيرة (الإيماءات والنصوص على الشاشة وغيرها)
  2. مساعدة عملية التصوير:
    • ضمان موضع مثالي لموضوع التصوير في الإطار
    • توفير وصف تفصيلي للمحتوى لمساعدة التكوين الفني
  3. تحسين عملية التحرير:
    • وصف درجة حرارة اللون في الفيديو
    • تقييم دقة المرشحات والمؤثرات الخاصة
    • توفير معلومات فنية تتجاوز تحرير المحتوى

السيناريو الثاني: إنشاء مواد التسويق في شركات الإعلانات الكبرى

التحديات الأساسية:

  • تعقيد سير العمل التعاوني
  • احتياجات إنتاج محتوى متعدد الصيغ
  • متطلبات التكرار السريع والتعاون في الوقت الفعلي
  • الالتزام الصارم بمبادئ العلامة التجارية

تصميم نظام وصف الذكاء الاصطناعي:

  1. دعم اتساق العلامة التجارية:
    • وصف دقيق لمبادئ العلامة التجارية
    • وصف لوني دقيق يضمن تمثيل العلامة التجارية
  2. تحسين التعاون الجماعي:
    • وصف الصورة الكبرى (المظهر البصري الكلي)
    • وصف على مستوى الكائن (مثل مجموعات الملاحظات اللاصقة)
    • تتبع موقع مؤشر المتعاونين (كوكيل للتركيز البصري)

نقاط الابتكار التكنولوجي

  1. الوصف الذي يدرك السياق: تخصيص محتوى الوصف ومستوى التفاصيل بناءً على احتياجات المهام المهنية المحددة
  2. معمارية المعلومات متعددة المستويات: توفير معلومات بصرية متدرجة من الكلي إلى الجزئي
  3. دعم التعاون في الوقت الفعلي: دمج التعليقات البصرية الديناميكية لسير عمل الفريق
  4. التكيف الشخصي: تعديل استراتيجية الوصف بناءً على دور المستخدم ونوع المهمة

إعداد التجربة

ملاحظة: هذه الورقة عبارة عن ورقة ورشة عمل توفر بشكل أساسي توصيات تصميمية وإطار مفاهيمي، وليست تتضمن إعداد تجربة وتتائج بالمعنى التقليدي.

الأساس النظري

  • بناءً على تحليل الأدبيات الموجودة للتحديات التي يواجهها منشئو محتوى BLV
  • الإشارة إلى البحث في أنظمة مساعدة التحرير البصري (مثل نظام AVScript لـ Huh وآخرين)
  • دمج الأعمال ذات الصلة بإمكانية الوصول إلى الإنشاء الرسومي الرقمي

طريقة التحقق من التصميم

  • التحقق من عمومية المشكلة من خلال مراجعة الأدبيات
  • تحليل احتياجات التصميم بناءً على قيود الأنظمة الموجودة
  • الاستفادة من الحالات الناجحة في المجالات ذات الصلة للإلهام التصميمي

الأعمال ذات الصلة

تكنولوجيا مساعدة إنشاء المحتوى البصري

  1. EditScribe لـ Chang وآخرين: استخدام حلقات التحقق باللغة الطبيعية لدعم تحرير الصور غير البصري لمجتمع BLV
  2. AVScript لـ Huh وآخرين: نظام تحرير الفيديو النصي، يدمج الأوصاف البصرية والكلام
  3. A11yboard لـ Zhang وآخرين: بحث في إمكانية الوصول إلى لوحات الرسم الرقمية

مشاركة مجتمع BLV في المحتوى الرقمي

  1. المشاركة في منصات التواصل الاجتماعي: مشاركة الحياة اليومية والمشاركة في اقتصاد الإنشاء على منصات الفيديو لمنشئي BLV
  2. بحث حواجز الوصول: صعوبات إنشاء محتوى جذاب بصرياً وتحديات التحقق من وظائف المرشحات ومشاكل تتبع الاتجاهات

التعاون متعدد القدرات

  1. أدوات التعاون في الوقت الفعلي: تحسينات التعاون متعدد القدرات في محررات النصوص وبرامج العروض التقديمية
  2. إمكانية الوصول في بيئات التعاون: إمكانية الوصول إلى الأنشطة التعاونية الموجهة بصرياً (الرسوم السلكية والمناقشات على اللوحة البيضاء)

الخلاصات والمناقشة

الاستنتاجات الرئيسية

  1. إعادة تعريف الثقافة البصرية: يمتلك مجتمع BLV فهماً عميقاً للقدرات البصرية، وينبغي للتكنولوجيا أن تدعم وتعزز بدلاً من افتراض غيابها
  2. التحسين المنهجي لشمول مكان العمل: يمكن تحقيق تقليل تدريجي للتحيزات وتحسين الاستقلالية والشمول وتطوير المهارات لمجتمع BLV من خلال الابتكار التكنولوجي
  3. أهمية الأوصاف الشخصية: تتطلب سيناريوهات مهنية مختلفة استراتيجيات وصف بصري مخصصة

آليات التأثير طويلة الأجل

الاستشهاد برأي جورجينا كليج: "في المتوسط، يفهم شخص أعمى تماماً وخلقياً ما تعنيه الرؤية أكثر بكثير مما يفهمه الشخص العادي ذو الرؤية الطبيعية عن معنى العمى."

الآثار المتوقعة:

  • تحسين الاستقلالية: تقليل الاعتماد على مساعدة الآخرين
  • تحسين الشمول: تعزيز ممارسات التصميم الشامل وثقافة مكان العمل
  • تطوير المهارات: دعم المهنيين من مجتمع BLV في عرض قدراتهم الإبداعية

التقييم المتعمق

المزايا

  1. توجه قوي نحو المشكلة: يعالج الحواجز الأساسية للمشاركة في مكان العمل لمجتمع BLV
  2. أفكار تصميمية مبتكرة: يقترح مفهوم نظام وصف ذكاء اصطناعي سياقي وشخصي
  3. قيمة عملية عالية: يوفر توصيات تصميمية محددة وقابلة للتطبيق
  4. أساس نظري متين: يستشهد بشكل كافٍ بالأدبيات ذات الصلة ويقدم حجج قوية
  5. أهمية اجتماعية كبيرة: يركز على حقوق المساواة في مكان العمل للمجموعات المهمشة

أوجه القصور

  1. نقص التحقق التجريبي: كورقة مفاهيمية، تفتقر إلى أبحاث المستخدمين وتقييم النظام
  2. تفاصيل تنفيذ تكنولوجي غير كافية: وصف محدود للهندسة المعمارية التقنية المحددة لنظام الذكاء الاصطناعي
  3. تحليل قابلية التوسع ناقص: لم يتم مناقشة قابلية تطبيق التوصيات التصميمية على سيناريوهات مهنية أخرى بعمق
  4. تحليل التكلفة والفائدة مفقود: لم يتم النظر في التكاليف العملية لتطوير ونشر النظام

التأثير

  1. المساهمة الأكاديمية: توفير أفكار تصميمية جديدة لبحث التكنولوجيا المساعدة
  2. التوجيه العملي: توفير إرشادات تصميمية محددة لمطوري التكنولوجيا ذات الصلة
  3. الإلهام السياسي: قد يؤثر على صياغة سياسات إمكانية الوصول في مكان العمل
  4. القيمة الاجتماعية: تعزيز إعادة تقييم المجتمع للقدرات المهنية لمجتمع BLV

السيناريوهات المعمول بها

  1. صناعة إنشاء المحتوى: إنتاج الفيديو والتصميم الرسومي والإبداع التسويقي وغيرها
  2. بيئات العمل التعاوني: سيناريوهات العمل الجماعي التي تتطلب تعاوناً بصرياً في الوقت الفعلي
  3. التعليم والتدريب: دعم تطوير المهارات البصرية والتطور الوظيفي
  4. تطوير التكنولوجيا: تطوير أدوات مساعدة بالذكاء الاصطناعي ومنتجات تكنولوجيا مساعدة

اتجاهات البحث المستقبلية

  1. أبحاث المستخدمين: فهم عميق للاحتياجات المحددة للمهنيين من مجتمع BLV في مختلف المهن
  2. التنفيذ التكنولوجي: تطوير أنظمة نموذجية والتحقق من الجدوى التقنية
  3. تقييم الفعالية: تصميم نظام مؤشرات التقييم والتحقق من تأثير النظام على كفاءة العمل ورضا المستخدم
  4. التوسع عبر المجالات: استكشاف قابلية تطبيق مبادئ التصميم في مجالات مهنية أخرى
  5. الاعتبارات الأخلاقية: دراسة الانحيازات المحتملة والمشاكل المتعلقة بالخصوصية في أنظمة وصف الذكاء الاصطناعي

الملخص: تقترح هذه الورقة اتجاهاً بحثياً مهماً وطموحاً، حيث توفر دعماً أفضل لمكان العمل للمهنيين من مجتمع BLV من خلال تكنولوجيا الذكاء الاصطناعي التوليدي. على الرغم من أنها كبحث مفاهيمي تفتقر إلى التحقق التجريبي، إلا أن أفكارها التصميمية وقيمتها الاجتماعية تستحق المزيد من البحث المتعمق واستكشاف التطبيقات العملية.