Many blind and low vision (BLV) people are excluded from professional roles that may involve visual tasks due to access barriers and persisting stigmas. Advancing generative AI systems can support BLV people through providing contextual and personalized visual descriptions for creation, critique, and consumption. In this workshop paper, we provide design suggestions for how visual descriptions can be better contextualized for multiple professional tasks. We conclude by discussing how these designs can improve autonomy, inclusion, and skill development over time.
- Paper-ID: 2510.08991
- Titel: Creation, Critique, and Consumption: Exploring Generative AI Descriptions for Supporting Blind and Low Vision Professionals with Visual Tasks
- Autoren: Lucy Jiang, Lotus Zhang, Leah Findlater (University of Washington)
- Klassifizierung: cs.HC (Mensch-Computer-Interaktion)
- Veröffentlichungszeitpunkt/Konferenz: ASSETS '25 Workshop: AT @ Work, Virtual 2025
- Paper-Link: https://arxiv.org/abs/2510.08991
Viele blinde und sehbehinderte (BLV) Personen werden aufgrund von Zugangsbarrieren und anhaltenden Vorurteilen von Fachpositionen ausgeschlossen, die visuelle Aufgaben beinhalten könnten. Fortschrittliche generative KI-Systeme können BLV-Personen durch die Bereitstellung kontextualisierter und personalisierter visueller Beschreibungen für Erstellung, Kritik und Konsum unterstützen. In diesem Workshop-Papier bieten die Autoren Designempfehlungen zur besseren Bereitstellung kontextualisierter visueller Beschreibungen für verschiedene Fachaufgaben und diskutieren, wie diese Designs im Laufe der Zeit Autonomie, Inklusivität und Kompetenzentwicklung verbessern können.
- Erhebliche Beschäftigungslücke: Die Beschäftigungsquote von Menschen mit Behinderungen beträgt etwa ein Drittel der Quote von Menschen ohne Behinderungen, wobei BLV-Personen besonders stark von Beschäftigungshindernissen betroffen sind
- Visuelle Aufgaben als Arbeitsplatzbarriere: Zahlreiche Aufgaben in modernen Arbeitsumgebungen, die visuelle Kommunikation beinhalten (wie Erstellung von Präsentationen, Formatierung von Dokumenten, Fotografie, Anschauen von Schulungsvideos), stellen für BLV-Fachleute erhebliche Hindernisse dar
- Einschränkungen traditioneller Hilfstechnologien: Bestehende Barrierefreiheitslösungen beschränken sich hauptsächlich auf die Bereitstellung grundlegender visueller Informationen und ermöglichen keine vollständige Arbeitsplatzteilhabe
- Die schnelle Entwicklung generativer KI-Technologie schafft neue Möglichkeiten für die Bereitstellung kontextualisierter, personalisierter visueller Beschreibungen
- Notwendigkeit, über grundlegenden Informationszugang hinauszugehen und BLV-Fachleute bei der vollständigen Teilhabe an visuellen Kommunikationsaufgaben zu unterstützen
- Abbau von Beschäftigungsbarrieren durch technologische Innovation und Verbesserung der Arbeitsplatzinklusivität für BLV-Personen
- Vorschlag eines Designrahmens für spezialisierte Beschreibungssysteme: Bereitstellung kontextualisierter und personalisierter KI-Beschreibungsdienste für verschiedene berufliche Szenarien
- Entwicklung zweier konkreter Anwendungsszenarien: Videoproduktion für unabhängige Inhaltsersteller und Erstellung von Marketingmaterialien in großen Werbeagenturen
- Bereitstellung systematischer Designempfehlungen: Umfassung visueller Aufgabenunterstützung in drei Dimensionen – Erstellung, Kritik und Konsum
- Darlegung langfristiger Auswirkungsmechanismen: Analyse, wie diese Designs die Autonomie, Inklusivität und Kompetenzentwicklung von BLV-Fachleuten verbessern
Diese Forschung konzentriert sich auf die Gestaltung generativer KI-Beschreibungssysteme zur Unterstützung von BLV-Fachleuten und umfasst drei Kernaufgabendimensionen:
- Erstellung (Creation): Unterstützung von BLV-Personen bei der Erstellung visueller Inhalte
- Kritik (Critique): Unterstützung bei der Bewertung und Rückmeldung zu visuellen Werken
- Konsum (Consumption): Unterstützung beim Verständnis und der Verarbeitung visueller Informationen
Kernbedarfsanalyse:
- Schwierigkeiten bei der Identifizierung visueller Trends
- Herausforderungen bei Aufnahmekomposition und Motivpositionierung
- Anforderungen zur Überprüfung visueller Effekte bei der Nachbearbeitung
KI-Beschreibungssystem-Design:
- Trend-Identifikationsunterstützung: Beschreibung häufiger visueller Begleitelemente populärer Soundtracks (Gesten, Bildschirmtext usw.)
- Aufnahmeprozessunterstützung:
- Sicherstellung idealer Motivpositionierung im Bildrahmen
- Bereitstellung detaillierter Inhaltsbeschreibungen zur Unterstützung künstlerischer Komposition
- Bearbeitungsprozessverbesserung:
- Beschreibung der Farbtemperatur des Videos
- Bewertung der Genauigkeit von Filtern und Effekten
- Bereitstellung künstlerischer Informationen über die Inhaltsbearbeitung hinaus
Kernherausforderungen:
- Komplexität kollaborativer Arbeitsabläufe
- Anforderungen zur Erstellung von Inhalten in mehreren Formaten
- Anforderungen für schnelle Iteration und Echtzeitkollaboation
- Strikte Einhaltung von Markenrichtlinien
KI-Beschreibungssystem-Design:
- Markenkonformitätsunterstützung:
- Präzise Beschreibung von Markenrichtlinien
- Genaue Farbenbeschreibung zur Sicherung der Markenrepräsentation
- Verbesserung der Teamkollaboation:
- Gesamtübersichtsbeschreibungen (Gesamterscheinungsbild)
- Objektebene-Beschreibungen (z.B. Haftnotiz-Gruppen)
- Verfolgung der Cursor-Position von Mitarbeitern (als visueller Fokusvertreter)
- Kontextbewusste Beschreibungen: Anpassung von Beschreibungsinhalten und Detailgrad an spezifische berufliche Aufgabenanforderungen
- Mehrschichtige Informationsarchitektur: Bereitstellung hierarchischer visueller Informationen von Makro- bis Mikroebene
- Echtzeitkollaboationsunterstützung: Integration dynamischer visueller Rückmeldung in Team-Arbeitsabläufe
- Personalisierte Anpassung: Anpassung von Beschreibungsstrategien basierend auf Benutzerrolle und Aufgabentyp
Hinweis: Dieses Papier ist ein Workshop-Papier, das hauptsächlich Designempfehlungen und konzeptionelle Rahmen bietet und keine traditionellen experimentellen Einrichtungen und Ergebnisse enthält.
- Basierend auf Literaturanalyse der Herausforderungen, denen sich BLV-Inhaltsersteller gegenübersehen
- Bezugnahme auf bestehende Forschung zu visuellen Bearbeitungshilfssystemen (z.B. Huhs Text-Video-Bearbeitungssystem)
- Integration relevanter Arbeiten zur Barrierefreiheit bei digitaler Grafikgestaltung
- Validierung der Universalität des Problems durch Literaturrecherche
- Analyse von Designanforderungen basierend auf Einschränkungen bestehender Systeme
- Designinspiration durch Referenzierung erfolgreicher Fälle in verwandten Bereichen
- EditScribe von Chang et al.: Verwendung von Schleifen zur Validierung natürlicher Sprache zur Unterstützung von BLV-Personen bei nicht-visueller Bildbearbeitung
- AVScript von Huh et al.: Text-Video-Bearbeitungssystem mit integrierten visuellen Beschreibungen und Sprache
- A11yboard von Zhang et al.: Forschung zur Barrierefreiheit digitaler Zeichenbretter
- Teilhabe in sozialen Medien: Alltägliche Lebensfreigaben und Teilhabe an der Kreativwirtschaft von BLV-Erstellern auf Videoplattformen
- Forschung zu Zugangsbarrieren: Schwierigkeiten bei der Erstellung visuell ansprechender Inhalte, Probleme bei der Filtervalidierung, Herausforderungen beim Trend-Tracking
- Echtzeit-Kollaborationswerkzeuge: Verbesserungen der Kollaboration mit gemischten Fähigkeiten in Texteditoren und Präsentationssoftware
- Barrierefreiheit in Kollaborationsumgebungen: Barrierefreiheit visuell orientierter Kollaborationsaktivitäten (Wireframing, Whiteboard-Diskussionen)
- Neudefinition von visueller Kompetenz: BLV-Personen verfügen über tiefes visuelles Verständnis; Technologie sollte dies unterstützen und verstärken, nicht dessen Fehlen voraussetzen
- Systematische Verbesserung der Arbeitsplatzinklusivität: Durch technologische Innovation können Vorurteile schrittweise reduziert und Autonomie, Inklusivität und Kompetenzentwicklung von BLV-Personen verbessert werden
- Bedeutung personalisierter Beschreibungen: Verschiedene berufliche Szenarien erfordern maßgeschneiderte Strategien für visuelle Beschreibungen
Unter Bezugnahme auf Georgina Kleege: „Im Durchschnitt versteht eine vollständig blinde Person von Geburt an, was visuell bedeutet, weit mehr als eine durchschnittlich sehende Person über die Bedeutung von Blindheit versteht."
Erwartete Effekte:
- Erhöhte Autonomie: Verringerung der Abhängigkeit von Unterstützung durch andere
- Verbesserte Inklusivität: Förderung inklusiverer Designpraktiken und Arbeitskultur
- Kompetenzentwicklung: Unterstützung von BLV-Fachleuten bei der Demonstration ihrer kreativen Fähigkeiten
- Starke Problemorientierung: Adressiert zentrale Hindernisse für die Arbeitsplatzteilhabe von BLV-Personen
- Innovative Designideen: Schlägt das Konzept kontextualisierter, personalisierter KI-Beschreibungssysteme vor
- Hoher praktischer Wert: Bietet konkrete, umsetzbare Designempfehlungen
- Solide theoretische Grundlagen: Umfangreiche Literaturzitate und gründliche Argumentation
- Bedeutende gesellschaftliche Relevanz: Befasst sich mit Arbeitsplatzgleichheit für benachteiligte Gruppen
- Mangel an empirischer Validierung: Als konzeptionelles Papier fehlen Benutzerforschung und Systembewertung
- Unzureichende technische Implementierungsdetails: Begrenzte Beschreibung der spezifischen technischen Architektur des KI-Systems
- Fehlende Skalierbarkeitsanalyse: Unzureichende Diskussion der Anwendbarkeit von Designempfehlungen in anderen beruflichen Szenarien
- Fehlende Kosten-Nutzen-Analyse: Keine Berücksichtigung der tatsächlichen Kosten für Systementwicklung und Bereitstellung
- Akademischer Beitrag: Bietet neue Designideen für die Barrierefreiheitsforschung
- Praktische Anleitung: Bietet konkrete Designanleitung für relevante Technologieentwickler
- Politische Inspiration: Könnte die Formulierung von Arbeitsplatzbarrierefreiheitspolitik beeinflussen
- Gesellschaftlicher Wert: Fördert gesellschaftliche Neubewertung der beruflichen Fähigkeiten von BLV-Personen
- Inhaltsersteller-Industrie: Videoproduktion, Grafikdesign, Marketing-Kreativität und verwandte Bereiche
- Kollaborative Arbeitsumgebungen: Team-Arbeitsszenarien, die Echtzeitvisuelle Kollaboration erfordern
- Bildung und Schulung: Visuelle Kompetenzschulung und Unterstützung der beruflichen Entwicklung
- Technologieentwicklung: Entwicklung von KI-Hilfswerkzeugen und Barrierefreiheitstechnologieprodukten
- Benutzerforschung: Tieferes Verständnis spezifischer Anforderungen von BLV-Fachleuten in verschiedenen Berufen
- Technische Implementierung: Entwicklung von Prototypsystemen und Validierung der technischen Machbarkeit
- Effektbewertung: Gestaltung von Bewertungsmetriken zur Validierung der Auswirkungen des Systems auf Arbeitseffizienz und Zufriedenheit der Benutzer
- Bereichsübergreifende Erweiterung: Erforschung der Anwendbarkeit von Designprinzipien in anderen beruflichen Bereichen
- Ethische Überlegungen: Untersuchung möglicher Vorurteile und Datenschutzprobleme von KI-Beschreibungssystemen
Zusammenfassung: Dieses Papier schlägt eine wichtige und zukunftsweisende Forschungsrichtung vor, die generative KI-Technologie nutzt, um bessere Arbeitsplatzunterstützung für BLV-Fachleute zu bieten. Obwohl es als konzeptionelle Forschung an empirischer Validierung mangelt, sind seine Designideen und gesellschaftlicher Wert einer weiteren tiefgreifenden Forschung und praktischen Anwendungserkundung würdig.