2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Grundinformationen

  • Papier-ID: 2506.14670
  • Titel: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
  • Autoren: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (University of Minnesota)
  • Klassifizierung: cs.HC (Human-Computer Interaction), cs.AI (Artificial Intelligence)
  • Veröffentlichungskonferenz: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
  • Papierlink: https://arxiv.org/abs/2506.14670
  • Projektlink: https://knowledge-computing.github.io/projects/streetlens

Zusammenfassung

Traditionelle Nachbarschaftsforschung stützt sich auf Interviews, Umfragen und manuelle Bildannotationen nach detaillierten Protokollen, um Umweltmerkmale wie physische Unordnung, Verfall, Straßensicherheit und soziokulturelle Symbole zu identifizieren und deren Auswirkungen auf Entwicklungs- und Gesundheitsergebnisse zu untersuchen. Obwohl diese Methoden umfangreiche Erkenntnisse liefern, sind sie zeitaufwändig und erfordern intensive Fachleute-Intervention. Dieses Papier präsentiert StreetLens, einen vom Benutzer konfigurierbaren, menschenzentrierten Arbeitsablauf, der relevantes sozialwissenschaftliches Fachwissen in Vision-Language-Modelle (VLM) integriert, um skalierbare Nachbarschaftsumweltbewertungen zu ermöglichen.

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle Nachbarschaftsumweltbewertung steht vor folgenden Herausforderungen:

  1. Arbeitsintensivität: Erfordert geschulte Kodierer für systematische soziale Beobachtung (SSO), wobei mehrere Kodierer dasselbe Bild annotieren, um Zuverlässigkeit zu gewährleisten
  2. Skalierungsbeschränkungen: Manuelle Methoden lassen sich schwer auf große geografische Gebiete und vielfältige Forschungssituationen ausweiten
  3. Abhängigkeit von Experten: Erfordert kontinuierliche Beteiligung und Überwachung durch Fachleute
  4. Standardisierungsschwierigkeiten: Mangel an adaptiven Systemmethoden über Forschungsdesigns und geografische Kontexte hinweg

Forschungsbedeutung

Die Bewertung von Nachbarschaftsumweltmerkmalen ist entscheidend für das Verständnis, wie die Umwelt folgende Aspekte beeinflusst:

  • Jugendentwicklung
  • Psychische Gesundheit
  • Sozialer Zusammenhalt
  • Ergebnisse der öffentlichen Gesundheit

Einschränkungen bestehender Methoden

  1. Traditionelle Methoden: Obwohl sie wertvolle Erkenntnisse liefern, sind die Prozesse mühsam, von Experten abhängig und schwer zu skalieren
  2. Bestehende VLM-Anwendungen: Meist ad-hoc-Anwendungen, die ein strukturiertes Framework fehlt, um VLMs systematisch wie menschliche Kodierer trainieren zu können
  3. Fehlende Rückmeldungsmechanismen: Bestehende Methoden akzeptieren typischerweise VLM-Ergebnisse direkt, ohne Forscher-Feedback zu ermöglichen

Kernbeiträge

  1. Vorschlag des StreetLens-Arbeitsablaufs: Erster End-to-End-, forscherzentrierter Arbeitsablauf für systematische soziale Beobachtung, der den menschlichen Kodierer-Trainingsprozess simuliert
  2. Mensch-Maschine-Kooperationsrahmen: Integration von Fachwissen durch Rollen-Prompting als Kernkomponente des Analyseprozesses
  3. Automatisierte Prompt-Optimierung: Automatische Generierung domänenspezifischer Prompts basierend auf relevanter Forschungsliteratur und Kodierhandbüchern
  4. Verbesserte Interpretierbarkeit: Bereitstellung von Erklärungen für VLM-Entscheidungen und Rückmeldungsmechanismen
  5. Open-Source-Zugänglichkeit: Bereitstellung von Google Colab-Notebooks zur Senkung technischer Hürden

Methodische Details

Aufgabendefinition

Eingaben:

  • Spezifikationen des Forschungsgebiets
  • Kodierhandbücher und Protokolle
  • Relevante akademische Arbeiten
  • Beispielannotationen
  • Street View-Bilder (SVI)

Ausgaben:

  • Strukturierte Umweltmerkmalsbewertungen
  • Semantische Annotationen von objektiven Merkmalen (z. B. Anzahl der Autos) bis zu subjektiven Wahrnehmungen (z. B. Unordnungsgefühl)
  • Bewertungserklärungen und Rückmeldungen

Systemarchitektur

StreetLens umfasst vier Kernmodule:

M1. Datenverarbeiter (Data Processor)

  • Funktionalität: Erfassung und Organisation von Eingabematerialien
  • Eingabeverarbeitung:
    • Auswahl des Forschungsgebiets (basierend auf US Census TIGER-Straßendaten, Stichprobennahme in 5-Meter-Intervallen)
    • Material-Upload (Kodierhandbücher, Protokolle, relevante Arbeiten, Beispielannotationen)
    • Google Street View-Bildabruf
  • Ausgabe: Strukturierter Eingabedatensatz

M2. Automatisierte Prompt-Optimierung (Automated Prompt Tuning)

  • Rollengenerierung: Generierung von VLM-Fachrolle-Beschreibungen basierend auf Zusammenfassungen relevanter Arbeiten
    Prompt-Vorlage:
    "You are an expert in the following fields and the author of the paper abstracts provided here: [Papier-Zusammenfassungen]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
    
  • Aufgabenklassifizierung: Unterscheidung zwischen subjektiven Wahrnehmungsaufgaben vs. objektiven Erkennungsaufgaben
    Klassifizierungs-Prompt:
    "You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
    
  • Kodierhandbuch-Verarbeitung: Umwandlung von Frage-Antwort-Paaren in strukturierte Prompts

M3. Vision-Language-Modell-Verarbeiter (VLM Processor)

  • Modellauswahl: Verwendung des Open-Source-Lightweight-VLM InternVL3-2B
    • Bildencoder: InternViT-300M-448px-V2_5
    • Sprachmodell: Qwen2.5-1.5B
  • Verarbeitungsablauf:
    1. Bildcodierung und Einbettung
    2. Kombination mit von M2 generierten Prompts
    3. Nutzung von Beispiel-Bild-Antwort-Paaren für kontextabhängiges Lernen
    4. Generierung von Umweltmerkmalsbewertungen

M4. Rückmeldungsanbieter (Feedback Provider)

  • Erklärungsgenerierung: Bereitstellung von Begründungserklärungen für VLM-Bewertungen
  • Interpretierbarkeit: Unterstützung der Forscher beim Verständnis des Entscheidungsprozesses des KI-Agenten
  • Beispiel: Erklärung für die Messung „Decay 1": „There are only slight cracks, and any potholes present have been fixed or covered"

Technische Innovationen

  1. Fachwissensintegration: Einbettung von sozialwissenschaftlichem Fachwissen in VLMs durch Rollen-Prompting
  2. Aufgabenadaption: Automatische Identifikation und Anpassung an verschiedene Bewertungsaufgabentypen (Wahrnehmung vs. Erkennung)
  3. Kontextabhängiges Lernen: Nutzung von Fachleute-Annotationsbeispielen zur Verbesserung der Modellleistung
  4. Mensch-Maschine-Kooperationsdesign: Simulation des menschlichen Kodierer-Trainingsprozesses, einschließlich Literaturstudium, Protokollforschung und Beispielprüfung

Fallstudie

Forschungshintergrund

Basierend auf der Haushalts-Sozialwissenschaftsstudie von Pasco und White (2020):

  • Forschungsziel: Bewertung der Beziehung zwischen Nachbarschaftsumwelt und der Verwendung rassischer Bezeichnungen durch Jugendliche
  • Methode: Schulung menschlicher Kodierer mit dem SSO-Protokoll (Systematic Social Observation)
  • Bewertungsinhalte: Grad des physischen Verfalls, soziokulturelle Symbole usw.
  • Validierungsmethode: Bewertung der Kodierer-Zuverlässigkeit durch Intraklassen-Korrelationskoeffizient (ICC)

StreetLens-Anwendung

  • Teilnahme als zusätzlicher intelligenter Kodierer am Bewertungsprozess
  • Verwendung relevanter Forschungsliteratur zur Definition der VLM-Rolle
  • Verarbeitung spezifischer Fragen aus dem Kodierhandbuch (z. B. „Disorder 3")
  • Bereitstellung erklärbarer Bewertungsergebnisse

Experimentelle Einrichtung

Datenquellen

  • Street View-Bilder: Google Street View-Bilder
  • Geodaten: US Census TIGER-Straßendaten
  • Stichprobennahme-Strategie: Vordefinierte Standorte in 5-Meter-Intervallen
  • Fallstudien-Daten: Manuelle Annotationen aus der ursprünglichen Fallstudie

Technische Implementierung

  • Bereitstellungsplattform: Google Colab-Notebook
  • Server: University of Minnesota, verbunden über Cloudflare
  • Benutzeroberfläche: Modulares Button-Design, unterstützt separate Erkundung der Modulfunktionen

Verwandte Arbeiten

Evolution traditioneller Methoden

  1. Frühe Forschung: Sampson und Raudenbush (1999) verwendeten Video zur Bewertung der physischen Unordnung in 23.000 Straßenabschnitten in Chicago
  2. Virtuelle Audits: Nachfolgende Forschung nutzte Google Earth und Street View für Remote-Bewertungen
  3. Computervisions-Methoden: Erkennung städtischer Begrünung, Gehwegqualität und anderer physischer Merkmale

Aktueller Stand der VLM-Anwendung

  • Begehbarkeitsbewertung: Verwendung von VLMs zur Bewertung der städtischen Fußgängerfreundlichkeit
  • Strukturierte Beschreibungen: Generierung strukturierter Beschreibungen der städtischen Umwelt
  • Objekterkennung: Erkennung spezifischer Objekte in Audit-Kategorien

Vorteile von StreetLens

Im Vergleich zu bestehenden Arbeiten bietet StreetLens:

  • End-to-End-Arbeitsablauf mit Forscherzentriertem Fokus
  • Systematischer VLM-Trainingsprozess, der den menschlichen Prozess simuliert
  • Adaptivität über Forschungsdesigns und geografische Kontexte hinweg

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Arbeitsablauf-Effektivität: StreetLens simuliert erfolgreich den Trainings- und Bewertungsprozess menschlicher Kodierer
  2. Fachwissensintegration: Effektive Integration von sozialwissenschaftlichem Fachwissen durch Rollen-Prompting
  3. Verbesserte Skalierbarkeit: Signifikante Verbesserung der Skalierungsfähigkeit von Nachbarschaftsumweltbewertungen
  4. Mensch-Maschine-Kooperation: Realisierung effektiver Zusammenarbeit zwischen KI und Forschern

Einschränkungen

  1. Modellverzerrungen: VLMs können bei der Interpretation soziokultureller Hintergründe vielfältiger Nachbarschaften Verzerrungen aufweisen
  2. Bewertungsvalidierung: Bedarf systematischerer Bewertungsmethoden (z. B. ICC) zur Validierung der Zuverlässigkeit automatisierter Kodierung
  3. Rückmeldungsmechanismen: Aktuelle Rückmeldungsschleifen sind begrenzt und benötigen mehr interaktive Verbesserungsfunktionen

Zukünftige Richtungen

  1. Verbesserung der Mensch-Maschine-Interaktion:
    • Hinzufügen von Rückmeldungsschleifen, die es Forschern ermöglichen, StreetLens-Entscheidungen zu erklären und zu verbessern
    • Erkundung verschiedener Arten automatisierter Kodierer
    • Entwicklung automatisierter Methoden, die näher an menschlicher Kodierung liegen
  2. Verbesserung der Bewertungsmethoden:
    • Verwendung des Intraklassen-Korrelationskoeffizients (ICC) zur Behandlung automatisierter Kodierer als menschliche Annotoren
    • Bereitstellung von Rückmeldungsmechanismen zur Überwachung der Plausibilität und Zuverlässigkeit von Ausgaben
    • Verbesserung der Bequemlichkeit der Ergebnisüberprüfung und -verbesserung
  3. Verzerrungsminderung:
    • Bewertung potenzieller Verzerrungsquellen
    • Anwendung partizipativer Designmethoden in Zusammenarbeit mit Fachleuten
    • Sicherstellung der verantwortungsvollen und menschenzentrierten Natur des Werkzeugs

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmals systematischer Arbeitsablauf, der den menschlichen Kodierer-Trainingsprozess mit VLMs simuliert
  2. Hoher praktischer Wert: Löst tatsächliche Schmerzpunkte in der Nachbarschaftsforschung mit breitem Anwendungspotenzial
  3. Vernünftige technische Lösung: Klares Vier-Modul-Design mit praktikablem technischen Weg
  4. Open-Source-freundlich: Bereitstellung von Google Colab-Implementierung zur Senkung von Nutzungshürden
  5. Interdisziplinäre Integration: Effektive Kombination von KI-Technologie und sozialwissenschaftlicher Methodik

Mängel

  1. Unzureichende Bewertung: Mangel an systematischen Vergleichsexperimenten mit menschlichen Kodierern
  2. Verzerrungsrisiken: Unzureichende Diskussion von VLM-Verzerrungen bei der soziokultureller Interpretation
  3. Ungeprüfte Generalisierungsfähigkeit: Nur auf einer Fallstudie basierend, mangelnde Multi-Szenario-Validierung
  4. Unzureichende technische Details: Begrenzte Analyse spezifischer Prompt-Engineering-Strategien und deren Effekte

Auswirkungen

  1. Akademischer Beitrag: Bietet neues Paradigma für Mensch-Maschine-Kooperation in der geospatialen Informatik
  2. Praktischer Wert: Kann die Effizienz und Skalierbarkeit der Nachbarschaftsforschung erheblich verbessern
  3. Interdisziplinäre Auswirkungen: Anwendungswert für Stadtplanung, öffentliche Gesundheit, Soziologie und andere Felder
  4. Methodologische Innovation: Bietet Referenzrahmen für die Anwendung von VLMs in domänenspezifischen Aufgaben

Anwendungsszenarien

  1. Stadtforschung: Großflächige Bewertung von Nachbarschaftsumweltmerkmalen
  2. Öffentliche Gesundheit: Forschung zu Umweltfaktoren und deren Auswirkungen auf die Gesundheit
  3. Soziologische Forschung: Analyse der Beziehung zwischen Gemeinschaftsmerkmalen und sozialen Phänomenen
  4. Stadtplanung: Bewertung der städtischen Umwelt basierend auf visuellen Merkmalen

Ethische Überlegungen

Das Papier erkennt ausdrücklich an, dass Modelle des maschinellen Lernens potenzielle gesellschaftliche Verzerrungen aufweisen können, besonders bei der Interpretation soziokultureller Hintergründe vielfältiger Nachbarschaften. Die Autoren planen, in zukünftigen Arbeiten potenzielle Verzerrungsquellen zu bewerten und mit Fachleuten zusammenzuarbeiten, um partizipative Designmethoden anzuwenden und sicherzustellen, dass StreetLens als verantwortungsvolles, menschenzentriertes Werkzeug fungiert.

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:

  • Klassische Forschung zur Nachbarschaftsumweltbewertung (Sampson & Raudenbush, 1999)
  • Entwicklung virtueller Audit-Methoden (Odgers et al., 2012; Clarke et al., 2010)
  • Anwendung von VLMs in der Stadtanalyse (Biljecki & Ito, 2021)
  • Prompt-Engineering-Techniken (Schulhoff et al., 2025)

Zusammenfassung: StreetLens stellt einen wichtigen Fortschritt in der Verschmelzung von KI und sozialwissenschaftlichen Forschungsmethoden dar. Durch systematisches Workflow-Design realisiert es die Automatisierung und Skalierung von Nachbarschaftsumweltbewertungen. Obwohl in den Bereichen Bewertungsvalidierung und Verzerrungsbehandlung weitere Verbesserungen erforderlich sind, bietet sein innovatives Mensch-Maschine-Kooperationskonzept und seine praktische technische Lösung wertvollen Werkzeuge und methodologische Referenzen für verwandte Forschungsbereiche.