2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.

Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.

academic

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Grundinformationen

Papier-ID: 2506.14670
Titel: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Autoren: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (University of Minnesota)
Klassifizierung: cs.HC (Human-Computer Interaction), cs.AI (Artificial Intelligence)
Veröffentlichungskonferenz: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
Papierlink: https://arxiv.org/abs/2506.14670
Projektlink: https://knowledge-computing.github.io/projects/streetlens

Zusammenfassung

Traditionelle Nachbarschaftsforschung stützt sich auf Interviews, Umfragen und manuelle Bildannotationen nach detaillierten Protokollen, um Umweltmerkmale wie physische Unordnung, Verfall, Straßensicherheit und soziokulturelle Symbole zu identifizieren und deren Auswirkungen auf Entwicklungs- und Gesundheitsergebnisse zu untersuchen. Obwohl diese Methoden umfangreiche Erkenntnisse liefern, sind sie zeitaufwändig und erfordern intensive Fachleute-Intervention. Dieses Papier präsentiert StreetLens, einen vom Benutzer konfigurierbaren, menschenzentrierten Arbeitsablauf, der relevantes sozialwissenschaftliches Fachwissen in Vision-Language-Modelle (VLM) integriert, um skalierbare Nachbarschaftsumweltbewertungen zu ermöglichen.

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle Nachbarschaftsumweltbewertung steht vor folgenden Herausforderungen:

Arbeitsintensivität: Erfordert geschulte Kodierer für systematische soziale Beobachtung (SSO), wobei mehrere Kodierer dasselbe Bild annotieren, um Zuverlässigkeit zu gewährleisten
Skalierungsbeschränkungen: Manuelle Methoden lassen sich schwer auf große geografische Gebiete und vielfältige Forschungssituationen ausweiten
Abhängigkeit von Experten: Erfordert kontinuierliche Beteiligung und Überwachung durch Fachleute
Standardisierungsschwierigkeiten: Mangel an adaptiven Systemmethoden über Forschungsdesigns und geografische Kontexte hinweg

Forschungsbedeutung

Die Bewertung von Nachbarschaftsumweltmerkmalen ist entscheidend für das Verständnis, wie die Umwelt folgende Aspekte beeinflusst:

Jugendentwicklung
Psychische Gesundheit
Sozialer Zusammenhalt
Ergebnisse der öffentlichen Gesundheit

Einschränkungen bestehender Methoden

Traditionelle Methoden: Obwohl sie wertvolle Erkenntnisse liefern, sind die Prozesse mühsam, von Experten abhängig und schwer zu skalieren
Bestehende VLM-Anwendungen: Meist ad-hoc-Anwendungen, die ein strukturiertes Framework fehlt, um VLMs systematisch wie menschliche Kodierer trainieren zu können
Fehlende Rückmeldungsmechanismen: Bestehende Methoden akzeptieren typischerweise VLM-Ergebnisse direkt, ohne Forscher-Feedback zu ermöglichen

Kernbeiträge

Vorschlag des StreetLens-Arbeitsablaufs: Erster End-to-End-, forscherzentrierter Arbeitsablauf für systematische soziale Beobachtung, der den menschlichen Kodierer-Trainingsprozess simuliert
Mensch-Maschine-Kooperationsrahmen: Integration von Fachwissen durch Rollen-Prompting als Kernkomponente des Analyseprozesses
Automatisierte Prompt-Optimierung: Automatische Generierung domänenspezifischer Prompts basierend auf relevanter Forschungsliteratur und Kodierhandbüchern
Verbesserte Interpretierbarkeit: Bereitstellung von Erklärungen für VLM-Entscheidungen und Rückmeldungsmechanismen
Open-Source-Zugänglichkeit: Bereitstellung von Google Colab-Notebooks zur Senkung technischer Hürden

Methodische Details

Aufgabendefinition

Eingaben:

Spezifikationen des Forschungsgebiets
Kodierhandbücher und Protokolle
Relevante akademische Arbeiten
Beispielannotationen
Street View-Bilder (SVI)

Ausgaben:

Strukturierte Umweltmerkmalsbewertungen
Semantische Annotationen von objektiven Merkmalen (z. B. Anzahl der Autos) bis zu subjektiven Wahrnehmungen (z. B. Unordnungsgefühl)
Bewertungserklärungen und Rückmeldungen

Systemarchitektur

StreetLens umfasst vier Kernmodule:

M1. Datenverarbeiter (Data Processor)

Funktionalität: Erfassung und Organisation von Eingabematerialien
Eingabeverarbeitung:
- Auswahl des Forschungsgebiets (basierend auf US Census TIGER-Straßendaten, Stichprobennahme in 5-Meter-Intervallen)
- Material-Upload (Kodierhandbücher, Protokolle, relevante Arbeiten, Beispielannotationen)
- Google Street View-Bildabruf
Ausgabe: Strukturierter Eingabedatensatz

M2. Automatisierte Prompt-Optimierung (Automated Prompt Tuning)

Rollengenerierung: Generierung von VLM-Fachrolle-Beschreibungen basierend auf Zusammenfassungen relevanter Arbeiten

Prompt-Vorlage:
"You are an expert in the following fields and the author of the paper abstracts provided here: [Papier-Zusammenfassungen]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."

Aufgabenklassifizierung: Unterscheidung zwischen subjektiven Wahrnehmungsaufgaben vs. objektiven Erkennungsaufgaben

Klassifizierungs-Prompt:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."

Kodierhandbuch-Verarbeitung: Umwandlung von Frage-Antwort-Paaren in strukturierte Prompts

M3. Vision-Language-Modell-Verarbeiter (VLM Processor)

Modellauswahl: Verwendung des Open-Source-Lightweight-VLM InternVL3-2B
- Bildencoder: InternViT-300M-448px-V2_5
- Sprachmodell: Qwen2.5-1.5B
Verarbeitungsablauf:
1. Bildcodierung und Einbettung
2. Kombination mit von M2 generierten Prompts
3. Nutzung von Beispiel-Bild-Antwort-Paaren für kontextabhängiges Lernen
4. Generierung von Umweltmerkmalsbewertungen

M4. Rückmeldungsanbieter (Feedback Provider)

Erklärungsgenerierung: Bereitstellung von Begründungserklärungen für VLM-Bewertungen
Interpretierbarkeit: Unterstützung der Forscher beim Verständnis des Entscheidungsprozesses des KI-Agenten
Beispiel: Erklärung für die Messung „Decay 1": „There are only slight cracks, and any potholes present have been fixed or covered"

Technische Innovationen

Fachwissensintegration: Einbettung von sozialwissenschaftlichem Fachwissen in VLMs durch Rollen-Prompting
Aufgabenadaption: Automatische Identifikation und Anpassung an verschiedene Bewertungsaufgabentypen (Wahrnehmung vs. Erkennung)
Kontextabhängiges Lernen: Nutzung von Fachleute-Annotationsbeispielen zur Verbesserung der Modellleistung
Mensch-Maschine-Kooperationsdesign: Simulation des menschlichen Kodierer-Trainingsprozesses, einschließlich Literaturstudium, Protokollforschung und Beispielprüfung

Fallstudie

Forschungshintergrund

Basierend auf der Haushalts-Sozialwissenschaftsstudie von Pasco und White (2020):

Forschungsziel: Bewertung der Beziehung zwischen Nachbarschaftsumwelt und der Verwendung rassischer Bezeichnungen durch Jugendliche
Methode: Schulung menschlicher Kodierer mit dem SSO-Protokoll (Systematic Social Observation)
Bewertungsinhalte: Grad des physischen Verfalls, soziokulturelle Symbole usw.
Validierungsmethode: Bewertung der Kodierer-Zuverlässigkeit durch Intraklassen-Korrelationskoeffizient (ICC)

StreetLens-Anwendung

Teilnahme als zusätzlicher intelligenter Kodierer am Bewertungsprozess
Verwendung relevanter Forschungsliteratur zur Definition der VLM-Rolle
Verarbeitung spezifischer Fragen aus dem Kodierhandbuch (z. B. „Disorder 3")
Bereitstellung erklärbarer Bewertungsergebnisse

Experimentelle Einrichtung

Datenquellen

Street View-Bilder: Google Street View-Bilder
Geodaten: US Census TIGER-Straßendaten
Stichprobennahme-Strategie: Vordefinierte Standorte in 5-Meter-Intervallen
Fallstudien-Daten: Manuelle Annotationen aus der ursprünglichen Fallstudie

Technische Implementierung

Bereitstellungsplattform: Google Colab-Notebook
Server: University of Minnesota, verbunden über Cloudflare
Benutzeroberfläche: Modulares Button-Design, unterstützt separate Erkundung der Modulfunktionen

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Arbeitsablauf-Effektivität: StreetLens simuliert erfolgreich den Trainings- und Bewertungsprozess menschlicher Kodierer
Fachwissensintegration: Effektive Integration von sozialwissenschaftlichem Fachwissen durch Rollen-Prompting
Verbesserte Skalierbarkeit: Signifikante Verbesserung der Skalierungsfähigkeit von Nachbarschaftsumweltbewertungen
Mensch-Maschine-Kooperation: Realisierung effektiver Zusammenarbeit zwischen KI und Forschern

Einschränkungen

Modellverzerrungen: VLMs können bei der Interpretation soziokultureller Hintergründe vielfältiger Nachbarschaften Verzerrungen aufweisen
Bewertungsvalidierung: Bedarf systematischerer Bewertungsmethoden (z. B. ICC) zur Validierung der Zuverlässigkeit automatisierter Kodierung
Rückmeldungsmechanismen: Aktuelle Rückmeldungsschleifen sind begrenzt und benötigen mehr interaktive Verbesserungsfunktionen

Zukünftige Richtungen

Verbesserung der Mensch-Maschine-Interaktion:
- Hinzufügen von Rückmeldungsschleifen, die es Forschern ermöglichen, StreetLens-Entscheidungen zu erklären und zu verbessern
- Erkundung verschiedener Arten automatisierter Kodierer
- Entwicklung automatisierter Methoden, die näher an menschlicher Kodierung liegen
Verbesserung der Bewertungsmethoden:
- Verwendung des Intraklassen-Korrelationskoeffizients (ICC) zur Behandlung automatisierter Kodierer als menschliche Annotoren
- Bereitstellung von Rückmeldungsmechanismen zur Überwachung der Plausibilität und Zuverlässigkeit von Ausgaben
- Verbesserung der Bequemlichkeit der Ergebnisüberprüfung und -verbesserung
Verzerrungsminderung:
- Bewertung potenzieller Verzerrungsquellen
- Anwendung partizipativer Designmethoden in Zusammenarbeit mit Fachleuten
- Sicherstellung der verantwortungsvollen und menschenzentrierten Natur des Werkzeugs

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmals systematischer Arbeitsablauf, der den menschlichen Kodierer-Trainingsprozess mit VLMs simuliert
Hoher praktischer Wert: Löst tatsächliche Schmerzpunkte in der Nachbarschaftsforschung mit breitem Anwendungspotenzial
Vernünftige technische Lösung: Klares Vier-Modul-Design mit praktikablem technischen Weg
Open-Source-freundlich: Bereitstellung von Google Colab-Implementierung zur Senkung von Nutzungshürden
Interdisziplinäre Integration: Effektive Kombination von KI-Technologie und sozialwissenschaftlicher Methodik

Mängel

Unzureichende Bewertung: Mangel an systematischen Vergleichsexperimenten mit menschlichen Kodierern
Verzerrungsrisiken: Unzureichende Diskussion von VLM-Verzerrungen bei der soziokultureller Interpretation
Ungeprüfte Generalisierungsfähigkeit: Nur auf einer Fallstudie basierend, mangelnde Multi-Szenario-Validierung
Unzureichende technische Details: Begrenzte Analyse spezifischer Prompt-Engineering-Strategien und deren Effekte

Auswirkungen

Akademischer Beitrag: Bietet neues Paradigma für Mensch-Maschine-Kooperation in der geospatialen Informatik
Praktischer Wert: Kann die Effizienz und Skalierbarkeit der Nachbarschaftsforschung erheblich verbessern
Interdisziplinäre Auswirkungen: Anwendungswert für Stadtplanung, öffentliche Gesundheit, Soziologie und andere Felder
Methodologische Innovation: Bietet Referenzrahmen für die Anwendung von VLMs in domänenspezifischen Aufgaben

Anwendungsszenarien

Stadtforschung: Großflächige Bewertung von Nachbarschaftsumweltmerkmalen
Öffentliche Gesundheit: Forschung zu Umweltfaktoren und deren Auswirkungen auf die Gesundheit
Soziologische Forschung: Analyse der Beziehung zwischen Gemeinschaftsmerkmalen und sozialen Phänomenen
Stadtplanung: Bewertung der städtischen Umwelt basierend auf visuellen Merkmalen

Ethische Überlegungen

Das Papier erkennt ausdrücklich an, dass Modelle des maschinellen Lernens potenzielle gesellschaftliche Verzerrungen aufweisen können, besonders bei der Interpretation soziokultureller Hintergründe vielfältiger Nachbarschaften. Die Autoren planen, in zukünftigen Arbeiten potenzielle Verzerrungsquellen zu bewerten und mit Fachleuten zusammenzuarbeiten, um partizipative Designmethoden anzuwenden und sicherzustellen, dass StreetLens als verantwortungsvolles, menschenzentriertes Werkzeug fungiert.

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:

Klassische Forschung zur Nachbarschaftsumweltbewertung (Sampson & Raudenbush, 1999)
Entwicklung virtueller Audit-Methoden (Odgers et al., 2012; Clarke et al., 2010)
Anwendung von VLMs in der Stadtanalyse (Biljecki & Ito, 2021)
Prompt-Engineering-Techniken (Schulhoff et al., 2025)

Zusammenfassung: StreetLens stellt einen wichtigen Fortschritt in der Verschmelzung von KI und sozialwissenschaftlichen Forschungsmethoden dar. Durch systematisches Workflow-Design realisiert es die Automatisierung und Skalierung von Nachbarschaftsumweltbewertungen. Obwohl in den Bereichen Bewertungsvalidierung und Verzerrungsbehandlung weitere Verbesserungen erforderlich sind, bietet sein innovatives Mensch-Maschine-Kooperationskonzept und seine praktische technische Lösung wertvollen Werkzeuge und methodologische Referenzen für verwandte Forschungsbereiche.

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemdefinition

Forschungsbedeutung

Einschränkungen bestehender Methoden

Kernbeiträge

Methodische Details

Aufgabendefinition

Systemarchitektur

M1. Datenverarbeiter (Data Processor)

M2. Automatisierte Prompt-Optimierung (Automated Prompt Tuning)

M3. Vision-Language-Modell-Verarbeiter (VLM Processor)

M4. Rückmeldungsanbieter (Feedback Provider)

Technische Innovationen

Fallstudie

Forschungshintergrund

StreetLens-Anwendung

Experimentelle Einrichtung

Datenquellen

Technische Implementierung

Verwandte Arbeiten

Evolution traditioneller Methoden

Aktueller Stand der VLM-Anwendung

Vorteile von StreetLens

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Einschränkungen

Zukünftige Richtungen

Tiefgreifende Bewertung

Stärken

Mängel

Auswirkungen

Anwendungsszenarien

Ethische Überlegungen

Literaturverzeichnis