StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic
StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Traditionelle Nachbarschaftsforschung stützt sich auf Interviews, Umfragen und manuelle Bildannotationen nach detaillierten Protokollen, um Umweltmerkmale wie physische Unordnung, Verfall, Straßensicherheit und soziokulturelle Symbole zu identifizieren und deren Auswirkungen auf Entwicklungs- und Gesundheitsergebnisse zu untersuchen. Obwohl diese Methoden umfangreiche Erkenntnisse liefern, sind sie zeitaufwändig und erfordern intensive Fachleute-Intervention. Dieses Papier präsentiert StreetLens, einen vom Benutzer konfigurierbaren, menschenzentrierten Arbeitsablauf, der relevantes sozialwissenschaftliches Fachwissen in Vision-Language-Modelle (VLM) integriert, um skalierbare Nachbarschaftsumweltbewertungen zu ermöglichen.
Die traditionelle Nachbarschaftsumweltbewertung steht vor folgenden Herausforderungen:
Arbeitsintensivität: Erfordert geschulte Kodierer für systematische soziale Beobachtung (SSO), wobei mehrere Kodierer dasselbe Bild annotieren, um Zuverlässigkeit zu gewährleisten
Skalierungsbeschränkungen: Manuelle Methoden lassen sich schwer auf große geografische Gebiete und vielfältige Forschungssituationen ausweiten
Abhängigkeit von Experten: Erfordert kontinuierliche Beteiligung und Überwachung durch Fachleute
Standardisierungsschwierigkeiten: Mangel an adaptiven Systemmethoden über Forschungsdesigns und geografische Kontexte hinweg
Traditionelle Methoden: Obwohl sie wertvolle Erkenntnisse liefern, sind die Prozesse mühsam, von Experten abhängig und schwer zu skalieren
Bestehende VLM-Anwendungen: Meist ad-hoc-Anwendungen, die ein strukturiertes Framework fehlt, um VLMs systematisch wie menschliche Kodierer trainieren zu können
Fehlende Rückmeldungsmechanismen: Bestehende Methoden akzeptieren typischerweise VLM-Ergebnisse direkt, ohne Forscher-Feedback zu ermöglichen
Vorschlag des StreetLens-Arbeitsablaufs: Erster End-to-End-, forscherzentrierter Arbeitsablauf für systematische soziale Beobachtung, der den menschlichen Kodierer-Trainingsprozess simuliert
Mensch-Maschine-Kooperationsrahmen: Integration von Fachwissen durch Rollen-Prompting als Kernkomponente des Analyseprozesses
Automatisierte Prompt-Optimierung: Automatische Generierung domänenspezifischer Prompts basierend auf relevanter Forschungsliteratur und Kodierhandbüchern
Verbesserte Interpretierbarkeit: Bereitstellung von Erklärungen für VLM-Entscheidungen und Rückmeldungsmechanismen
Open-Source-Zugänglichkeit: Bereitstellung von Google Colab-Notebooks zur Senkung technischer Hürden
Rollengenerierung: Generierung von VLM-Fachrolle-Beschreibungen basierend auf Zusammenfassungen relevanter Arbeiten
Prompt-Vorlage:
"You are an expert in the following fields and the author of the paper abstracts provided here: [Papier-Zusammenfassungen]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
Aufgabenklassifizierung: Unterscheidung zwischen subjektiven Wahrnehmungsaufgaben vs. objektiven Erkennungsaufgaben
Klassifizierungs-Prompt:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
Kodierhandbuch-Verarbeitung: Umwandlung von Frage-Antwort-Paaren in strukturierte Prompts
Fachwissensintegration: Einbettung von sozialwissenschaftlichem Fachwissen in VLMs durch Rollen-Prompting
Aufgabenadaption: Automatische Identifikation und Anpassung an verschiedene Bewertungsaufgabentypen (Wahrnehmung vs. Erkennung)
Kontextabhängiges Lernen: Nutzung von Fachleute-Annotationsbeispielen zur Verbesserung der Modellleistung
Mensch-Maschine-Kooperationsdesign: Simulation des menschlichen Kodierer-Trainingsprozesses, einschließlich Literaturstudium, Protokollforschung und Beispielprüfung
Das Papier erkennt ausdrücklich an, dass Modelle des maschinellen Lernens potenzielle gesellschaftliche Verzerrungen aufweisen können, besonders bei der Interpretation soziokultureller Hintergründe vielfältiger Nachbarschaften. Die Autoren planen, in zukünftigen Arbeiten potenzielle Verzerrungsquellen zu bewerten und mit Fachleuten zusammenzuarbeiten, um partizipative Designmethoden anzuwenden und sicherzustellen, dass StreetLens als verantwortungsvolles, menschenzentriertes Werkzeug fungiert.
Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:
Klassische Forschung zur Nachbarschaftsumweltbewertung (Sampson & Raudenbush, 1999)
Entwicklung virtueller Audit-Methoden (Odgers et al., 2012; Clarke et al., 2010)
Anwendung von VLMs in der Stadtanalyse (Biljecki & Ito, 2021)
Prompt-Engineering-Techniken (Schulhoff et al., 2025)
Zusammenfassung: StreetLens stellt einen wichtigen Fortschritt in der Verschmelzung von KI und sozialwissenschaftlichen Forschungsmethoden dar. Durch systematisches Workflow-Design realisiert es die Automatisierung und Skalierung von Nachbarschaftsumweltbewertungen. Obwohl in den Bereichen Bewertungsvalidierung und Verzerrungsbehandlung weitere Verbesserungen erforderlich sind, bietet sein innovatives Mensch-Maschine-Kooperationskonzept und seine praktische technische Lösung wertvollen Werkzeuge und methodologische Referenzen für verwandte Forschungsbereiche.