StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic
StreetLens: Abilitare Agenti AI Incentrati sull'Uomo per la Valutazione dei Quartieri da Immagini Street View
La ricerca tradizionale sui quartieri si basa su interviste, sondaggi e annotazioni manuali di immagini basate su protocolli dettagliati per identificare caratteristiche ambientali, inclusi disordine fisico, degrado, sicurezza stradale e simboli socioculturali, e per studiare il loro impatto sui risultati dello sviluppo e della salute. Sebbene questi metodi producano intuizioni ricche, sono dispendiosi in termini di tempo e richiedono un intenso intervento di esperti. Questo articolo propone StreetLens, un flusso di lavoro configurabile incentrato sull'uomo che integra le conoscenze rilevanti delle scienze sociali nei modelli di linguaggio visivo (VLM) per la valutazione scalabile dell'ambiente dei quartieri.
La valutazione tradizionale dell'ambiente dei quartieri affronta le seguenti sfide:
Intensità Lavorativa: Richiede codificatori addestrati per l'osservazione sociale sistematica (SSO), con più codificatori che annotano la stessa immagine per garantire l'affidabilità
Limitazioni di Scalabilità: I metodi manuali sono difficili da scalare a regioni geografiche estese e contesti di ricerca diversificati
Dipendenza da Esperti: Richiede il coinvolgimento e la supervisione continua di esperti di dominio
Difficoltà di Standardizzazione: Mancanza di approcci sistematici adattabili tra diversi disegni di ricerca e contesti geografici
Metodi Tradizionali: Sebbene forniscano intuizioni preziose, il processo è laborioso, dipende da esperti ed è difficile da scalare
Applicazioni VLM Esistenti: Principalmente applicazioni ad hoc, prive di un framework strutturato, incapaci di "addestrare" sistematicamente i VLM a funzionare come codificatori umani
Mancanza di Meccanismi di Feedback: I metodi esistenti generalmente accettano direttamente i risultati dei VLM senza fornire feedback ai ricercatori
Propone il Flusso di Lavoro StreetLens: Primo flusso di lavoro end-to-end incentrato sul ricercatore per l'osservazione sociale sistematica, che simula il processo di addestramento dei codificatori umani
Framework di Collaborazione Uomo-Macchina: Integra le conoscenze di dominio come componente centrale del processo di analisi attraverso il prompt di ruolo
Ottimizzazione Automatica dei Prompt: Genera automaticamente prompt specifici del dominio basati sulla letteratura di ricerca rilevante e sui manuali di codifica
Interpretabilità Migliorata: Fornisce spiegazioni delle decisioni dei VLM e meccanismi di feedback
Accessibilità Open Source: Fornisce notebook Google Colab per ridurre le barriere tecniche
Generazione del Ruolo: Genera descrizioni di ruoli professionali dei VLM basate su riassunti di articoli rilevanti
Modello di prompt:
"You are an expert in the following fields and the author of the paper abstracts provided here: [riassunti articoli]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
Classificazione dei Compiti: Distingue tra compiti di percezione soggettiva vs compiti di rilevamento oggettivo
Prompt di classificazione:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
Elaborazione del Manuale di Codifica: Converte coppie domanda-risposta in prompt strutturati
Integrazione delle Conoscenze di Dominio: Incorpora le conoscenze specialistiche delle scienze sociali nei VLM attraverso il prompt di ruolo
Adattamento ai Compiti: Identifica e adatta automaticamente diversi tipi di compiti di valutazione (percezione vs rilevamento)
Apprendimento in Contesto: Sfrutta gli esempi annotati da esperti per migliorare le prestazioni del modello
Design della Collaborazione Uomo-Macchina: Simula il processo di addestramento dei codificatori umani, incluso lo studio della letteratura, la ricerca dei protocolli e l'esame degli esempi
L'articolo riconosce esplicitamente i possibili problemi di bias sociale nei modelli di apprendimento automatico, in particolare nell'interpretazione del contesto socioculturale di quartieri diversificati. Gli autori pianificano di valutare le potenziali fonti di bias nel lavoro futuro e di collaborare con esperti di dominio applicando metodi di design partecipativo, garantendo che StreetLens funzioni come uno strumento responsabile e incentrato sull'uomo.
L'articolo cita lavori importanti nel campo correlato, inclusi:
Ricerca classica sulla valutazione dell'ambiente dei quartieri (Sampson & Raudenbush, 1999)
Sviluppo di metodi di audit virtuali (Odgers et al., 2012; Clarke et al., 2010)
Applicazioni di VLM nell'analisi urbana (Biljecki & Ito, 2021)
Tecniche di ingegneria dei prompt (Schulhoff et al., 2025)
Sintesi: StreetLens rappresenta un progresso importante nella fusione dell'AI e dei metodi di ricerca delle scienze sociali, realizzando l'automazione e la scalabilità della valutazione dell'ambiente dei quartieri attraverso un design sistematico del flusso di lavoro. Sebbene sia necessario un ulteriore perfezionamento nella validazione della valutazione e nella gestione dei bias, il suo concetto innovativo di collaborazione uomo-macchina e la soluzione tecnica pratica forniscono uno strumento prezioso e un riferimento metodologico per la ricerca nei campi correlati.