2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic

StreetLens: Abilitare Agenti AI Incentrati sull'Uomo per la Valutazione dei Quartieri da Immagini Street View

Informazioni Fondamentali

  • ID Articolo: 2506.14670
  • Titolo: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
  • Autori: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (University of Minnesota)
  • Classificazione: cs.HC (Interazione Uomo-Computer), cs.AI (Intelligenza Artificiale)
  • Conferenza di Pubblicazione: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
  • Link Articolo: https://arxiv.org/abs/2506.14670
  • Link Progetto: https://knowledge-computing.github.io/projects/streetlens

Riassunto

La ricerca tradizionale sui quartieri si basa su interviste, sondaggi e annotazioni manuali di immagini basate su protocolli dettagliati per identificare caratteristiche ambientali, inclusi disordine fisico, degrado, sicurezza stradale e simboli socioculturali, e per studiare il loro impatto sui risultati dello sviluppo e della salute. Sebbene questi metodi producano intuizioni ricche, sono dispendiosi in termini di tempo e richiedono un intenso intervento di esperti. Questo articolo propone StreetLens, un flusso di lavoro configurabile incentrato sull'uomo che integra le conoscenze rilevanti delle scienze sociali nei modelli di linguaggio visivo (VLM) per la valutazione scalabile dell'ambiente dei quartieri.

Contesto di Ricerca e Motivazione

Definizione del Problema

La valutazione tradizionale dell'ambiente dei quartieri affronta le seguenti sfide:

  1. Intensità Lavorativa: Richiede codificatori addestrati per l'osservazione sociale sistematica (SSO), con più codificatori che annotano la stessa immagine per garantire l'affidabilità
  2. Limitazioni di Scalabilità: I metodi manuali sono difficili da scalare a regioni geografiche estese e contesti di ricerca diversificati
  3. Dipendenza da Esperti: Richiede il coinvolgimento e la supervisione continua di esperti di dominio
  4. Difficoltà di Standardizzazione: Mancanza di approcci sistematici adattabili tra diversi disegni di ricerca e contesti geografici

Importanza della Ricerca

La valutazione delle caratteristiche dell'ambiente dei quartieri è cruciale per comprendere come l'ambiente influisce su:

  • Sviluppo degli adolescenti
  • Salute mentale
  • Coesione sociale
  • Risultati di salute pubblica

Limitazioni dei Metodi Esistenti

  1. Metodi Tradizionali: Sebbene forniscano intuizioni preziose, il processo è laborioso, dipende da esperti ed è difficile da scalare
  2. Applicazioni VLM Esistenti: Principalmente applicazioni ad hoc, prive di un framework strutturato, incapaci di "addestrare" sistematicamente i VLM a funzionare come codificatori umani
  3. Mancanza di Meccanismi di Feedback: I metodi esistenti generalmente accettano direttamente i risultati dei VLM senza fornire feedback ai ricercatori

Contributi Principali

  1. Propone il Flusso di Lavoro StreetLens: Primo flusso di lavoro end-to-end incentrato sul ricercatore per l'osservazione sociale sistematica, che simula il processo di addestramento dei codificatori umani
  2. Framework di Collaborazione Uomo-Macchina: Integra le conoscenze di dominio come componente centrale del processo di analisi attraverso il prompt di ruolo
  3. Ottimizzazione Automatica dei Prompt: Genera automaticamente prompt specifici del dominio basati sulla letteratura di ricerca rilevante e sui manuali di codifica
  4. Interpretabilità Migliorata: Fornisce spiegazioni delle decisioni dei VLM e meccanismi di feedback
  5. Accessibilità Open Source: Fornisce notebook Google Colab per ridurre le barriere tecniche

Dettagli del Metodo

Definizione del Compito

Input:

  • Specifiche dell'area di ricerca
  • Manuali di codifica e protocolli
  • Articoli accademici rilevanti
  • Annotazioni di esempio
  • Immagini Street View (SVI)

Output:

  • Valutazione strutturata delle caratteristiche ambientali
  • Annotazioni semantiche che vanno da caratteristiche oggettive (come il numero di automobili) a percezioni soggettive (come il senso di disordine)
  • Spiegazioni e feedback della valutazione

Architettura del Sistema

StreetLens contiene quattro moduli principali:

M1. Processore Dati (Data Processor)

  • Funzione: Raccogliere e organizzare i materiali di input
  • Elaborazione Input:
    • Selezione dell'area di ricerca (basata sui dati stradali TIGER del censimento americano, campionamento a intervalli di 5 metri)
    • Caricamento di materiali (manuali di codifica, protocolli, articoli rilevanti, annotazioni di esempio)
    • Recupero di immagini da Google Street View
  • Output: Dataset di input strutturato

M2. Ottimizzazione Automatica dei Prompt (Automated Prompt Tuning)

  • Generazione del Ruolo: Genera descrizioni di ruoli professionali dei VLM basate su riassunti di articoli rilevanti
    Modello di prompt:
    "You are an expert in the following fields and the author of the paper abstracts provided here: [riassunti articoli]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
    
  • Classificazione dei Compiti: Distingue tra compiti di percezione soggettiva vs compiti di rilevamento oggettivo
    Prompt di classificazione:
    "You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
    
  • Elaborazione del Manuale di Codifica: Converte coppie domanda-risposta in prompt strutturati

M3. Processore Modello di Linguaggio Visivo (VLM Processor)

  • Selezione del Modello: Utilizza il VLM leggero open source InternVL3-2B
    • Codificatore di immagini: InternViT-300M-448px-V2_5
    • Modello di linguaggio: Qwen2.5-1.5B
  • Flusso di Elaborazione:
    1. Codifica e incorporamento di immagini
    2. Combinazione con prompt generati da M2
    3. Utilizzo dell'apprendimento in contesto con coppie immagine-risposta di esempio
    4. Generazione della valutazione delle caratteristiche ambientali

M4. Fornitore di Feedback (Feedback Provider)

  • Generazione di Spiegazioni: Fornisce spiegazioni di ragionamento per le valutazioni dei VLM
  • Interpretabilità: Aiuta i ricercatori a comprendere il processo decisionale dell'agente AI
  • Esempio: Spiegazione per la misurazione 'Decay 1': "There are only slight cracks, and any potholes present have been fixed or covered"

Punti di Innovazione Tecnica

  1. Integrazione delle Conoscenze di Dominio: Incorpora le conoscenze specialistiche delle scienze sociali nei VLM attraverso il prompt di ruolo
  2. Adattamento ai Compiti: Identifica e adatta automaticamente diversi tipi di compiti di valutazione (percezione vs rilevamento)
  3. Apprendimento in Contesto: Sfrutta gli esempi annotati da esperti per migliorare le prestazioni del modello
  4. Design della Collaborazione Uomo-Macchina: Simula il processo di addestramento dei codificatori umani, incluso lo studio della letteratura, la ricerca dei protocolli e l'esame degli esempi

Studio di Caso

Contesto della Ricerca

Basato sulla ricerca di scienze sociali familiari di Pasco e White (2020):

  • Obiettivo della Ricerca: Valutare la relazione tra l'ambiente dei quartieri e l'uso di etichette razziali da parte degli adolescenti
  • Metodo: Utilizzo del protocollo di osservazione sociale sistematica (SSO) per addestrare codificatori umani
  • Contenuto della Valutazione: Grado di degrado fisico, simboli socioculturali, ecc.
  • Metodo di Validazione: Valutazione dell'affidabilità tra codificatori attraverso il coefficiente di correlazione intraclasse (ICC)

Applicazione di StreetLens

  • Partecipa al processo di valutazione come codificatore intelligente aggiuntivo
  • Utilizza la letteratura di ricerca rilevante per definire il ruolo del VLM
  • Elabora domande specifiche dal manuale di codifica (come "Disorder 3")
  • Fornisce risultati di valutazione interpretabili

Configurazione Sperimentale

Fonti Dati

  • Immagini Street View: Immagini da Google Street View
  • Dati Geografici: Dati stradali TIGER del censimento americano
  • Strategia di Campionamento: Punti di posizione predefiniti a intervalli di 5 metri
  • Dati del Caso: Dati annotati manualmente dal studio di caso originale

Implementazione Tecnica

  • Piattaforma di Distribuzione: Notebook Google Colab
  • Server: Università del Minnesota, connesso tramite Cloudflare
  • Interfaccia Utente: Design modulare con pulsanti, supporta l'esplorazione indipendente di ogni modulo

Lavori Correlati

Evoluzione dei Metodi Tradizionali

  1. Ricerca Iniziale: Sampson e Raudenbush (1999) utilizzano video per valutare il disordine fisico di 23.000 segmenti stradali a Chicago
  2. Audit Virtuali: Ricerche successive adottano Google Earth e Street View per valutazioni remote
  3. Metodi di Visione Artificiale: Rilevamento di caratteristiche fisiche come il verde urbano e la qualità dei marciapiedi

Stato Attuale delle Applicazioni VLM

  • Valutazione della Percorribilità: Utilizzo di VLM per valutare l'idoneità al cammino delle città
  • Descrizioni Strutturate: Generazione di descrizioni strutturate dell'ambiente urbano
  • Rilevamento di Oggetti: Rilevamento di oggetti specifici nelle categorie di audit

Vantaggi di StreetLens

Rispetto ai lavori esistenti, StreetLens fornisce:

  • Flusso di lavoro end-to-end incentrato sul ricercatore
  • Processo sistematico di simulazione dell'addestramento dei VLM
  • Adattabilità tra diversi disegni di ricerca e contesti geografici

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Flusso di Lavoro: StreetLens simula con successo il processo di addestramento e valutazione dei codificatori umani
  2. Integrazione delle Conoscenze di Dominio: Integra efficacemente le conoscenze specialistiche delle scienze sociali attraverso il prompt di ruolo
  3. Miglioramento della Scalabilità: Aumenta significativamente la capacità di scalare la valutazione dell'ambiente dei quartieri
  4. Collaborazione Uomo-Macchina: Realizza una collaborazione efficace tra AI e ricercatori

Limitazioni

  1. Bias del Modello: I VLM potrebbero avere bias nell'interpretazione del contesto socioculturale di quartieri diversificati
  2. Validazione della Valutazione: Necessita di metodi di valutazione più sistematici (come ICC) per validare l'affidabilità della codifica automatizzata
  3. Meccanismo di Feedback: L'attuale ciclo di feedback è limitato, necessita di più funzioni di miglioramento interattivo

Direzioni Future

  1. Miglioramento dell'Interazione Uomo-Macchina:
    • Aggiungere cicli di feedback per consentire ai ricercatori di spiegare e migliorare le decisioni di StreetLens
    • Esplorare diversi tipi di codificatori automatizzati
    • Sviluppare metodi di codifica automatizzata più vicini alla codifica umana
  2. Miglioramento dei Metodi di Valutazione:
    • Utilizzare il coefficiente di correlazione intraclasse (ICC) per trattare i codificatori automatizzati come uno dei codificatori umani
    • Fornire meccanismi di feedback per monitorare la ragionevolezza e l'affidabilità degli output
    • Migliorare la facilità di revisione e miglioramento dei risultati
  3. Mitigazione dei Bias:
    • Valutare le potenziali fonti di bias
    • Applicare metodi di design partecipativo in collaborazione con esperti di dominio
    • Garantire le caratteristiche responsabili e incentrate sull'uomo dello strumento

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione: Primo flusso di lavoro VLM che simula sistematicamente il processo di addestramento dei codificatori umani
  2. Alto Valore Pratico: Risolve i problemi reali della ricerca sui quartieri con ampie prospettive di applicazione
  3. Soluzione Tecnica Ragionevole: Design a quattro moduli chiaro, percorso tecnico fattibile
  4. Compatibilità Open Source: Fornisce implementazione Google Colab, riducendo le barriere di utilizzo
  5. Integrazione Interdisciplinare: Integra efficacemente la tecnologia AI e la metodologia delle scienze sociali

Carenze

  1. Valutazione Insufficiente: Mancanza di esperimenti sistematici di confronto con codificatori umani
  2. Rischio di Bias: La discussione sui problemi di bias dei VLM nell'interpretazione socioculturale non è sufficientemente approfondita
  3. Capacità di Generalizzazione Non Verificata: Basato solo su uno studio di caso, manca la validazione in più scenari
  4. Dettagli Tecnici Insufficienti: L'analisi delle strategie specifiche di ingegneria dei prompt e dei loro effetti è limitata

Impatto

  1. Contributo Accademico: Fornisce un nuovo paradigma per il calcolo geospaziale collaborativo uomo-macchina
  2. Valore Pratico: Può aumentare significativamente l'efficienza e la scala della ricerca sui quartieri
  3. Impatto Interdisciplinare: Ha valore applicativo per pianificazione urbana, salute pubblica, sociologia e altri campi
  4. Innovazione Metodologica: Fornisce un framework di riferimento per l'applicazione dei VLM in compiti specifici del dominio

Scenari Applicabili

  1. Ricerca Urbana: Valutazione su larga scala delle caratteristiche ambientali dei quartieri
  2. Salute Pubblica: Ricerca sull'impatto dei fattori ambientali sulla salute
  3. Ricerca Sociologica: Analisi della relazione tra caratteristiche comunitarie e fenomeni sociali
  4. Pianificazione Urbana: Valutazione dell'ambiente urbano basata su caratteristiche visive

Considerazioni Etiche

L'articolo riconosce esplicitamente i possibili problemi di bias sociale nei modelli di apprendimento automatico, in particolare nell'interpretazione del contesto socioculturale di quartieri diversificati. Gli autori pianificano di valutare le potenziali fonti di bias nel lavoro futuro e di collaborare con esperti di dominio applicando metodi di design partecipativo, garantendo che StreetLens funzioni come uno strumento responsabile e incentrato sull'uomo.

Bibliografia

L'articolo cita lavori importanti nel campo correlato, inclusi:

  • Ricerca classica sulla valutazione dell'ambiente dei quartieri (Sampson & Raudenbush, 1999)
  • Sviluppo di metodi di audit virtuali (Odgers et al., 2012; Clarke et al., 2010)
  • Applicazioni di VLM nell'analisi urbana (Biljecki & Ito, 2021)
  • Tecniche di ingegneria dei prompt (Schulhoff et al., 2025)

Sintesi: StreetLens rappresenta un progresso importante nella fusione dell'AI e dei metodi di ricerca delle scienze sociali, realizzando l'automazione e la scalabilità della valutazione dell'ambiente dei quartieri attraverso un design sistematico del flusso di lavoro. Sebbene sia necessario un ulteriore perfezionamento nella validazione della valutazione e nella gestione dei bias, il suo concetto innovativo di collaborazione uomo-macchina e la soluzione tecnica pratica forniscono uno strumento prezioso e un riferimento metodologico per la ricerca nei campi correlati.