StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic
StreetLens: Habilitando Agentes de IA Centrados en el Ser Humano para la Evaluación de Vecindarios a partir de Imágenes de Vista de Calle
La investigación tradicional de vecindarios depende de entrevistas, encuestas y anotación manual de imágenes basada en protocolos detallados para identificar características ambientales, incluyendo desorden físico, deterioro, seguridad vial y símbolos socioculturales, e investigar su impacto en los resultados de desarrollo y salud. Aunque estos métodos producen perspectivas valiosas, son consumidores de tiempo y requieren intervención intensiva de expertos. Este artículo propone StreetLens, un flujo de trabajo configurable por el usuario y centrado en el ser humano, que integra conocimientos relevantes de ciencias sociales en modelos de lenguaje visual (VLM) para la evaluación escalable del entorno de vecindarios.
La evaluación tradicional del entorno de vecindarios enfrenta los siguientes desafíos:
Intensidad Laboral: Requiere codificadores capacitados para realizar observación social sistemática (SSO), con múltiples codificadores anotando la misma imagen para garantizar confiabilidad
Limitaciones de Escalabilidad: Los métodos manuales son difíciles de escalar a áreas geográficas grandes y contextos de investigación diversos
Dependencia de Expertos: Requiere participación y supervisión continua de expertos de dominio
Dificultad de Estandarización: Falta de enfoques sistemáticos adaptables entre diseños de investigación y contextos geográficos
Métodos Tradicionales: Aunque proporcionan perspectivas valiosas, el proceso es tedioso, depende de expertos y es difícil de escalar
Aplicaciones VLM Existentes: Principalmente aplicaciones ad hoc, carecen de marco estructurado, incapaces de "entrenar" sistemáticamente VLM para trabajar como codificadores humanos
Falta de Mecanismos de Retroalimentación: Los métodos existentes típicamente aceptan resultados de VLM directamente sin proporcionar retroalimentación del investigador
Propuesta del Flujo de Trabajo StreetLens: Primer flujo de trabajo de observación social sistemática de extremo a extremo y centrado en el investigador, que simula el proceso de entrenamiento de codificadores humanos
Marco de Colaboración Humano-Máquina: Incorpora conocimiento de dominio como componente central del proceso de análisis mediante indicaciones de rol
Ajuste Automático de Indicaciones: Genera indicaciones específicas de dominio basadas en literatura de investigación relevante y manuales de codificación
Interpretabilidad Mejorada: Proporciona explicaciones de decisiones de VLM y mecanismos de retroalimentación
Accesibilidad de Código Abierto: Proporciona cuadernos de Google Colab para reducir barreras técnicas
Generación de Rol: Genera descripción de rol profesional de VLM basada en resúmenes de artículos relevantes
Plantilla de Indicación:
"You are an expert in the following fields and the author of the paper abstracts provided here: [resúmenes de artículos]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
Clasificación de Tareas: Distingue entre tareas de percepción subjetiva vs. tareas de detección objetiva
Indicación de Clasificación:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
Procesamiento de Manual de Codificación: Convierte pares pregunta-respuesta en indicaciones estructuradas
Integración de Conocimiento de Dominio: Integra conocimiento de ciencias sociales en VLM mediante indicaciones de rol
Adaptación de Tareas: Identifica y adapta automáticamente diferentes tipos de tareas de evaluación (percepción vs. detección)
Aprendizaje en Contexto: Aprovecha ejemplos anotados por expertos para mejorar el rendimiento del modelo
Diseño de Colaboración Humano-Máquina: Simula el proceso de entrenamiento de codificadores humanos, incluyendo estudio de literatura, investigación de protocolos, revisión de ejemplos
El artículo reconoce explícitamente posibles problemas de sesgo social en modelos de aprendizaje automático, particularmente al interpretar contextos socioculturales de vecindarios diversos. Los autores planean evaluar fuentes potenciales de sesgos en trabajo futuro y colaborar con expertos de dominio aplicando métodos de diseño participativo, asegurando que StreetLens funcione como herramienta responsable y centrada en el ser humano.
El artículo cita trabajos importantes en campos relacionados, incluyendo:
Investigación clásica en evaluación de entorno de vecindarios (Sampson & Raudenbush, 1999)
Desarrollo de métodos de auditoría virtual (Odgers et al., 2012; Clarke et al., 2010)
Aplicaciones de VLM en análisis urbano (Biljecki & Ito, 2021)
Técnicas de ingeniería de indicaciones (Schulhoff et al., 2025)
Resumen: StreetLens representa un progreso importante en la fusión de IA con metodología de investigación en ciencias sociales, logrando automatización y escalabilidad de evaluación del entorno de vecindarios mediante diseño sistemático de flujo de trabajo. Aunque requiere mayor perfeccionamiento en validación de evaluaciones y manejo de sesgos, su concepto innovador de colaboración humano-máquina y solución técnica práctica proporcionan herramienta valiosa y referencia metodológica para investigación en campos relacionados.