2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.

Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.

academic

StreetLens: Habilitando Agentes de IA Centrados en el Ser Humano para la Evaluación de Vecindarios a partir de Imágenes de Vista de Calle

Información Básica

ID del Artículo: 2506.14670
Título: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Autores: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (Universidad de Minnesota)
Clasificación: cs.HC (Interacción Humano-Computadora), cs.AI (Inteligencia Artificial)
Conferencia de Publicación: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
Enlace del Artículo: https://arxiv.org/abs/2506.14670
Enlace del Proyecto: https://knowledge-computing.github.io/projects/streetlens

Resumen

La investigación tradicional de vecindarios depende de entrevistas, encuestas y anotación manual de imágenes basada en protocolos detallados para identificar características ambientales, incluyendo desorden físico, deterioro, seguridad vial y símbolos socioculturales, e investigar su impacto en los resultados de desarrollo y salud. Aunque estos métodos producen perspectivas valiosas, son consumidores de tiempo y requieren intervención intensiva de expertos. Este artículo propone StreetLens, un flujo de trabajo configurable por el usuario y centrado en el ser humano, que integra conocimientos relevantes de ciencias sociales en modelos de lenguaje visual (VLM) para la evaluación escalable del entorno de vecindarios.

Antecedentes de Investigación y Motivación

Definición del Problema

La evaluación tradicional del entorno de vecindarios enfrenta los siguientes desafíos:

Intensidad Laboral: Requiere codificadores capacitados para realizar observación social sistemática (SSO), con múltiples codificadores anotando la misma imagen para garantizar confiabilidad
Limitaciones de Escalabilidad: Los métodos manuales son difíciles de escalar a áreas geográficas grandes y contextos de investigación diversos
Dependencia de Expertos: Requiere participación y supervisión continua de expertos de dominio
Dificultad de Estandarización: Falta de enfoques sistemáticos adaptables entre diseños de investigación y contextos geográficos

Importancia de la Investigación

La evaluación de características del entorno de vecindarios es crucial para comprender cómo el ambiente afecta:

Desarrollo de adolescentes
Salud mental
Cohesión social
Resultados de salud pública

Limitaciones de Métodos Existentes

Métodos Tradicionales: Aunque proporcionan perspectivas valiosas, el proceso es tedioso, depende de expertos y es difícil de escalar
Aplicaciones VLM Existentes: Principalmente aplicaciones ad hoc, carecen de marco estructurado, incapaces de "entrenar" sistemáticamente VLM para trabajar como codificadores humanos
Falta de Mecanismos de Retroalimentación: Los métodos existentes típicamente aceptan resultados de VLM directamente sin proporcionar retroalimentación del investigador

Contribuciones Principales

Propuesta del Flujo de Trabajo StreetLens: Primer flujo de trabajo de observación social sistemática de extremo a extremo y centrado en el investigador, que simula el proceso de entrenamiento de codificadores humanos
Marco de Colaboración Humano-Máquina: Incorpora conocimiento de dominio como componente central del proceso de análisis mediante indicaciones de rol
Ajuste Automático de Indicaciones: Genera indicaciones específicas de dominio basadas en literatura de investigación relevante y manuales de codificación
Interpretabilidad Mejorada: Proporciona explicaciones de decisiones de VLM y mecanismos de retroalimentación
Accesibilidad de Código Abierto: Proporciona cuadernos de Google Colab para reducir barreras técnicas

Explicación Detallada del Método

Definición de Tareas

Entradas:

Especificaciones del área de investigación
Manuales de codificación y protocolos
Artículos académicos relevantes
Anotaciones de ejemplo
Imágenes de vista de calle (SVI)

Salidas:

Evaluaciones estructuradas de características ambientales
Anotaciones semánticas desde características objetivas (como cantidad de automóviles) hasta percepciones subjetivas (como sensación de desorden)
Explicaciones de evaluaciones y retroalimentación

Arquitectura del Sistema

StreetLens contiene cuatro módulos principales:

M1. Procesador de Datos (Data Processor)

Funcionalidad: Recopila y organiza materiales de entrada
Procesamiento de Entrada:
- Selección del área de investigación (basada en datos de carreteras TIGER del censo estadounidense, muestreo en intervalos de 5 metros)
- Carga de materiales (manuales de codificación, protocolos, artículos relevantes, anotaciones de ejemplo)
- Recuperación de imágenes de Google Street View
Salida: Conjunto de datos de entrada estructurado

M2. Ajuste Automático de Indicaciones (Automated Prompt Tuning)

Generación de Rol: Genera descripción de rol profesional de VLM basada en resúmenes de artículos relevantes

Plantilla de Indicación:
"You are an expert in the following fields and the author of the paper abstracts provided here: [resúmenes de artículos]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."

Clasificación de Tareas: Distingue entre tareas de percepción subjetiva vs. tareas de detección objetiva

Indicación de Clasificación:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."

Procesamiento de Manual de Codificación: Convierte pares pregunta-respuesta en indicaciones estructuradas

M3. Procesador de Modelo de Lenguaje Visual (VLM Processor)

Selección de Modelo: Utiliza VLM ligero de código abierto InternVL3-2B
- Codificador de imagen: InternViT-300M-448px-V2_5
- Modelo de lenguaje: Qwen2.5-1.5B
Flujo de Procesamiento:
1. Codificación e incrustación de imagen
2. Combinación con indicaciones generadas por M2
3. Aprovechamiento de pares imagen-respuesta de ejemplo para aprendizaje en contexto
4. Generación de evaluaciones de características ambientales

M4. Proveedor de Retroalimentación (Feedback Provider)

Generación de Explicaciones: Proporciona explicaciones de razonamiento para evaluaciones de VLM
Interpretabilidad: Ayuda a los investigadores a comprender el proceso de toma de decisiones del agente de IA
Ejemplo: Explicación para la medida 'Decay 1': "There are only slight cracks, and any potholes present have been fixed or covered"

Puntos de Innovación Técnica

Integración de Conocimiento de Dominio: Integra conocimiento de ciencias sociales en VLM mediante indicaciones de rol
Adaptación de Tareas: Identifica y adapta automáticamente diferentes tipos de tareas de evaluación (percepción vs. detección)
Aprendizaje en Contexto: Aprovecha ejemplos anotados por expertos para mejorar el rendimiento del modelo
Diseño de Colaboración Humano-Máquina: Simula el proceso de entrenamiento de codificadores humanos, incluyendo estudio de literatura, investigación de protocolos, revisión de ejemplos

Estudio de Caso

Antecedentes de Investigación

Basado en la investigación de ciencias sociales del hogar de Pasco y White (2020):

Objetivo de Investigación: Evaluar la relación entre el entorno de vecindarios y el uso de etiquetas raciales por adolescentes
Método: Utiliza protocolo de observación social sistemática (SSO) para entrenar codificadores humanos
Contenido de Evaluación: Grado de deterioro físico, símbolos socioculturales, etc.
Método de Validación: Evalúa confiabilidad entre codificadores mediante coeficiente de correlación intraclase (ICC)

Aplicación de StreetLens

Participa como codificador inteligente adicional en el proceso de evaluación
Utiliza literatura de investigación relevante para definir el rol de VLM
Procesa preguntas específicas del manual de codificación (como "Disorder 3")
Proporciona resultados de evaluación interpretables

Configuración Experimental

Fuentes de Datos

Imágenes de Vista de Calle: Imágenes de Google Street View
Datos Geográficos: Datos de carreteras TIGER del censo estadounidense
Estrategia de Muestreo: Ubicaciones de puntos predefinidas en intervalos de 5 metros
Datos de Caso: Datos anotados manualmente del estudio de caso original

Implementación Técnica

Plataforma de Despliegue: Cuaderno de Google Colab
Servidor: Universidad de Minnesota, conectado a través de Cloudflare
Interfaz de Usuario: Diseño modular con botones, soporta exploración individual de funcionalidades de módulos

Trabajo Relacionado

Evolución de Métodos Tradicionales

Investigación Temprana: Sampson y Raudenbush (1999) utilizaron video para evaluar desorden físico en 23,000 segmentos de calle en Chicago
Auditoría Virtual: Investigaciones posteriores adoptaron Google Earth y Street View para evaluación remota
Métodos de Visión por Computadora: Detectan características físicas urbanas como vegetación urbana, calidad de aceras, etc.

Estado Actual de Aplicaciones VLM

Evaluación de Caminabilidad: Utiliza VLM para evaluar amabilidad peatonal urbana
Descripción Estructurada: Genera descripciones estructuradas del entorno urbano
Detección de Objetos: Detecta objetos específicos en categorías de auditoría

Ventajas de StreetLens

Comparado con trabajos existentes, StreetLens proporciona:

Flujo de trabajo de extremo a extremo centrado en el investigador
Proceso sistemático que simula el entrenamiento de VLM
Adaptabilidad entre diseños de investigación y contextos geográficos

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Flujo de Trabajo: StreetLens simula exitosamente el proceso de entrenamiento y evaluación de codificadores humanos
Integración de Conocimiento de Dominio: Integra efectivamente conocimiento de ciencias sociales mediante indicaciones de rol
Mejora de Escalabilidad: Mejora significativamente la capacidad de escala de la evaluación del entorno de vecindarios
Colaboración Humano-Máquina: Logra colaboración efectiva entre IA e investigadores

Limitaciones

Sesgos del Modelo: VLM puede tener sesgos al interpretar contextos socioculturales de vecindarios diversos
Validación de Evaluaciones: Requiere métodos de evaluación más sistemáticos (como ICC) para validar confiabilidad de codificación automatizada
Mecanismo de Retroalimentación: Los ciclos de retroalimentación actuales son limitados, requieren más funcionalidades de mejora interactiva

Direcciones Futuras

Mejora de Interacción Humano-Máquina:
- Agregar ciclos de retroalimentación para que investigadores expliquen y mejoren decisiones de StreetLens
- Explorar diferentes tipos de codificadores automatizados
- Desarrollar métodos de automatización más cercanos a codificación humana
Mejora de Métodos de Evaluación:
- Utilizar coeficiente de correlación intraclase (ICC) tratando codificadores automatizados como uno de los anotadores humanos
- Proporcionar mecanismos de retroalimentación para monitorear razonabilidad y confiabilidad de salidas
- Mejorar conveniencia de revisión y mejora de resultados
Mitigación de Sesgos:
- Evaluar fuentes potenciales de sesgos
- Aplicar métodos de diseño participativo en colaboración con expertos de dominio
- Garantizar características responsables y centradas en el ser humano de la herramienta

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera propuesta de flujo de trabajo VLM que simula sistemáticamente el proceso de entrenamiento de codificadores humanos
Alto Valor Práctico: Aborda puntos débiles reales en investigación de vecindarios con amplias perspectivas de aplicación
Solución Técnica Razonable: Diseño de cuatro módulos claro, ruta técnica viable
Amigable con Código Abierto: Proporciona implementación de Google Colab, reduce barreras de uso
Integración Interdisciplinaria: Integra efectivamente tecnología de IA y metodología de ciencias sociales

Insuficiencias

Evaluación Inadecuada: Carece de experimentos de comparación sistemática con codificadores humanos
Riesgo de Sesgos: Discusión insuficiente sobre problemas de sesgos de VLM en interpretación sociocultural
Capacidad de Generalización No Verificada: Basada solo en un estudio de caso, carece de validación en múltiples escenarios
Detalles Técnicos Insuficientes: Análisis limitado de estrategias específicas de ingeniería de indicaciones y efectos

Impacto

Contribución Académica: Proporciona nuevo paradigma para computación geoespacial colaborativa humano-máquina
Valor Práctico: Puede mejorar significativamente eficiencia y escala de investigación de vecindarios
Impacto Interdisciplinario: Tiene valor de aplicación para planificación urbana, salud pública, sociología y otros campos
Innovación Metodológica: Proporciona marco de referencia para aplicación de VLM en tareas específicas de dominio

Escenarios Aplicables

Investigación Urbana: Evaluación de características de entorno de vecindarios a gran escala
Salud Pública: Investigación de impacto de factores ambientales en salud
Investigación Sociológica: Análisis de relaciones entre características comunitarias y fenómenos sociales
Planificación Urbana: Evaluación de entorno urbano basada en características visuales

Consideraciones Éticas

El artículo reconoce explícitamente posibles problemas de sesgo social en modelos de aprendizaje automático, particularmente al interpretar contextos socioculturales de vecindarios diversos. Los autores planean evaluar fuentes potenciales de sesgos en trabajo futuro y colaborar con expertos de dominio aplicando métodos de diseño participativo, asegurando que StreetLens funcione como herramienta responsable y centrada en el ser humano.

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

Investigación clásica en evaluación de entorno de vecindarios (Sampson & Raudenbush, 1999)
Desarrollo de métodos de auditoría virtual (Odgers et al., 2012; Clarke et al., 2010)
Aplicaciones de VLM en análisis urbano (Biljecki & Ito, 2021)
Técnicas de ingeniería de indicaciones (Schulhoff et al., 2025)

Resumen: StreetLens representa un progreso importante en la fusión de IA con metodología de investigación en ciencias sociales, logrando automatización y escalabilidad de evaluación del entorno de vecindarios mediante diseño sistemático de flujo de trabajo. Aunque requiere mayor perfeccionamiento en validación de evaluaciones y manejo de sesgos, su concepto innovador de colaboración humano-máquina y solución técnica práctica proporcionan herramienta valiosa y referencia metodológica para investigación en campos relacionados.