2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic

StreetLens: Habilitando Agentes de IA Centrados en el Ser Humano para la Evaluación de Vecindarios a partir de Imágenes de Vista de Calle

Información Básica

  • ID del Artículo: 2506.14670
  • Título: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
  • Autores: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (Universidad de Minnesota)
  • Clasificación: cs.HC (Interacción Humano-Computadora), cs.AI (Inteligencia Artificial)
  • Conferencia de Publicación: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
  • Enlace del Artículo: https://arxiv.org/abs/2506.14670
  • Enlace del Proyecto: https://knowledge-computing.github.io/projects/streetlens

Resumen

La investigación tradicional de vecindarios depende de entrevistas, encuestas y anotación manual de imágenes basada en protocolos detallados para identificar características ambientales, incluyendo desorden físico, deterioro, seguridad vial y símbolos socioculturales, e investigar su impacto en los resultados de desarrollo y salud. Aunque estos métodos producen perspectivas valiosas, son consumidores de tiempo y requieren intervención intensiva de expertos. Este artículo propone StreetLens, un flujo de trabajo configurable por el usuario y centrado en el ser humano, que integra conocimientos relevantes de ciencias sociales en modelos de lenguaje visual (VLM) para la evaluación escalable del entorno de vecindarios.

Antecedentes de Investigación y Motivación

Definición del Problema

La evaluación tradicional del entorno de vecindarios enfrenta los siguientes desafíos:

  1. Intensidad Laboral: Requiere codificadores capacitados para realizar observación social sistemática (SSO), con múltiples codificadores anotando la misma imagen para garantizar confiabilidad
  2. Limitaciones de Escalabilidad: Los métodos manuales son difíciles de escalar a áreas geográficas grandes y contextos de investigación diversos
  3. Dependencia de Expertos: Requiere participación y supervisión continua de expertos de dominio
  4. Dificultad de Estandarización: Falta de enfoques sistemáticos adaptables entre diseños de investigación y contextos geográficos

Importancia de la Investigación

La evaluación de características del entorno de vecindarios es crucial para comprender cómo el ambiente afecta:

  • Desarrollo de adolescentes
  • Salud mental
  • Cohesión social
  • Resultados de salud pública

Limitaciones de Métodos Existentes

  1. Métodos Tradicionales: Aunque proporcionan perspectivas valiosas, el proceso es tedioso, depende de expertos y es difícil de escalar
  2. Aplicaciones VLM Existentes: Principalmente aplicaciones ad hoc, carecen de marco estructurado, incapaces de "entrenar" sistemáticamente VLM para trabajar como codificadores humanos
  3. Falta de Mecanismos de Retroalimentación: Los métodos existentes típicamente aceptan resultados de VLM directamente sin proporcionar retroalimentación del investigador

Contribuciones Principales

  1. Propuesta del Flujo de Trabajo StreetLens: Primer flujo de trabajo de observación social sistemática de extremo a extremo y centrado en el investigador, que simula el proceso de entrenamiento de codificadores humanos
  2. Marco de Colaboración Humano-Máquina: Incorpora conocimiento de dominio como componente central del proceso de análisis mediante indicaciones de rol
  3. Ajuste Automático de Indicaciones: Genera indicaciones específicas de dominio basadas en literatura de investigación relevante y manuales de codificación
  4. Interpretabilidad Mejorada: Proporciona explicaciones de decisiones de VLM y mecanismos de retroalimentación
  5. Accesibilidad de Código Abierto: Proporciona cuadernos de Google Colab para reducir barreras técnicas

Explicación Detallada del Método

Definición de Tareas

Entradas:

  • Especificaciones del área de investigación
  • Manuales de codificación y protocolos
  • Artículos académicos relevantes
  • Anotaciones de ejemplo
  • Imágenes de vista de calle (SVI)

Salidas:

  • Evaluaciones estructuradas de características ambientales
  • Anotaciones semánticas desde características objetivas (como cantidad de automóviles) hasta percepciones subjetivas (como sensación de desorden)
  • Explicaciones de evaluaciones y retroalimentación

Arquitectura del Sistema

StreetLens contiene cuatro módulos principales:

M1. Procesador de Datos (Data Processor)

  • Funcionalidad: Recopila y organiza materiales de entrada
  • Procesamiento de Entrada:
    • Selección del área de investigación (basada en datos de carreteras TIGER del censo estadounidense, muestreo en intervalos de 5 metros)
    • Carga de materiales (manuales de codificación, protocolos, artículos relevantes, anotaciones de ejemplo)
    • Recuperación de imágenes de Google Street View
  • Salida: Conjunto de datos de entrada estructurado

M2. Ajuste Automático de Indicaciones (Automated Prompt Tuning)

  • Generación de Rol: Genera descripción de rol profesional de VLM basada en resúmenes de artículos relevantes
    Plantilla de Indicación:
    "You are an expert in the following fields and the author of the paper abstracts provided here: [resúmenes de artículos]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
    
  • Clasificación de Tareas: Distingue entre tareas de percepción subjetiva vs. tareas de detección objetiva
    Indicación de Clasificación:
    "You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
    
  • Procesamiento de Manual de Codificación: Convierte pares pregunta-respuesta en indicaciones estructuradas

M3. Procesador de Modelo de Lenguaje Visual (VLM Processor)

  • Selección de Modelo: Utiliza VLM ligero de código abierto InternVL3-2B
    • Codificador de imagen: InternViT-300M-448px-V2_5
    • Modelo de lenguaje: Qwen2.5-1.5B
  • Flujo de Procesamiento:
    1. Codificación e incrustación de imagen
    2. Combinación con indicaciones generadas por M2
    3. Aprovechamiento de pares imagen-respuesta de ejemplo para aprendizaje en contexto
    4. Generación de evaluaciones de características ambientales

M4. Proveedor de Retroalimentación (Feedback Provider)

  • Generación de Explicaciones: Proporciona explicaciones de razonamiento para evaluaciones de VLM
  • Interpretabilidad: Ayuda a los investigadores a comprender el proceso de toma de decisiones del agente de IA
  • Ejemplo: Explicación para la medida 'Decay 1': "There are only slight cracks, and any potholes present have been fixed or covered"

Puntos de Innovación Técnica

  1. Integración de Conocimiento de Dominio: Integra conocimiento de ciencias sociales en VLM mediante indicaciones de rol
  2. Adaptación de Tareas: Identifica y adapta automáticamente diferentes tipos de tareas de evaluación (percepción vs. detección)
  3. Aprendizaje en Contexto: Aprovecha ejemplos anotados por expertos para mejorar el rendimiento del modelo
  4. Diseño de Colaboración Humano-Máquina: Simula el proceso de entrenamiento de codificadores humanos, incluyendo estudio de literatura, investigación de protocolos, revisión de ejemplos

Estudio de Caso

Antecedentes de Investigación

Basado en la investigación de ciencias sociales del hogar de Pasco y White (2020):

  • Objetivo de Investigación: Evaluar la relación entre el entorno de vecindarios y el uso de etiquetas raciales por adolescentes
  • Método: Utiliza protocolo de observación social sistemática (SSO) para entrenar codificadores humanos
  • Contenido de Evaluación: Grado de deterioro físico, símbolos socioculturales, etc.
  • Método de Validación: Evalúa confiabilidad entre codificadores mediante coeficiente de correlación intraclase (ICC)

Aplicación de StreetLens

  • Participa como codificador inteligente adicional en el proceso de evaluación
  • Utiliza literatura de investigación relevante para definir el rol de VLM
  • Procesa preguntas específicas del manual de codificación (como "Disorder 3")
  • Proporciona resultados de evaluación interpretables

Configuración Experimental

Fuentes de Datos

  • Imágenes de Vista de Calle: Imágenes de Google Street View
  • Datos Geográficos: Datos de carreteras TIGER del censo estadounidense
  • Estrategia de Muestreo: Ubicaciones de puntos predefinidas en intervalos de 5 metros
  • Datos de Caso: Datos anotados manualmente del estudio de caso original

Implementación Técnica

  • Plataforma de Despliegue: Cuaderno de Google Colab
  • Servidor: Universidad de Minnesota, conectado a través de Cloudflare
  • Interfaz de Usuario: Diseño modular con botones, soporta exploración individual de funcionalidades de módulos

Trabajo Relacionado

Evolución de Métodos Tradicionales

  1. Investigación Temprana: Sampson y Raudenbush (1999) utilizaron video para evaluar desorden físico en 23,000 segmentos de calle en Chicago
  2. Auditoría Virtual: Investigaciones posteriores adoptaron Google Earth y Street View para evaluación remota
  3. Métodos de Visión por Computadora: Detectan características físicas urbanas como vegetación urbana, calidad de aceras, etc.

Estado Actual de Aplicaciones VLM

  • Evaluación de Caminabilidad: Utiliza VLM para evaluar amabilidad peatonal urbana
  • Descripción Estructurada: Genera descripciones estructuradas del entorno urbano
  • Detección de Objetos: Detecta objetos específicos en categorías de auditoría

Ventajas de StreetLens

Comparado con trabajos existentes, StreetLens proporciona:

  • Flujo de trabajo de extremo a extremo centrado en el investigador
  • Proceso sistemático que simula el entrenamiento de VLM
  • Adaptabilidad entre diseños de investigación y contextos geográficos

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Flujo de Trabajo: StreetLens simula exitosamente el proceso de entrenamiento y evaluación de codificadores humanos
  2. Integración de Conocimiento de Dominio: Integra efectivamente conocimiento de ciencias sociales mediante indicaciones de rol
  3. Mejora de Escalabilidad: Mejora significativamente la capacidad de escala de la evaluación del entorno de vecindarios
  4. Colaboración Humano-Máquina: Logra colaboración efectiva entre IA e investigadores

Limitaciones

  1. Sesgos del Modelo: VLM puede tener sesgos al interpretar contextos socioculturales de vecindarios diversos
  2. Validación de Evaluaciones: Requiere métodos de evaluación más sistemáticos (como ICC) para validar confiabilidad de codificación automatizada
  3. Mecanismo de Retroalimentación: Los ciclos de retroalimentación actuales son limitados, requieren más funcionalidades de mejora interactiva

Direcciones Futuras

  1. Mejora de Interacción Humano-Máquina:
    • Agregar ciclos de retroalimentación para que investigadores expliquen y mejoren decisiones de StreetLens
    • Explorar diferentes tipos de codificadores automatizados
    • Desarrollar métodos de automatización más cercanos a codificación humana
  2. Mejora de Métodos de Evaluación:
    • Utilizar coeficiente de correlación intraclase (ICC) tratando codificadores automatizados como uno de los anotadores humanos
    • Proporcionar mecanismos de retroalimentación para monitorear razonabilidad y confiabilidad de salidas
    • Mejorar conveniencia de revisión y mejora de resultados
  3. Mitigación de Sesgos:
    • Evaluar fuentes potenciales de sesgos
    • Aplicar métodos de diseño participativo en colaboración con expertos de dominio
    • Garantizar características responsables y centradas en el ser humano de la herramienta

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera propuesta de flujo de trabajo VLM que simula sistemáticamente el proceso de entrenamiento de codificadores humanos
  2. Alto Valor Práctico: Aborda puntos débiles reales en investigación de vecindarios con amplias perspectivas de aplicación
  3. Solución Técnica Razonable: Diseño de cuatro módulos claro, ruta técnica viable
  4. Amigable con Código Abierto: Proporciona implementación de Google Colab, reduce barreras de uso
  5. Integración Interdisciplinaria: Integra efectivamente tecnología de IA y metodología de ciencias sociales

Insuficiencias

  1. Evaluación Inadecuada: Carece de experimentos de comparación sistemática con codificadores humanos
  2. Riesgo de Sesgos: Discusión insuficiente sobre problemas de sesgos de VLM en interpretación sociocultural
  3. Capacidad de Generalización No Verificada: Basada solo en un estudio de caso, carece de validación en múltiples escenarios
  4. Detalles Técnicos Insuficientes: Análisis limitado de estrategias específicas de ingeniería de indicaciones y efectos

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma para computación geoespacial colaborativa humano-máquina
  2. Valor Práctico: Puede mejorar significativamente eficiencia y escala de investigación de vecindarios
  3. Impacto Interdisciplinario: Tiene valor de aplicación para planificación urbana, salud pública, sociología y otros campos
  4. Innovación Metodológica: Proporciona marco de referencia para aplicación de VLM en tareas específicas de dominio

Escenarios Aplicables

  1. Investigación Urbana: Evaluación de características de entorno de vecindarios a gran escala
  2. Salud Pública: Investigación de impacto de factores ambientales en salud
  3. Investigación Sociológica: Análisis de relaciones entre características comunitarias y fenómenos sociales
  4. Planificación Urbana: Evaluación de entorno urbano basada en características visuales

Consideraciones Éticas

El artículo reconoce explícitamente posibles problemas de sesgo social en modelos de aprendizaje automático, particularmente al interpretar contextos socioculturales de vecindarios diversos. Los autores planean evaluar fuentes potenciales de sesgos en trabajo futuro y colaborar con expertos de dominio aplicando métodos de diseño participativo, asegurando que StreetLens funcione como herramienta responsable y centrada en el ser humano.

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

  • Investigación clásica en evaluación de entorno de vecindarios (Sampson & Raudenbush, 1999)
  • Desarrollo de métodos de auditoría virtual (Odgers et al., 2012; Clarke et al., 2010)
  • Aplicaciones de VLM en análisis urbano (Biljecki & Ito, 2021)
  • Técnicas de ingeniería de indicaciones (Schulhoff et al., 2025)

Resumen: StreetLens representa un progreso importante en la fusión de IA con metodología de investigación en ciencias sociales, logrando automatización y escalabilidad de evaluación del entorno de vecindarios mediante diseño sistemático de flujo de trabajo. Aunque requiere mayor perfeccionamiento en validación de evaluaciones y manejo de sesgos, su concepto innovador de colaboración humano-máquina y solución técnica práctica proporcionan herramienta valiosa y referencia metodológica para investigación en campos relacionados.