StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic
StreetLens : Permettre aux Agents IA Centrés sur l'Humain pour l'Évaluation des Quartiers à partir d'Imagerie de Rue
La recherche traditionnelle sur les quartiers s'appuie sur des entretiens, des enquêtes et des annotations d'images manuelles basées sur des protocoles détaillés pour identifier les caractéristiques environnementales, notamment le désordre physique, la dégradation, la sécurité routière et les symboles socioculturels, et pour étudier leur impact sur le développement et les résultats sanitaires. Bien que ces méthodes produisent des perspectives enrichies, elles sont chronophages et nécessitent une intervention intensive d'experts. Cet article propose StreetLens, un flux de travail configurable centré sur l'humain qui intègre les connaissances pertinentes des sciences sociales dans les modèles de langage visuel (VLM) pour une évaluation évolutive de l'environnement des quartiers.
L'évaluation traditionnelle de l'environnement des quartiers fait face aux défis suivants :
Intensité de main-d'œuvre : Nécessite des codeurs formés pour l'observation sociale systématique (OSS), avec plusieurs codeurs annotant la même image pour assurer la fiabilité
Limitations d'évolutivité : Les méthodes manuelles sont difficiles à adapter à des zones géographiques étendues et à des contextes de recherche diversifiés
Dépendance aux experts : Nécessite la participation et la supervision continues d'experts du domaine
Difficultés de normalisation : Absence de méthodes systématiques adaptables entre les conceptions de recherche et les contextes géographiques
Méthodes traditionnelles : Bien qu'elles fournissent des perspectives précieuses, le processus est fastidieux, dépend des experts et difficile à adapter à grande échelle
Applications VLM existantes : Principalement des applications ad hoc, manquant de cadre structuré, incapables d'« entraîner » systématiquement les VLM à fonctionner comme des codeurs humains
Absence de mécanisme de rétroaction : Les méthodes existantes acceptent généralement directement les résultats des VLM sans fournir de retours aux chercheurs
Proposition du flux de travail StreetLens : Premier flux de travail d'observation sociale systématique de bout en bout, centré sur le chercheur, simulant le processus d'entraînement des codeurs humains
Cadre de collaboration homme-machine : Intégration des connaissances du domaine comme composant central du processus d'analyse par le biais d'invites de rôle
Optimisation automatisée des invites : Génération automatique d'invites spécifiques au domaine basées sur la littérature de recherche pertinente et les manuels de codage
Amélioration de l'interprétabilité : Fourniture d'explications et de mécanismes de rétroaction pour les décisions des VLM
Accessibilité en source ouverte : Fourniture de carnets Google Colab pour réduire les obstacles techniques
Évaluations structurées des caractéristiques environnementales
Annotations sémantiques allant des caractéristiques objectives (par exemple, nombre de voitures) aux perceptions subjectives (par exemple, sensation de désordre)
Génération de rôle : Génération de descriptions de rôles professionnels VLM basées sur les résumés d'articles pertinents
Modèle d'invite :
"You are an expert in the following fields and the author of the paper abstracts provided here: [résumés d'articles]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
Classification des tâches : Distinction entre tâches de perception subjective et tâches de détection objective
Invite de classification :
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
Traitement du manuel de codage : Conversion des paires question-réponse en invites structurées
Intégration des connaissances du domaine : Intégration des connaissances spécialisées en sciences sociales dans les VLM par le biais d'invites de rôle
Adaptation aux tâches : Identification et adaptation automatiques à différents types de tâches d'évaluation (perception vs détection)
Apprentissage contextuel : Utilisation d'exemples d'annotations d'experts pour améliorer les performances du modèle
Conception de collaboration homme-machine : Simulation du processus d'entraînement des codeurs humains, incluant l'étude de la littérature, l'examen des protocoles et la vérification des exemples
L'article reconnaît explicitement les problèmes potentiels de biais social des modèles d'apprentissage automatique, en particulier lors de l'interprétation des contextes socioculturels des quartiers diversifiés. Les auteurs prévoient d'évaluer les sources potentielles de biais dans les travaux futurs et de collaborer avec des experts du domaine en appliquant des méthodes de conception participative pour assurer que StreetLens fonctionne comme un outil responsable et centré sur l'humain.
L'article cite les travaux importants des domaines connexes, notamment :
Recherche classique sur l'évaluation de l'environnement des quartiers (Sampson & Raudenbush, 1999)
Développement des méthodes d'audit virtuel (Odgers et al., 2012 ; Clarke et al., 2010)
Applications des VLM dans l'analyse urbaine (Biljecki & Ito, 2021)
Techniques d'ingénierie des invites (Schulhoff et al., 2025)
Résumé : StreetLens représente une avancée importante dans la fusion de l'IA et des méthodes de recherche en sciences sociales, réalisant l'automatisation et l'adaptation à grande échelle de l'évaluation de l'environnement des quartiers grâce à une conception systématique du flux de travail. Bien que des améliorations supplémentaires soient nécessaires dans la validation d'évaluation et le traitement des biais, son concept innovant de collaboration homme-machine et sa solution technique pratique fournissent des outils et des références méthodologiques précieuses pour la recherche dans les domaines connexes.