2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic

StreetLens : Permettre aux Agents IA Centrés sur l'Humain pour l'Évaluation des Quartiers à partir d'Imagerie de Rue

Informations Fondamentales

  • ID de l'article : 2506.14670
  • Titre : StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
  • Auteurs : Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (Université du Minnesota)
  • Classification : cs.HC (Interaction Homme-Machine), cs.AI (Intelligence Artificielle)
  • Conférence de publication : Le 1er Atelier International ACM SIGSPATIAL sur l'Informatique Géospatiale Centrée sur l'Humain (GeoHCC '25)
  • Lien de l'article : https://arxiv.org/abs/2506.14670
  • Lien du projet : https://knowledge-computing.github.io/projects/streetlens

Résumé

La recherche traditionnelle sur les quartiers s'appuie sur des entretiens, des enquêtes et des annotations d'images manuelles basées sur des protocoles détaillés pour identifier les caractéristiques environnementales, notamment le désordre physique, la dégradation, la sécurité routière et les symboles socioculturels, et pour étudier leur impact sur le développement et les résultats sanitaires. Bien que ces méthodes produisent des perspectives enrichies, elles sont chronophages et nécessitent une intervention intensive d'experts. Cet article propose StreetLens, un flux de travail configurable centré sur l'humain qui intègre les connaissances pertinentes des sciences sociales dans les modèles de langage visuel (VLM) pour une évaluation évolutive de l'environnement des quartiers.

Contexte de Recherche et Motivation

Définition du Problème

L'évaluation traditionnelle de l'environnement des quartiers fait face aux défis suivants :

  1. Intensité de main-d'œuvre : Nécessite des codeurs formés pour l'observation sociale systématique (OSS), avec plusieurs codeurs annotant la même image pour assurer la fiabilité
  2. Limitations d'évolutivité : Les méthodes manuelles sont difficiles à adapter à des zones géographiques étendues et à des contextes de recherche diversifiés
  3. Dépendance aux experts : Nécessite la participation et la supervision continues d'experts du domaine
  4. Difficultés de normalisation : Absence de méthodes systématiques adaptables entre les conceptions de recherche et les contextes géographiques

Importance de la Recherche

L'évaluation des caractéristiques environnementales des quartiers est cruciale pour comprendre comment l'environnement influence :

  • Le développement des adolescents
  • La santé mentale
  • La cohésion sociale
  • Les résultats de santé publique

Limitations des Méthodes Existantes

  1. Méthodes traditionnelles : Bien qu'elles fournissent des perspectives précieuses, le processus est fastidieux, dépend des experts et difficile à adapter à grande échelle
  2. Applications VLM existantes : Principalement des applications ad hoc, manquant de cadre structuré, incapables d'« entraîner » systématiquement les VLM à fonctionner comme des codeurs humains
  3. Absence de mécanisme de rétroaction : Les méthodes existantes acceptent généralement directement les résultats des VLM sans fournir de retours aux chercheurs

Contributions Principales

  1. Proposition du flux de travail StreetLens : Premier flux de travail d'observation sociale systématique de bout en bout, centré sur le chercheur, simulant le processus d'entraînement des codeurs humains
  2. Cadre de collaboration homme-machine : Intégration des connaissances du domaine comme composant central du processus d'analyse par le biais d'invites de rôle
  3. Optimisation automatisée des invites : Génération automatique d'invites spécifiques au domaine basées sur la littérature de recherche pertinente et les manuels de codage
  4. Amélioration de l'interprétabilité : Fourniture d'explications et de mécanismes de rétroaction pour les décisions des VLM
  5. Accessibilité en source ouverte : Fourniture de carnets Google Colab pour réduire les obstacles techniques

Explication Détaillée de la Méthode

Définition de la Tâche

Entrées :

  • Spécifications de la zone de recherche
  • Manuels de codage et protocoles
  • Articles académiques pertinents
  • Annotations d'exemple
  • Images de rue (SVI)

Sorties :

  • Évaluations structurées des caractéristiques environnementales
  • Annotations sémantiques allant des caractéristiques objectives (par exemple, nombre de voitures) aux perceptions subjectives (par exemple, sensation de désordre)
  • Explications et rétroactions d'évaluation

Architecture du Système

StreetLens comprend quatre modules principaux :

M1. Processeur de Données (Data Processor)

  • Fonction : Collecter et organiser les matériaux d'entrée
  • Traitement des entrées :
    • Sélection de la zone de recherche (basée sur les données routières TIGER du recensement américain, échantillonnage à intervalle de 5 mètres)
    • Téléchargement de matériaux (manuels de codage, protocoles, articles pertinents, annotations d'exemple)
    • Récupération d'images Google Street View
  • Sortie : Ensemble de données d'entrée structuré

M2. Optimisation Automatisée des Invites (Automated Prompt Tuning)

  • Génération de rôle : Génération de descriptions de rôles professionnels VLM basées sur les résumés d'articles pertinents
    Modèle d'invite :
    "You are an expert in the following fields and the author of the paper abstracts provided here: [résumés d'articles]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
    
  • Classification des tâches : Distinction entre tâches de perception subjective et tâches de détection objective
    Invite de classification :
    "You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
    
  • Traitement du manuel de codage : Conversion des paires question-réponse en invites structurées

M3. Processeur de Modèle de Langage Visuel (VLM Processor)

  • Sélection du modèle : Utilisation du VLM léger en source ouverte InternVL3-2B
    • Encodeur d'image : InternViT-300M-448px-V2_5
    • Modèle de langage : Qwen2.5-1.5B
  • Flux de traitement :
    1. Codage et intégration d'images
    2. Combinaison avec les invites générées par M2
    3. Utilisation d'apprentissage contextuel avec des paires image-réponse d'exemple
    4. Génération d'évaluations des caractéristiques environnementales

M4. Fournisseur de Rétroaction (Feedback Provider)

  • Génération d'explications : Fourniture d'explications de raisonnement pour les évaluations des VLM
  • Interprétabilité : Aide les chercheurs à comprendre le processus décisionnel de l'agent IA
  • Exemple : Explication pour la mesure « Decay 1 » : « There are only slight cracks, and any potholes present have been fixed or covered »

Points d'Innovation Technique

  1. Intégration des connaissances du domaine : Intégration des connaissances spécialisées en sciences sociales dans les VLM par le biais d'invites de rôle
  2. Adaptation aux tâches : Identification et adaptation automatiques à différents types de tâches d'évaluation (perception vs détection)
  3. Apprentissage contextuel : Utilisation d'exemples d'annotations d'experts pour améliorer les performances du modèle
  4. Conception de collaboration homme-machine : Simulation du processus d'entraînement des codeurs humains, incluant l'étude de la littérature, l'examen des protocoles et la vérification des exemples

Étude de Cas

Contexte de Recherche

Basé sur la recherche en sciences sociales familiales de Pasco et White (2020) :

  • Objectif de recherche : Évaluer la relation entre l'environnement des quartiers et l'utilisation de l'étiquetage racial par les adolescents
  • Méthode : Utilisation du protocole d'observation sociale systématique (OSS) pour entraîner des codeurs humains
  • Contenu d'évaluation : Degré de dégradation physique, symboles socioculturels, etc.
  • Méthode de validation : Évaluation de la fiabilité inter-codeurs par le coefficient de corrélation intraclasse (ICC)

Application de StreetLens

  • Participation en tant que codeur intelligent supplémentaire dans le processus d'évaluation
  • Utilisation de la littérature de recherche pertinente pour définir le rôle du VLM
  • Traitement de questions spécifiques du manuel de codage (par exemple, « Disorder 3 »)
  • Fourniture de résultats d'évaluation explicables

Configuration Expérimentale

Sources de Données

  • Images de rue : Images Google Street View
  • Données géographiques : Données routières TIGER du recensement américain
  • Stratégie d'échantillonnage : Emplacements de points prédéfinis à intervalle de 5 mètres
  • Données de cas : Données annotées manuellement issues de l'étude de cas originale

Implémentation Technique

  • Plateforme de déploiement : Carnet Google Colab
  • Serveur : Université du Minnesota, connecté via Cloudflare
  • Interface utilisateur : Conception modulaire avec boutons, permettant l'exploration indépendante des fonctionnalités de chaque module

Travaux Connexes

Évolution des Méthodes Traditionnelles

  1. Recherche précoce : Sampson et Raudenbush (1999) utilisant la vidéo pour évaluer le désordre physique de 23 000 segments de rue à Chicago
  2. Audits virtuels : Les recherches ultérieures adoptent Google Earth et Street View pour l'évaluation à distance
  3. Méthodes de vision par ordinateur : Détection de caractéristiques physiques telles que la verdure urbaine et la qualité des trottoirs

État Actuel des Applications VLM

  • Évaluation de la marchabilité : Utilisation des VLM pour évaluer la convivialité des villes pour les piétons
  • Descriptions structurées : Génération de descriptions structurées de l'environnement urbain
  • Détection d'objets : Détection d'objets spécifiques dans les catégories d'audit

Avantages de StreetLens

Par rapport aux travaux existants, StreetLens offre :

  • Un flux de travail de bout en bout centré sur le chercheur
  • Un processus systématique simulant l'entraînement des VLM
  • Adaptabilité entre les conceptions de recherche et les contextes géographiques

Conclusions et Discussion

Conclusions Principales

  1. Efficacité du flux de travail : StreetLens simule avec succès le processus d'entraînement et d'évaluation des codeurs humains
  2. Intégration des connaissances du domaine : Intégration efficace des connaissances spécialisées en sciences sociales par le biais d'invites de rôle
  3. Amélioration de l'évolutivité : Amélioration significative de la capacité d'adaptation de l'évaluation de l'environnement des quartiers
  4. Collaboration homme-machine : Réalisation d'une collaboration efficace entre l'IA et les chercheurs

Limitations

  1. Biais du modèle : Les VLM peuvent présenter des biais dans l'interprétation des contextes socioculturels des quartiers diversifiés
  2. Validation d'évaluation : Nécessité de méthodes d'évaluation plus systématiques (par exemple, ICC) pour valider la fiabilité du codage automatisé
  3. Mécanisme de rétroaction : Les boucles de rétroaction actuelles sont limitées, nécessitant davantage de fonctionnalités d'amélioration interactive

Orientations Futures

  1. Amélioration de l'interaction homme-machine :
    • Ajout de boucles de rétroaction permettant aux chercheurs d'expliquer et d'améliorer les décisions de StreetLens
    • Exploration de différents types de codeurs automatisés
    • Développement de méthodes d'automatisation plus proches du codage humain
  2. Amélioration des Méthodes d'Évaluation :
    • Utilisation du coefficient de corrélation intraclasse (ICC) en traitant les codeurs automatisés comme l'un des annotateurs humains
    • Fourniture de mécanismes de rétroaction pour surveiller la raisonnabilité et la fiabilité des résultats
    • Amélioration de la commodité de l'examen et de l'amélioration des résultats
  3. Atténuation des Biais :
    • Évaluation des sources potentielles de biais
    • Application de méthodes de conception participative en collaboration avec des experts du domaine
    • Assurance des caractéristiques responsables et centrées sur l'humain de l'outil

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première proposition d'un flux de travail VLM simulant systématiquement le processus d'entraînement des codeurs humains
  2. Valeur pratique élevée : Résout les problèmes pratiques de la recherche sur les quartiers avec des perspectives d'application larges
  3. Solution technique raisonnable : Conception claire des quatre modules, approche technique viable
  4. Convivialité en source ouverte : Fourniture d'implémentation Google Colab, réduction des obstacles d'utilisation
  5. Intégration interdisciplinaire : Fusion efficace de la technologie IA et de la méthodologie des sciences sociales

Insuffisances

  1. Évaluation insuffisante : Absence d'expériences de comparaison systématique avec les codeurs humains
  2. Risque de biais : Discussion insuffisante sur les problèmes de biais des VLM dans l'interprétation socioculturelle
  3. Capacité de généralisation non vérifiée : Basée uniquement sur une étude de cas, manque de validation multi-scénarios
  4. Détails techniques insuffisants : Analyse limitée des stratégies spécifiques d'ingénierie des invites et de leurs effets

Impact

  1. Contribution académique : Fournit un nouveau paradigme pour l'informatique géospatiale collaborative homme-machine
  2. Valeur pratique : Peut améliorer significativement l'efficacité et l'échelle de la recherche sur les quartiers
  3. Impact interdisciplinaire : Applicable aux domaines de l'urbanisme, de la santé publique, de la sociologie, etc.
  4. Innovation méthodologique : Fournit un cadre de référence pour l'application des VLM aux tâches spécifiques du domaine

Scénarios Applicables

  1. Recherche urbaine : Évaluation à grande échelle des caractéristiques environnementales des quartiers
  2. Santé publique : Recherche sur l'impact des facteurs environnementaux sur la santé
  3. Recherche sociologique : Analyse des relations entre les caractéristiques communautaires et les phénomènes sociaux
  4. Planification urbaine : Évaluation de l'environnement urbain basée sur les caractéristiques visuelles

Considérations Éthiques

L'article reconnaît explicitement les problèmes potentiels de biais social des modèles d'apprentissage automatique, en particulier lors de l'interprétation des contextes socioculturels des quartiers diversifiés. Les auteurs prévoient d'évaluer les sources potentielles de biais dans les travaux futurs et de collaborer avec des experts du domaine en appliquant des méthodes de conception participative pour assurer que StreetLens fonctionne comme un outil responsable et centré sur l'humain.

Références

L'article cite les travaux importants des domaines connexes, notamment :

  • Recherche classique sur l'évaluation de l'environnement des quartiers (Sampson & Raudenbush, 1999)
  • Développement des méthodes d'audit virtuel (Odgers et al., 2012 ; Clarke et al., 2010)
  • Applications des VLM dans l'analyse urbaine (Biljecki & Ito, 2021)
  • Techniques d'ingénierie des invites (Schulhoff et al., 2025)

Résumé : StreetLens représente une avancée importante dans la fusion de l'IA et des méthodes de recherche en sciences sociales, réalisant l'automatisation et l'adaptation à grande échelle de l'évaluation de l'environnement des quartiers grâce à une conception systématique du flux de travail. Bien que des améliorations supplémentaires soient nécessaires dans la validation d'évaluation et le traitement des biais, son concept innovant de collaboration homme-machine et sa solution technique pratique fournissent des outils et des références méthodologiques précieuses pour la recherche dans les domaines connexes.