StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
전통적인 근린지역 연구는 인터뷰, 설문조사, 상세한 프로토콜 기반의 수동 이미지 주석을 통해 물리적 혼란, 쇠퇴, 거리 안전성, 사회문화적 상징을 포함한 환경 특성을 파악하고, 이러한 특성이 발전 및 건강 결과에 미치는 영향을 연구합니다. 이러한 방법들은 풍부한 통찰력을 제공하지만 시간이 많이 걸리고 전문가의 집약적인 개입이 필요합니다. 본 논문은 사용자 구성 가능한 인간 중심 워크플로우인 StreetLens를 제안하며, 이는 관련 사회과학 전문 지식을 시각 언어 모델(VLM)에 통합하여 확장 가능한 근린지역 환경 평가를 수행합니다.
프롬프트 템플릿:
"You are an expert in the following fields and the author of the paper abstracts provided here: [논문 초록]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
작업 분류: 주관적 인식 작업 vs 객관적 검출 작업 구분
분류 프롬프트:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
논문은 기계학습 모델이 가질 수 있는 사회적 편향 문제, 특히 다양한 근린지역의 사회문화적 배경 해석 시 편향을 명시적으로 인정합니다. 저자들은 향후 연구에서 잠재적 편향 출처를 평가하고 영역 전문가와 협력하여 참여형 설계 방법을 적용하며, StreetLens가 책임감 있는 인간 중심 도구로 기능하도록 할 계획입니다.
가상 감사 방법의 발전(Odgers et al., 2012; Clarke et al., 2010)
도시 분석에서의 VLM 응용(Biljecki & Ito, 2021)
프롬프트 엔지니어링 기술(Schulhoff et al., 2025)
요약: StreetLens는 AI와 사회과학 연구 방법론 융합의 중요한 진전을 나타내며, 체계적 워크플로우 설계를 통해 근린지역 환경 평가의 자동화 및 규모 확대를 실현합니다. 평가 검증 및 편향 처리 측면에서 추가 개선이 필요하지만, 혁신적인 인간-기계 협력 개념과 실용적 기술 방안은 관련 분야 연구에 가치 있는 도구 및 방법론 참고자료를 제공합니다.