2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.

Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.

academic

StreetLens: 거리 뷰 이미지를 통한 인간 중심 AI 에이전트 기반 근린지역 평가

기본 정보

논문 ID: 2506.14670
제목: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
저자: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (미네소타 대학교)
분류: cs.HC (인간-컴퓨터 상호작용), cs.AI (인공지능)
발표 학회: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
논문 링크: https://arxiv.org/abs/2506.14670
프로젝트 링크: https://knowledge-computing.github.io/projects/streetlens

초록

전통적인 근린지역 연구는 인터뷰, 설문조사, 상세한 프로토콜 기반의 수동 이미지 주석을 통해 물리적 혼란, 쇠퇴, 거리 안전성, 사회문화적 상징을 포함한 환경 특성을 파악하고, 이러한 특성이 발전 및 건강 결과에 미치는 영향을 연구합니다. 이러한 방법들은 풍부한 통찰력을 제공하지만 시간이 많이 걸리고 전문가의 집약적인 개입이 필요합니다. 본 논문은 사용자 구성 가능한 인간 중심 워크플로우인 StreetLens를 제안하며, 이는 관련 사회과학 전문 지식을 시각 언어 모델(VLM)에 통합하여 확장 가능한 근린지역 환경 평가를 수행합니다.

연구 배경 및 동기

문제 정의

근린지역 환경 평가는 전통적으로 다음과 같은 과제에 직면해 있습니다:

노동 집약성: 체계적 사회 관찰(SSO)을 수행하기 위해 훈련된 코더가 필요하며, 신뢰성을 보장하기 위해 여러 코더가 동일 이미지에 주석을 달아야 함
확장성 제한: 수동 방법은 광범위한 지리적 영역 및 다양한 연구 상황으로의 확장이 어려움
전문가 의존성: 영역 전문가의 지속적인 참여 및 감독 필요
표준화의 어려움: 연구 설계 및 지리적 배경 전반에 걸친 적응형 시스템 방법의 부재

연구의 중요성

근린지역 환경 특성 평가는 환경이 다음 사항에 미치는 영향을 이해하는 데 필수적입니다:

청소년 발달
정신 건강
사회적 결집력
공중보건 결과

기존 방법의 한계

전통적 방법: 가치 있는 통찰력을 제공하지만 과정이 번거롭고 전문가에 의존하며 규모 확대가 어려움
기존 VLM 응용: 대부분 임시적 응용이며 구조화된 프레임워크가 부족하고, VLM을 인간 코더처럼 작동하도록 체계적으로 "훈련"할 수 없음
피드백 메커니즘 부재: 기존 방법은 일반적으로 VLM 결과를 직접 수용하며 연구자 피드백을 제공하지 않음

핵심 기여

StreetLens 워크플로우 제안: 인간 코더 훈련 과정을 모방하는 최초의 엔드-투-엔드, 연구자 중심의 체계적 사회 관찰 워크플로우
인간-기계 협력 프레임워크: 역할 프롬프팅(role prompting)을 통해 영역 지식을 분석 과정의 핵심 요소로 통합
자동화된 프롬프트 튜닝: 관련 연구 문헌 및 코딩 매뉴얼을 기반으로 영역 특정 프롬프트 자동 생성
해석 가능성 강화: VLM 의사결정의 설명 및 피드백 메커니즘 제공
오픈소스 접근성: Google Colab 노트북 제공으로 기술적 진입 장벽 낮춤

방법론 상세 설명

작업 정의

입력:

연구 지역 사양
코딩 매뉴얼 및 프로토콜
관련 학술 논문
예시 주석
거리 뷰 이미지(SVI)

출력:

구조화된 환경 특성 평가
객관적 특성(예: 자동차 수)에서 주관적 인식(예: 혼란감)까지의 의미론적 주석
평가 설명 및 피드백

시스템 아키텍처

StreetLens는 네 가지 핵심 모듈로 구성됩니다:

M1. 데이터 처리기(Data Processor)

기능: 입력 자료 수집 및 조직
입력 처리:
- 연구 지역 선택(미국 인구조사 TIGER 도로 데이터 기반, 5미터 간격 샘플링)
- 자료 업로드(코딩 매뉴얼, 프로토콜, 관련 논문, 예시 주석)
- Google Street View 이미지 검색
출력: 구조화된 입력 데이터 세트

M2. 자동화된 프롬프트 튜닝(Automated Prompt Tuning)

역할 생성: 관련 논문 초록을 기반으로 VLM 전문가 역할 설명 생성

프롬프트 템플릿:
"You are an expert in the following fields and the author of the paper abstracts provided here: [논문 초록]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."

작업 분류: 주관적 인식 작업 vs 객관적 검출 작업 구분

분류 프롬프트:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."

코딩 매뉴얼 처리: 질문-답변 쌍을 구조화된 프롬프트로 변환

M3. 시각 언어 모델 처리기(VLM Processor)

모델 선택: 오픈소스 경량 VLM InternVL3-2B 사용
- 이미지 인코더: InternViT-300M-448px-V2_5
- 언어 모델: Qwen2.5-1.5B
처리 흐름:
1. 이미지 인코딩 및 임베딩
2. M2에서 생성된 프롬프트와 결합
3. 예시 이미지-답변 쌍을 활용한 컨텍스트 학습
4. 환경 특성 평가 생성

M4. 피드백 제공기(Feedback Provider)

설명 생성: VLM 평가에 대한 추론 설명 제공
해석 가능성: 연구자가 AI 에이전트의 의사결정 과정을 이해하도록 지원
예시: '쇠퇴 1' 측정에 대한 설명: "There are only slight cracks, and any potholes present have been fixed or covered"

기술 혁신 포인트

영역 지식 통합: 역할 프롬프팅을 통해 사회과학 전문 지식을 VLM에 내장
작업 자적응: 다양한 평가 작업 유형(인식 vs 검출) 자동 식별 및 적응
컨텍스트 학습: 전문가 주석 예시를 활용하여 모델 성능 향상
인간-기계 협력 설계: 인간 코더 훈련 과정 모방, 문헌 학습, 프로토콜 연구, 예시 검토 포함

사례 연구

연구 배경

Pasco와 White (2020)의 가정 사회과학 연구 기반:

연구 목표: 근린지역 환경과 청소년의 인종 라벨 사용 간의 관계 평가
방법: 체계적 사회 관찰(SSO) 프로토콜을 사용하여 인간 코더 훈련
평가 내용: 물리적 쇠퇴 정도, 사회문화적 상징 등
검증 방법: 급내 상관계수(ICC)를 통해 코더 간 신뢰성 평가

StreetLens 응용

평가 과정에 추가 지능형 코더로 참여
관련 연구 문헌을 사용하여 VLM 역할 정의
코딩 매뉴얼의 구체적 질문 처리(예: "혼란 3")
해석 가능한 평가 결과 제공

실험 설정

데이터 출처

거리 뷰 이미지: Google Street View 이미지
지리 데이터: 미국 인구조사 TIGER 도로 데이터
샘플링 전략: 5미터 간격 사전 정의 포인트 위치
사례 데이터: 원래 사례 연구의 수동 주석 데이터

기술 구현

배포 플랫폼: Google Colab 노트북
서버: 미네소타 대학교, Cloudflare를 통한 연결
사용자 인터페이스: 모듈식 버튼 설계, 각 모듈 기능의 독립적 탐색 지원

결론 및 논의

주요 결론

워크플로우 효과성: StreetLens는 인간 코더의 훈련 및 평가 과정을 성공적으로 모방
영역 지식 통합: 역할 프롬프팅을 통해 사회과학 전문 지식을 효과적으로 통합
확장성 향상: 근린지역 환경 평가의 규모 확대 능력 현저히 개선
인간-기계 협력: AI와 연구자 간의 효과적 협력 실현

한계

모델 편향: VLM이 다양한 근린지역의 사회문화적 배경 해석 시 편향을 가질 수 있음
평가 검증: 자동화된 코딩의 신뢰성을 검증하기 위해 더 체계적인 평가 방법(예: ICC) 필요
피드백 메커니즘: 현재 피드백 루프가 제한적이며 더 많은 상호작용식 개선 기능 필요

향후 방향

인간-기계 상호작용 강화:
- 연구자가 StreetLens 의사결정을 설명하고 개선할 수 있는 피드백 루프 추가
- 다양한 유형의 자동화 코더 탐색
- 인간 코딩에 더 가까운 자동화 방법 개발
평가 방법 개선:
- 급내 상관계수(ICC)를 사용하여 자동화 코더를 인간 주석자 중 하나로 취급
- 출력의 합리성 및 신뢰성을 모니터링하는 피드백 메커니즘 제공
- 결과 검토 및 개선의 편의성 강화
편향 완화:
- 잠재적 편향 출처 평가
- 영역 전문가와의 협력을 위해 참여형 설계 방법 적용
- 도구의 책임감 있고 인간 중심적 특성 보장

심층 평가

장점

높은 혁신성: 인간 코더 훈련 과정을 체계적으로 모방하는 VLM 워크플로우 최초 제안
높은 실용 가치: 근린지역 연구의 실제 문제점 해결, 광범위한 응용 전망 보유
합리적 기술 방안: 4개 모듈 설계가 명확하고 기술 경로가 실행 가능
오픈소스 친화적: Google Colab 구현 제공으로 사용 진입 장벽 낮춤
학제 간 통합: AI 기술과 사회과학 방법론을 효과적으로 결합

부족한 점

평가 불충분: 인간 코더와의 체계적 비교 실험 부재
편향 위험: VLM의 사회문화적 해석 편향 문제에 대한 논의 부족
일반화 능력 미검증: 단일 사례 연구만 기반하며 다중 시나리오 검증 부재
기술 세부사항 부족: 프롬프트 엔지니어링의 구체적 전략 및 효과 분석 제한적

영향력

학술 기여: 인간-기계 협력의 지리공간 컴퓨팅에 새로운 패러다임 제공
실무 가치: 근린지역 연구의 효율성 및 규모를 현저히 향상 가능
학제 간 영향: 도시 계획, 공중보건, 사회학 등 분야에 응용 가치 보유
방법론 혁신: VLM의 영역 특정 작업 응용을 위한 참고 프레임워크 제공

적용 시나리오

도시 연구: 대규모 근린지역 환경 특성 평가
공중보건: 환경 요인이 건강에 미치는 영향 연구
사회학 연구: 지역사회 특성과 사회 현상 관계 분석
도시 계획: 시각적 특성 기반 도시 환경 평가

윤리적 고려사항

논문은 기계학습 모델이 가질 수 있는 사회적 편향 문제, 특히 다양한 근린지역의 사회문화적 배경 해석 시 편향을 명시적으로 인정합니다. 저자들은 향후 연구에서 잠재적 편향 출처를 평가하고 영역 전문가와 협력하여 참여형 설계 방법을 적용하며, StreetLens가 책임감 있는 인간 중심 도구로 기능하도록 할 계획입니다.

참고문헌

논문은 다음을 포함한 관련 분야의 중요한 연구를 인용합니다:

근린지역 환경 평가의 고전 연구(Sampson & Raudenbush, 1999)
가상 감사 방법의 발전(Odgers et al., 2012; Clarke et al., 2010)
도시 분석에서의 VLM 응용(Biljecki & Ito, 2021)
프롬프트 엔지니어링 기술(Schulhoff et al., 2025)

요약: StreetLens는 AI와 사회과학 연구 방법론 융합의 중요한 진전을 나타내며, 체계적 워크플로우 설계를 통해 근린지역 환경 평가의 자동화 및 규모 확대를 실현합니다. 평가 검증 및 편향 처리 측면에서 추가 개선이 필요하지만, 혁신적인 인간-기계 협력 개념과 실용적 기술 방안은 관련 분야 연구에 가치 있는 도구 및 방법론 참고자료를 제공합니다.