2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

基本信息

  • 论文ID: 2506.14670
  • 标题: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
  • 作者: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (University of Minnesota)
  • 分类: cs.HC (Human-Computer Interaction), cs.AI (Artificial Intelligence)
  • 发表会议: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
  • 论文链接: https://arxiv.org/abs/2506.14670
  • 项目链接: https://knowledge-computing.github.io/projects/streetlens

摘要

传统的邻里研究依赖访谈、调查和基于详细协议的人工图像标注来识别环境特征,包括物理混乱、衰败、街道安全和社会文化符号,并研究其对发展和健康结果的影响。虽然这些方法能产生丰富的洞察,但耗时且需要密集的专家干预。本文提出StreetLens,一个用户可配置的以人为中心的工作流,将相关社会科学专业知识整合到视觉语言模型(VLM)中,用于可扩展的邻里环境评估。

研究背景与动机

问题定义

邻里环境评估传统上面临以下挑战:

  1. 劳动密集性:需要训练有素的编码员进行系统性社会观察(SSO),多个编码员对同一图像进行标注以确保可靠性
  2. 可扩展性限制:人工方法难以扩展到大规模地理区域和多样化研究情境
  3. 专家依赖性:需要领域专家的持续参与和监督
  4. 标准化困难:缺乏跨研究设计和地理背景的适应性系统方法

研究重要性

邻里环境特征评估对理解环境如何影响以下方面至关重要:

  • 青少年发展
  • 心理健康
  • 社会凝聚力
  • 公共健康结果

现有方法局限性

  1. 传统方法:虽然提供有价值洞察,但过程繁琐、依赖专家且难以规模化
  2. 现有VLM应用:多为临时性应用,缺乏结构化框架,无法系统性地"训练"VLM像人类编码员一样工作
  3. 缺乏反馈机制:现有方法通常直接接受VLM结果,不提供研究者反馈

核心贡献

  1. 提出StreetLens工作流:首个端到端、以研究者为中心的系统性社会观察工作流,模拟人类编码员训练过程
  2. 人机协作框架:通过角色提示(role prompting)将领域知识作为分析过程的核心组件
  3. 自动化提示调优:基于相关研究文献和编码手册自动生成领域特定的提示
  4. 可解释性增强:提供VLM决策的解释和反馈机制
  5. 开源可访问性:提供Google Colab笔记本,降低技术门槛

方法详解

任务定义

输入

  • 研究区域规范
  • 编码手册和协议
  • 相关学术论文
  • 示例标注
  • 街景图像(SVI)

输出

  • 结构化环境特征评估
  • 从客观特征(如汽车数量)到主观感知(如混乱感)的语义标注
  • 评估解释和反馈

系统架构

StreetLens包含四个核心模块:

M1. 数据处理器(Data Processor)

  • 功能:收集和组织输入材料
  • 输入处理
    • 研究区域选择(基于美国人口普查TIGER道路数据,5米间隔采样)
    • 材料上传(编码手册、协议、相关论文、示例标注)
    • Google Street View图像检索
  • 输出:结构化的输入数据集

M2. 自动提示调优(Automated Prompt Tuning)

  • 角色生成:基于相关论文摘要生成VLM专业角色描述
    提示模板:
    "You are an expert in the following fields and the author of the paper abstracts provided here: [论文摘要]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
    
  • 任务分类:区分主观感知任务vs客观检测任务
    分类提示:
    "You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
    
  • 编码手册处理:将问题-答案对转换为结构化提示

M3. 视觉语言模型处理器(VLM Processor)

  • 模型选择:使用开源轻量级VLM InternVL3-2B
    • 图像编码器:InternViT-300M-448px-V2_5
    • 语言模型:Qwen2.5-1.5B
  • 处理流程
    1. 图像编码和嵌入
    2. 结合M2生成的提示
    3. 利用示例图像-答案对进行上下文学习
    4. 生成环境特征评估

M4. 反馈提供器(Feedback Provider)

  • 解释生成:为VLM评估提供推理解释
  • 可解释性:帮助研究者理解AI代理的决策过程
  • 示例:对'Decay 1'测量的解释:"There are only slight cracks, and any potholes present have been fixed or covered"

技术创新点

  1. 领域知识整合:通过角色提示将社会科学专业知识嵌入VLM
  2. 任务自适应:自动识别并适应不同类型的评估任务(感知vs检测)
  3. 上下文学习:利用专家标注示例提升模型性能
  4. 人机协作设计:模拟人类编码员训练过程,包括文献学习、协议研究、示例检查

案例研究

研究背景

基于Pasco和White (2020)的家庭社会科学研究:

  • 研究目标:评估邻里环境与青少年种族标签使用之间的关系
  • 方法:使用系统性社会观察(SSO)协议训练人类编码员
  • 评估内容:物理衰败程度、社会文化符号等
  • 验证方法:通过组内相关系数(ICC)评估编码员间可靠性

StreetLens应用

  • 作为额外的智能编码员参与评估过程
  • 使用相关研究文献定义VLM角色
  • 处理编码手册中的具体问题(如"Disorder 3")
  • 提供可解释的评估结果

实验设置

数据来源

  • 街景图像:Google Street View图像
  • 地理数据:美国人口普查TIGER道路数据
  • 采样策略:5米间隔预定义点位置
  • 案例数据:来自原始案例研究的人工标注数据

技术实现

  • 部署平台:Google Colab笔记本
  • 服务器:明尼苏达大学,通过Cloudflare连接
  • 用户界面:模块化按钮设计,支持单独探索各模块功能

相关工作

传统方法演进

  1. 早期研究:Sampson和Raudenbush (1999)使用视频评估芝加哥23,000个街段的物理混乱
  2. 虚拟审计:后续研究采用Google Earth和Street View进行远程评估
  3. 计算机视觉方法:检测城市绿化、人行道质量等物理特征

VLM应用现状

  • 步行性评估:使用VLM评估城市步行友好性
  • 结构化描述:生成城市环境的结构化描述
  • 对象检测:在审计类别中检测特定对象

StreetLens优势

相比现有工作,StreetLens提供:

  • 端到端的研究者中心工作流
  • 系统性的VLM训练过程模拟
  • 跨研究设计和地理背景的适应性

结论与讨论

主要结论

  1. 工作流有效性:StreetLens成功模拟了人类编码员的训练和评估过程
  2. 领域知识整合:通过角色提示有效整合社会科学专业知识
  3. 可扩展性提升:显著提高了邻里环境评估的规模化能力
  4. 人机协作:实现了AI与研究者的有效协作

局限性

  1. 模型偏见:VLM可能在解释多样化邻里的社会文化背景时存在偏见
  2. 评估验证:需要更系统的评估方法(如ICC)来验证自动化编码的可靠性
  3. 反馈机制:当前反馈循环有限,需要更多交互式改进功能

未来方向

  1. 人机交互增强
    • 添加反馈循环让研究者解释和改进StreetLens决策
    • 探索不同类型的自动化编码员
    • 开发更接近人类编码的自动化方法
  2. 评估方法改进
    • 使用组内相关系数(ICC)将自动化编码员视为人类标注员之一
    • 提供反馈机制监控输出的合理性和可靠性
    • 增强结果审查和改进的便利性
  3. 偏见缓解
    • 评估潜在偏见来源
    • 应用参与式设计方法与领域专家合作
    • 确保工具的负责任和以人为中心特性

深度评价

优点

  1. 创新性强:首次提出系统性模拟人类编码员训练过程的VLM工作流
  2. 实用价值高:解决了邻里研究中的实际痛点,具有广泛应用前景
  3. 技术方案合理:四模块设计清晰,技术路线可行
  4. 开源友好:提供Google Colab实现,降低使用门槛
  5. 跨学科整合:有效结合了AI技术和社会科学方法论

不足

  1. 评估不充分:缺乏与人类编码员的系统性对比实验
  2. 偏见风险:对VLM在社会文化解释中的偏见问题讨论不够深入
  3. 泛化能力未验证:仅基于一个案例研究,缺乏多场景验证
  4. 技术细节不足:对提示工程的具体策略和效果分析有限

影响力

  1. 学术贡献:为人机协作的地理空间计算提供了新范式
  2. 实践价值:可显著提升邻里研究的效率和规模
  3. 跨领域影响:对城市规划、公共健康、社会学等领域具有应用价值
  4. 方法论创新:为VLM在领域特定任务中的应用提供了参考框架

适用场景

  1. 城市研究:大规模邻里环境特征评估
  2. 公共健康:环境因素对健康影响的研究
  3. 社会学研究:社区特征与社会现象关系分析
  4. 城市规划:基于视觉特征的城市环境评估

伦理考虑

论文明确承认了机器学习模型可能存在的社会偏见问题,特别是在解释多样化邻里的社会文化背景时。作者计划在未来工作中评估潜在偏见来源,并与领域专家合作应用参与式设计方法,确保StreetLens作为负责任的以人为中心工具。

参考文献

论文引用了相关领域的重要工作,包括:

  • 邻里环境评估的经典研究(Sampson & Raudenbush, 1999)
  • 虚拟审计方法的发展(Odgers et al., 2012; Clarke et al., 2010)
  • VLM在城市分析中的应用(Biljecki & Ito, 2021)
  • 提示工程技术(Schulhoff et al., 2025)

总结:StreetLens代表了AI与社会科学研究方法融合的重要进展,通过系统性的工作流设计实现了邻里环境评估的自动化和规模化。虽然在评估验证和偏见处理方面还需进一步完善,但其创新的人机协作理念和实用的技术方案为相关领域研究提供了有价值的工具和方法论参考。