2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.

Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.

academic

StreetLens: 街並み画像からの近隣地域評価を実現する人間中心型AIエージェント

基本情報

論文ID: 2506.14670
タイトル: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
著者: Jina Kim、Leeje Jang、Yao-Yi Chiang、Guanyu Wang、Michelle C. Pasco（ミネソタ大学）
分類: cs.HC（ヒューマンコンピュータインタラクション）、cs.AI（人工知能）
発表会議: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
論文リンク: https://arxiv.org/abs/2506.14670
プロジェクトリンク: https://knowledge-computing.github.io/projects/streetlens

要旨

従来の近隣地域研究は、インタビュー、調査、および詳細なプロトコルに基づく人手による画像注釈に依存して、物理的混乱、衰退、街路安全、社会文化的シンボルなどの環境特性を特定し、これらが発展と健康成果に与える影響を調査していました。これらの方法は豊かな洞察をもたらしますが、時間がかかり、専門家の集約的な介入が必要です。本論文では、StreetLensを提案します。これは、ユーザーが設定可能な人間中心型ワークフローであり、関連する社会科学の専門知識をビジュアル言語モデル（VLM）に統合して、スケーラブルな近隣環境評価を実現するものです。

研究背景と動機

問題定義

近隣環境評価は従来、以下の課題に直面しています：

労働集約性：体系的社会観察（SSO）を実施するために訓練された符号化者が必要であり、信頼性を確保するために複数の符号化者が同じ画像に注釈を付ける必要があります
スケーラビリティの制限：人手による方法は大規模な地理的領域と多様な研究状況への拡張が困難です
専門家への依存性：領域専門家の継続的な関与と監督が必要です
標準化の困難さ：研究設計と地理的背景全体にわたって適応可能なシステマティックなアプローチが不足しています

研究の重要性

近隣環境特性の評価は、環境が以下にどのように影響するかを理解するために重要です：

青年期の発達
心理的健康
社会的結束
公衆衛生成果

既存方法の限界

従来の方法：貴重な洞察を提供しますが、プロセスが煩雑で、専門家に依存し、スケーリングが困難です
既存のVLM応用：ほとんどが一時的な応用であり、構造化されたフレームワークが不足しており、VLMを人間の符号化者のように体系的に「訓練」することができません
フィードバック機構の欠如：既存の方法は通常、VLMの結果を直接受け入れ、研究者のフィードバックを提供しません

核心的貢献

StreetLensワークフローの提案：人間の符号化者の訓練プロセスをシミュレートする最初のエンドツーエンド、研究者中心のシステマティック社会観察ワークフロー
人機協働フレームワーク：ロールプロンプティングを通じて領域知識を分析プロセスの中核コンポーネントとして統合
自動プロンプト調整：関連する研究文献と符号化マニュアルから領域特定のプロンプトを自動生成
解釈可能性の向上：VLM決定の説明とフィードバック機構を提供
オープンソースアクセシビリティ：Google Colabノートブックを提供し、技術的障壁を低減

方法の詳細

タスク定義

入力：

研究領域の仕様
符号化マニュアルとプロトコル
関連する学術論文
注釈例
街並み画像（SVI）

出力：

構造化された環境特性評価
客観的特性（自動車の数など）から主観的知覚（混乱感など）までの意味的注釈
評価の説明とフィードバック

システムアーキテクチャ

StreetLensは4つのコアモジュールで構成されています：

M1. データプロセッサ（Data Processor）

機能：入力資料の収集と整理
入力処理：
- 研究領域の選択（米国国勢調査TIGERロードデータに基づき、5メートル間隔でサンプリング）
- 資料のアップロード（符号化マニュアル、プロトコル、関連論文、注釈例）
- Google Street View画像の取得
出力：構造化された入力データセット

M2. 自動プロンプト調整（Automated Prompt Tuning）

ロール生成：関連論文の要旨に基づいてVLM専門家ロール説明を生成

プロンプトテンプレート：
「You are an expert in the following fields and the author of the paper abstracts provided here: [論文要旨]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person.」

タスク分類：主観的知覚タスク対客観的検出タスクを区別

分類プロンプト：
「You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection.」

符号化マニュアル処理：質問-回答ペアを構造化プロンプトに変換

M3. ビジュアル言語モデルプロセッサ（VLM Processor）

モデル選択：オープンソースの軽量VLM InternVL3-2Bを使用
- 画像エンコーダ：InternViT-300M-448px-V2_5
- 言語モデル：Qwen2.5-1.5B
処理フロー：
1. 画像エンコーディングと埋め込み
2. M2で生成されたプロンプトとの結合
3. コンテキスト内学習のための例示画像-回答ペアの活用
4. 環境特性評価の生成

M4. フィードバック提供者（Feedback Provider）

説明生成：VLM評価の推論説明を提供
解釈可能性：研究者がAIエージェントの決定プロセスを理解するのに役立ちます
例：「Decay 1」測定の説明：「There are only slight cracks, and any potholes present have been fixed or covered」

技術的革新点

領域知識の統合：ロールプロンプティングを通じて社会科学の専門知識をVLMに組み込む
タスク適応：異なるタイプの評価タスク（知覚対検出）を自動的に識別して適応
コンテキスト内学習：専門家注釈例を活用してモデルパフォーマンスを向上
人機協働設計：文献学習、プロトコル研究、例示確認を含む人間の符号化者訓練プロセスをシミュレート

ケーススタディ

研究背景

Pasco and White (2020)の家族社会科学研究に基づく：

研究目標：近隣環境と青年の人種的ラベル使用との関係を評価
方法：体系的社会観察（SSO）プロトコルを使用して人間の符号化者を訓練
評価内容：物理的衰退の程度、社会文化的シンボルなど
検証方法：級内相関係数（ICC）を通じて符号化者間信頼性を評価

StreetLensの応用

評価プロセスに追加のインテリジェント符号化者として参加
関連する研究文献を使用してVLMロールを定義
符号化マニュアルの具体的な質問（例：「Disorder 3」）を処理
解釈可能な評価結果を提供

実験設定

データソース

街並み画像：Google Street View画像
地理データ：米国国勢調査TIGERロードデータ
サンプリング戦略：5メートル間隔の事前定義ポイント位置
ケースデータ：元のケーススタディからの人手による注釈データ

技術実装

デプロイメントプラットフォーム：Google Colabノートブック
サーバー：ミネソタ大学、Cloudflareを通じて接続
ユーザーインターフェース：モジュール式ボタン設計、各モジュール機能の個別探索をサポート

結論と考察

主な結論

ワークフロー有効性：StreetLensは人間の符号化者の訓練と評価プロセスを成功裏にシミュレート
領域知識の統合：ロールプロンプティングを通じて社会科学の専門知識を効果的に統合
スケーラビリティの向上：近隣環境評価のスケーリング能力を大幅に向上
人機協働：AIと研究者の効果的な協働を実現

限界

モデルバイアス：VLMは多様な近隣の社会文化的背景を解釈する際にバイアスを持つ可能性があります
評価検証：自動符号化の信頼性を検証するためにより体系的な評価方法（ICC など）が必要です
フィードバック機構：現在のフィードバックループは限定的であり、より多くのインタラクティブな改善機能が必要です

今後の方向性

人機インタラクションの強化：
- StreetLensの決定を説明および改善するための研究者フィードバックループを追加
- 異なるタイプの自動符号化者を探索
- より人間の符号化に近い自動化方法を開発
評価方法の改善：
- 自動符号化者を人間の注釈者の1つとして扱うために級内相関係数（ICC）を使用
- 出力の妥当性と信頼性を監視するためのフィードバック機構を提供
- 結果レビューと改善の便宜を向上
バイアス緩和：
- 潜在的なバイアスの源を評価
- 領域専門家との協働のための参加型設計方法を適用
- ツールの責任ある人間中心的特性を確保

深い評価

強み

革新性が高い：人間の符号化者訓練プロセスをシミュレートするVLMワークフローを体系的に提案した初めての研究
実用価値が高い：近隣研究の実際の課題を解決し、広範な応用前景を持つ
技術方案が合理的：4モジュール設計が明確で、技術ルートが実行可能
オープンソースに優しい：Google Colab実装を提供し、使用障壁を低減
学際的統合：AI技術と社会科学方法論を効果的に結合

不足

評価が不十分：人間の符号化者との体系的な比較実験が不足
バイアスリスク：社会文化的解釈におけるVLMバイアス問題の議論が不十分
汎化能力が未検証：単一のケーススタディのみに基づき、複数シナリオでの検証が不足
技術詳細が不足：プロンプトエンジニアリングの具体的戦略と効果分析が限定的

影響力

学術的貢献：人機協働の地理空間計算に新しいパラダイムを提供
実践的価値：近隣研究の効率とスケールを大幅に向上させることができる
分野横断的影響：都市計画、公衆衛生、社会学などの分野に応用価値を持つ
方法論的革新：領域特定タスクにおけるVLM応用の参考フレームワークを提供

適用シーン

都市研究：大規模な近隣環境特性評価
公衆衛生：環境要因が健康に与える影響の研究
社会学研究：コミュニティ特性と社会現象の関係分析
都市計画：視覚的特性に基づく都市環境評価

倫理的考慮

論文は機械学習モデルが持つ可能性のある社会的バイアスの問題、特に多様な近隣の社会文化的背景を解釈する際のバイアスを明確に認識しています。著者は今後の研究で潜在的なバイアスの源を評価し、領域専門家と協働して参加型設計方法を適用し、StreetLensが責任ある人間中心型ツールとして機能することを確保する計画です。

参考文献

論文は関連分野の重要な研究を引用しており、以下を含みます：

近隣環境評価の古典的研究（Sampson & Raudenbush, 1999）
仮想監査方法の発展（Odgers et al., 2012; Clarke et al., 2010）
都市分析におけるVLMの応用（Biljecki & Ito, 2021）
プロンプトエンジニアリング技術（Schulhoff et al., 2025）

要約：StreetLensはAIと社会科学研究方法の融合における重要な進歩を表しており、体系的なワークフロー設計を通じて近隣環境評価の自動化とスケーリングを実現しています。評価検証とバイアス処理の面でさらなる改善が必要ですが、その革新的な人機協働理念と実用的な技術方案は、関連分野の研究に価値のあるツールと方法論的参考を提供しています。