2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.

Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.

academic

StreetLens: Включение ориентированных на человека AI-агентов для оценки районов на основе изображений Street View

Основная информация

ID статьи: 2506.14670
Название: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Авторы: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle C. Pasco (Университет Миннесоты)
Классификация: cs.HC (Взаимодействие человека и компьютера), cs.AI (Искусственный интеллект)
Конференция: The 1st ACM SIGSPATIAL International Workshop on Human-Centered Geospatial Computing (GeoHCC '25)
Ссылка на статью: https://arxiv.org/abs/2506.14670
Ссылка на проект: https://knowledge-computing.github.io/projects/streetlens

Аннотация

Традиционные исследования районов полагаются на интервью, опросы и ручную аннотацию изображений на основе подробных протоколов для выявления характеристик окружающей среды, включая физический беспорядок, упадок, безопасность улиц и социокультурные символы, а также изучение их влияния на развитие и результаты здоровья. Хотя эти методы дают богатые результаты, они требуют много времени и интенсивного участия экспертов. В данной статье предлагается StreetLens — настраиваемый пользователем рабочий процесс, ориентированный на человека, который интегрирует соответствующие знания социальных наук в модели визуального языка (VLM) для масштабируемой оценки окружающей среды района.

Исследовательский контекст и мотивация

Определение проблемы

Традиционная оценка окружающей среды района сталкивается со следующими проблемами:

Трудоёмкость: требует обученных кодировщиков для систематического социального наблюдения (SSO), несколько кодировщиков аннотируют одно изображение для обеспечения надёжности
Ограничения масштабируемости: ручные методы сложно масштабировать на большие географические регионы и разнообразные исследовательские сценарии
Зависимость от экспертов: требует постоянного участия и надзора специалистов в предметной области
Сложность стандартизации: отсутствие адаптивных системных подходов, применимых к различным исследовательским проектам и географическим контекстам

Значимость исследования

Оценка характеристик окружающей среды района имеет решающее значение для понимания того, как окружающая среда влияет на:

развитие подростков
психическое здоровье
социальную сплочённость
результаты общественного здоровья

Ограничения существующих методов

Традиционные подходы: хотя и предоставляют ценные результаты, процесс громоздкий, зависит от экспертов и сложно масштабируется
Существующие приложения VLM: в основном носят временный характер, лишены структурированной базы, не позволяют систематически "обучать" VLM работать как человеческие кодировщики
Отсутствие механизма обратной связи: существующие методы обычно напрямую принимают результаты VLM без предоставления обратной связи исследователям

Основные вклады

Предложение рабочего процесса StreetLens: первый сквозной, ориентированный на исследователя рабочий процесс систематического социального наблюдения, моделирующий процесс обучения человеческих кодировщиков
Структура человеко-машинного сотрудничества: интеграция знаний предметной области через ролевые подсказки как основного компонента процесса анализа
Автоматическая оптимизация подсказок: автоматическое создание подсказок, специфичных для предметной области, на основе соответствующей исследовательской литературы и руководств по кодированию
Повышенная интерпретируемость: предоставление объяснений решений VLM и механизма обратной связи
Открытая доступность: предоставление блокнота Google Colab для снижения технических барьеров

Подробное описание методологии

Определение задачи

Входные данные:

спецификация исследуемой области
руководства по кодированию и протоколы
соответствующие научные статьи
примеры аннотаций
изображения Street View (SVI)

Выходные данные:

структурированная оценка характеристик окружающей среды
семантические аннотации от объективных характеристик (например, количество автомобилей) до субъективных восприятий (например, ощущение беспорядка)
объяснения оценок и обратная связь

Архитектура системы

StreetLens состоит из четырёх основных модулей:

M1. Обработчик данных (Data Processor)

Функция: сбор и организация входных материалов
Обработка входных данных:
- выбор исследуемой области (на основе данных дорог TIGER переписи США, выборка с интервалом 5 метров)
- загрузка материалов (руководства по кодированию, протоколы, соответствующие статьи, примеры аннотаций)
- получение изображений Google Street View
Выходные данные: структурированный набор входных данных

M2. Автоматическая оптимизация подсказок (Automated Prompt Tuning)

Создание ролей: создание описания профессиональной роли VLM на основе резюме соответствующих статей

Шаблон подсказки:
"You are an expert in the following fields and the author of the paper abstracts provided here: [резюме статей]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."

Классификация задач: различие между задачами субъективного восприятия и объективного обнаружения

Подсказка классификации:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."

Обработка руководства по кодированию: преобразование пар вопрос-ответ в структурированные подсказки

M3. Обработчик визуального языковой модели (VLM Processor)

Выбор модели: использование открытой лёгкой VLM InternVL3-2B
- кодировщик изображений: InternViT-300M-448px-V2_5
- языковая модель: Qwen2.5-1.5B
Процесс обработки:
1. кодирование и встраивание изображений
2. объединение с подсказками, созданными M2
3. использование контекстного обучения на примерах пар изображение-ответ
4. создание оценок характеристик окружающей среды

M4. Поставщик обратной связи (Feedback Provider)

Создание объяснений: предоставление объяснений рассуждений для оценок VLM
Интерпретируемость: помощь исследователям в понимании процесса принятия решений AI-агентом
Пример: объяснение для измерения 'Decay 1': "There are only slight cracks, and any potholes present have been fixed or covered"

Технические инновации

Интеграция знаний предметной области: встраивание знаний социальных наук в VLM через ролевые подсказки
Адаптация к задачам: автоматическое выявление и адаптация к различным типам оценочных задач (восприятие vs обнаружение)
Контекстное обучение: использование примеров экспертных аннотаций для повышения производительности модели
Дизайн человеко-машинного сотрудничества: моделирование процесса обучения человеческих кодировщиков, включая изучение литературы, исследование протоколов, проверку примеров

Тематическое исследование

Исследовательский контекст

На основе исследования семейных социальных наук Pasco и White (2020):

Цель исследования: оценка связи между окружающей средой района и использованием расовых ярлыков подростками
Методология: использование протокола систематического социального наблюдения (SSO) для обучения человеческих кодировщиков
Содержание оценки: степень физического упадка, социокультурные символы и т.д.
Метод валидации: оценка надёжности между кодировщиками с использованием внутриклассового коэффициента корреляции (ICC)

Применение StreetLens

участие в качестве дополнительного интеллектуального кодировщика в процессе оценки
использование соответствующей исследовательской литературы для определения роли VLM
обработка конкретных вопросов из руководства по кодированию (например, "Disorder 3")
предоставление интерпретируемых результатов оценки

Экспериментальная установка

Источники данных

Изображения Street View: изображения Google Street View
Географические данные: данные дорог TIGER переписи США
Стратегия выборки: предопределённые точки с интервалом 5 метров
Данные тематического исследования: ручные аннотации из исходного исследования

Техническая реализация

Платформа развёртывания: блокнот Google Colab
Сервер: Университет Миннесоты, подключение через Cloudflare
Пользовательский интерфейс: модульный дизайн с кнопками, поддерживающий независимое изучение функций каждого модуля

Связанные работы

Эволюция традиционных методов

Ранние исследования: Sampson и Raudenbush (1999) использовали видео для оценки физического беспорядка на 23 000 улицах Чикаго
Виртуальные аудиты: последующие исследования применили Google Earth и Street View для удалённой оценки
Методы компьютерного зрения: обнаружение городной зелени, качества тротуаров и других физических характеристик

Текущее состояние приложений VLM

Оценка пешеходности: использование VLM для оценки пешеходной дружественности городов
Структурированные описания: создание структурированных описаний городской среды
Обнаружение объектов: обнаружение конкретных объектов в категориях аудита

Преимущества StreetLens

По сравнению с существующими работами StreetLens предоставляет:

сквозной рабочий процесс, ориентированный на исследователя
систематический процесс моделирования обучения VLM
адаптивность к различным исследовательским проектам и географическим контекстам

Заключение и обсуждение

Основные выводы

Эффективность рабочего процесса: StreetLens успешно моделирует процесс обучения и оценки человеческих кодировщиков
Интеграция знаний предметной области: эффективная интеграция знаний социальных наук через ролевые подсказки
Повышение масштабируемости: значительное улучшение возможности масштабирования оценки окружающей среды района
Человеко-машинное сотрудничество: достижение эффективного сотрудничества между AI и исследователями

Ограничения

Предвзятость модели: VLM может проявлять предвзятость при интерпретации социокультурного контекста разнообразных районов
Валидация оценок: требуется более систематический метод оценки (например, ICC) для валидации надёжности автоматического кодирования
Механизм обратной связи: текущие циклы обратной связи ограничены, требуются более интерактивные функции улучшения

Будущие направления

Усиление человеко-машинного взаимодействия:
- добавление циклов обратной связи, позволяющих исследователям объяснять и улучшать решения StreetLens
- исследование различных типов автоматических кодировщиков
- разработка методов автоматизации, более близких к человеческому кодированию
Улучшение методов оценки:
- использование внутриклассового коэффициента корреляции (ICC) для рассмотрения автоматических кодировщиков как одного из человеческих аннотаторов
- предоставление механизма обратной связи для мониторинга обоснованности и надёжности выходных данных
- повышение удобства проверки и улучшения результатов
Смягчение предвзятости:
- оценка потенциальных источников предвзятости
- применение методов участвующего дизайна при сотрудничестве со специалистами в предметной области
- обеспечение ответственности и ориентированности инструмента на человека

Глубокая оценка

Сильные стороны

Высокая инновационность: первое предложение систематического моделирования процесса обучения человеческих кодировщиков с использованием VLM
Высокая практическая ценность: решение реальных проблем в исследованиях районов с широкими перспективами применения
Обоснованное техническое решение: чёткий дизайн четырёх модулей, осуществимый технический маршрут
Дружественность к открытому коду: предоставление реализации Google Colab для снижения барьеров использования
Междисциплинарная интеграция: эффективное объединение технологии AI и методологии социальных наук

Недостатки

Недостаточная оценка: отсутствие систематических сравнительных экспериментов с человеческими кодировщиками
Риск предвзятости: недостаточное обсуждение проблемы предвзятости VLM при интерпретации социокультурного контекста
Непроверенная способность к обобщению: основано только на одном тематическом исследовании, отсутствует валидация в различных сценариях
Недостаточные технические детали: ограниченный анализ конкретных стратегий инженерии подсказок и эффектов

Влияние

Академический вклад: предоставление новой парадигмы для человеко-машинного сотрудничества в геопространственных вычислениях
Практическая ценность: значительное повышение эффективности и масштабируемости исследований районов
Кросс-дисциплинарное влияние: применимость в городском планировании, общественном здоровье, социологии и других областях
Методологическая инновация: предоставление справочной базы для применения VLM в задачах, специфичных для предметной области

Применимые сценарии

Городские исследования: крупномасштабная оценка характеристик окружающей среды района
Общественное здоровье: исследование влияния факторов окружающей среды на здоровье
Социологические исследования: анализ связей между характеристиками сообщества и социальными явлениями
Городское планирование: оценка городской среды на основе визуальных характеристик

Этические соображения

Статья явно признаёт потенциальные проблемы социальной предвзятости моделей машинного обучения, особенно при интерпретации социокультурного контекста разнообразных районов. Авторы планируют в будущей работе оценить потенциальные источники предвзятости и применить методы участвующего дизайна при сотрудничестве со специалистами в предметной области, чтобы обеспечить ответственность и ориентированность StreetLens на человека.

Библиография

Статья ссылается на важные работы в соответствующих областях, включая:

классические исследования оценки окружающей среды района (Sampson & Raudenbush, 1999)
развитие методов виртуального аудита (Odgers et al., 2012; Clarke et al., 2010)
применение VLM в городском анализе (Biljecki & Ito, 2021)
технологии инженерии подсказок (Schulhoff et al., 2025)

Резюме: StreetLens представляет собой важный прогресс в слиянии AI и методологии социальных наук, достигая автоматизации и масштабирования оценки окружающей среды района посредством систематического проектирования рабочего процесса. Хотя требуется дальнейшее совершенствование в валидации оценок и обработке предвзятости, его инновационная концепция человеко-машинного сотрудничества и практичное техническое решение предоставляют ценный инструмент и методологический справочник для исследований в соответствующих областях.