StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic
StreetLens: Включение ориентированных на человека AI-агентов для оценки районов на основе изображений Street View
Традиционные исследования районов полагаются на интервью, опросы и ручную аннотацию изображений на основе подробных протоколов для выявления характеристик окружающей среды, включая физический беспорядок, упадок, безопасность улиц и социокультурные символы, а также изучение их влияния на развитие и результаты здоровья. Хотя эти методы дают богатые результаты, они требуют много времени и интенсивного участия экспертов. В данной статье предлагается StreetLens — настраиваемый пользователем рабочий процесс, ориентированный на человека, который интегрирует соответствующие знания социальных наук в модели визуального языка (VLM) для масштабируемой оценки окружающей среды района.
Традиционная оценка окружающей среды района сталкивается со следующими проблемами:
Трудоёмкость: требует обученных кодировщиков для систематического социального наблюдения (SSO), несколько кодировщиков аннотируют одно изображение для обеспечения надёжности
Ограничения масштабируемости: ручные методы сложно масштабировать на большие географические регионы и разнообразные исследовательские сценарии
Зависимость от экспертов: требует постоянного участия и надзора специалистов в предметной области
Сложность стандартизации: отсутствие адаптивных системных подходов, применимых к различным исследовательским проектам и географическим контекстам
Традиционные подходы: хотя и предоставляют ценные результаты, процесс громоздкий, зависит от экспертов и сложно масштабируется
Существующие приложения VLM: в основном носят временный характер, лишены структурированной базы, не позволяют систематически "обучать" VLM работать как человеческие кодировщики
Отсутствие механизма обратной связи: существующие методы обычно напрямую принимают результаты VLM без предоставления обратной связи исследователям
Предложение рабочего процесса StreetLens: первый сквозной, ориентированный на исследователя рабочий процесс систематического социального наблюдения, моделирующий процесс обучения человеческих кодировщиков
Структура человеко-машинного сотрудничества: интеграция знаний предметной области через ролевые подсказки как основного компонента процесса анализа
Автоматическая оптимизация подсказок: автоматическое создание подсказок, специфичных для предметной области, на основе соответствующей исследовательской литературы и руководств по кодированию
Повышенная интерпретируемость: предоставление объяснений решений VLM и механизма обратной связи
Открытая доступность: предоставление блокнота Google Colab для снижения технических барьеров
Создание ролей: создание описания профессиональной роли VLM на основе резюме соответствующих статей
Шаблон подсказки:
"You are an expert in the following fields and the author of the paper abstracts provided here: [резюме статей]. Based on the expertise demonstrated, generate a general professional role description of yourself in one to two sentences, starting with 'You are' written in the second person."
Классификация задач: различие между задачами субъективного восприятия и объективного обнаружения
Подсказка классификации:
"You are a classifier of annotation tasks... If it asks to rate/assess overall condition or quality, label as perception. If it asks to detect, count, or verify specific objects, label as object_detection."
Обработка руководства по кодированию: преобразование пар вопрос-ответ в структурированные подсказки
Интеграция знаний предметной области: встраивание знаний социальных наук в VLM через ролевые подсказки
Адаптация к задачам: автоматическое выявление и адаптация к различным типам оценочных задач (восприятие vs обнаружение)
Контекстное обучение: использование примеров экспертных аннотаций для повышения производительности модели
Дизайн человеко-машинного сотрудничества: моделирование процесса обучения человеческих кодировщиков, включая изучение литературы, исследование протоколов, проверку примеров
Статья явно признаёт потенциальные проблемы социальной предвзятости моделей машинного обучения, особенно при интерпретации социокультурного контекста разнообразных районов. Авторы планируют в будущей работе оценить потенциальные источники предвзятости и применить методы участвующего дизайна при сотрудничестве со специалистами в предметной области, чтобы обеспечить ответственность и ориентированность StreetLens на человека.
Статья ссылается на важные работы в соответствующих областях, включая:
классические исследования оценки окружающей среды района (Sampson & Raudenbush, 1999)
развитие методов виртуального аудита (Odgers et al., 2012; Clarke et al., 2010)
применение VLM в городском анализе (Biljecki & Ito, 2021)
технологии инженерии подсказок (Schulhoff et al., 2025)
Резюме: StreetLens представляет собой важный прогресс в слиянии AI и методологии социальных наук, достигая автоматизации и масштабирования оценки окружающей среды района посредством систематического проектирования рабочего процесса. Хотя требуется дальнейшее совершенствование в валидации оценок и обработке предвзятости, его инновационная концепция человеко-машинного сотрудничества и практичное техническое решение предоставляют ценный инструмент и методологический справочник для исследований в соответствующих областях.