2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic

StreetLens: تمكين وكلاء الذكاء الاصطناعي الموجهة للإنسان لتقييم الأحياء من صور Street View

المعلومات الأساسية

  • معرّف الورقة: 2506.14670
  • العنوان: StreetLens: تمكين وكلاء الذكاء الاصطناعي الموجهة للإنسان لتقييم الأحياء من صور Street View
  • المؤلفون: جينا كيم، ليجي جانج، ياو-يي تشيانج، جوانيو وانج، ميشيل سي باسكو (جامعة مينيسوتا)
  • التصنيف: cs.HC (التفاعل بين الإنسان والحاسوب)، cs.AI (الذكاء الاصطناعي)
  • مؤتمر النشر: ورشة العمل الدولية الأولى لـ ACM SIGSPATIAL حول الحوسبة الجغرافية الموجهة للإنسان (GeoHCC '25)
  • رابط الورقة: https://arxiv.org/abs/2506.14670
  • رابط المشروع: https://knowledge-computing.github.io/projects/streetlens

الملخص

يعتمد البحث التقليدي في الأحياء على المقابلات والاستطلاعات والتعليقات اليدوية للصور بناءً على بروتوكولات مفصلة لتحديد الخصائص البيئية، بما في ذلك الفوضى المادية والتدهور وسلامة الشارع والرموز الاجتماعية والثقافية، ودراسة تأثيرها على النتائج الإنمائية والصحية. على الرغم من أن هذه الأساليب تنتج رؤى غنية، إلا أنها تستغرق وقتاً طويلاً وتتطلب تدخلاً مكثفاً من الخبراء. تقدم هذه الورقة StreetLens، وهو سير عمل موجه للإنسان قابل للتكوين من قبل المستخدم، يدمج معارف العلوم الاجتماعية ذات الصلة في نماذج اللغة البصرية (VLM) لتقييم بيئة الحي القابل للتوسع.

خلفية البحث والدافع

تعريف المشكلة

يواجه تقييم بيئة الحي التقليدي التحديات التالية:

  1. كثافة العمل: يتطلب موظفي ترميز مدربين للملاحظة الاجتماعية المنهجية (SSO)، مع قيام عدة موظفين بتعليق نفس الصورة لضمان الموثوقية
  2. قيود قابلية التوسع: تصعب الأساليب اليدوية توسيع نطاقها إلى مناطق جغرافية واسعة وسيناريوهات بحثية متنوعة
  3. الاعتماد على الخبراء: تتطلب المشاركة المستمرة والإشراف من قبل خبراء المجال
  4. صعوبة التوحيد: نقص الأساليب المنهجية القابلة للتكيف عبر تصاميم البحث والسياقات الجغرافية

أهمية البحث

يعتبر تقييم خصائص بيئة الحي حاسماً لفهم كيفية تأثير البيئة على:

  • تطور المراهقين
  • الصحة النفسية
  • التماسك الاجتماعي
  • نتائج الصحة العامة

قيود الأساليب الموجودة

  1. الأساليب التقليدية: على الرغم من توفيرها رؤى قيمة، إلا أن العملية مرهقة وتعتمد على الخبراء وصعبة التوسع
  2. تطبيقات VLM الموجودة: في الغالب تطبيقات مؤقتة تفتقر إلى إطار عمل منظم، وغير قادرة على "تدريب" VLM بشكل منهجي للعمل مثل موظفي الترميز البشريين
  3. نقص آليات التغذية الراجعة: عادة ما تقبل الأساليب الموجودة نتائج VLM مباشرة دون توفير تغذية راجعة للباحثين

المساهمات الأساسية

  1. اقتراح سير عمل StreetLens: أول سير عمل منهجي للملاحظة الاجتماعية شامل وموجه للباحث، يحاكي عملية تدريب موظفي الترميز البشريين
  2. إطار التعاون بين الإنسان والآلة: دمج المعرفة المجالية كمكون أساسي في عملية التحليل من خلال الإشارات الدورية
  3. ضبط الإشارات المؤتمتة: إنشاء إشارات خاصة بالمجال تلقائياً بناءً على الأدبيات البحثية ذات الصلة وأدلة الترميز
  4. تعزيز القابلية للتفسير: توفير آليات التفسير والتغذية الراجعة لقرارات VLM
  5. إمكانية الوصول مفتوحة المصدر: توفير دفاتر Google Colab لتقليل الحواجز التقنية

شرح الطريقة

تعريف المهمة

المدخلات:

  • مواصفات منطقة البحث
  • أدلة الترميز والبروتوكولات
  • الأوراق الأكاديمية ذات الصلة
  • أمثلة على التعليقات
  • صور Street View (SVI)

المخرجات:

  • تقييم خصائص البيئة المنظمة
  • التعليقات الدلالية من الخصائص الموضوعية (مثل عدد السيارات) إلى الإدراك الذاتي (مثل الشعور بالفوضى)
  • تفسيرات التقييم والتغذية الراجعة

معمارية النظام

يتضمن StreetLens أربع وحدات أساسية:

M1. معالج البيانات (Data Processor)

  • الوظيفة: جمع وتنظيم المواد المدخلة
  • معالجة المدخلات:
    • اختيار منطقة البحث (بناءً على بيانات طرق TIGER للتعداد الأمريكي، أخذ عينات بفاصل 5 أمتار)
    • تحميل المواد (أدلة الترميز والبروتوكولات والأوراق ذات الصلة والتعليقات النموذجية)
    • استرجاع صور Google Street View
  • المخرجات: مجموعة بيانات مدخلة منظمة

M2. ضبط الإشارات المؤتمتة (Automated Prompt Tuning)

  • إنشاء الدور: إنشاء وصف دور احترافي VLM بناءً على ملخصات الأوراق ذات الصلة
    قالب الإشارة:
    "أنت خبير في المجالات التالية ومؤلف ملخصات الأوراق المقدمة هنا: [ملخصات الأوراق]. بناءً على الخبرة المعروضة، قم بإنشاء وصف دور احترافي عام لنفسك في جملة أو جملتين، بدءاً بـ 'أنت' مكتوبة بصيغة المخاطب."
    
  • تصنيف المهام: التمييز بين مهام الإدراك الذاتي مقابل مهام الكشف الموضوعي
    إشارة التصنيف:
    "أنت مصنف لمهام التعليق... إذا كانت تطلب تقييم/تقييم الحالة العامة أو الجودة، فقم بتصنيفها كإدراك. إذا كانت تطلب الكشف أو العد أو التحقق من كائنات محددة، فقم بتصنيفها كـ object_detection."
    
  • معالجة دليل الترميز: تحويل أزواج الأسئلة والإجابات إلى إشارات منظمة

M3. معالج نموذج اللغة البصرية (VLM Processor)

  • اختيار النموذج: استخدام نموذج VLM خفيف الوزن مفتوح المصدر InternVL3-2B
    • مشفر الصور: InternViT-300M-448px-V2_5
    • نموذج اللغة: Qwen2.5-1.5B
  • سير المعالجة:
    1. ترميز الصور والتضمين
    2. الجمع مع الإشارات المولدة من M2
    3. الاستفادة من أزواج الصور والإجابات النموذجية للتعلم السياقي
    4. إنشاء تقييمات خصائص البيئة

M4. مزود التغذية الراجعة (Feedback Provider)

  • إنشاء التفسيرات: توفير تفسيرات الاستدلال لتقييمات VLM
  • القابلية للتفسير: مساعدة الباحثين على فهم عملية اتخاذ القرار لوكيل الذكاء الاصطناعي
  • مثال: تفسير قياس 'Decay 1': "هناك فقط شقوق طفيفة، وأي حفر موجودة تم إصلاحها أو تغطيتها"

نقاط الابتكار التقني

  1. دمج المعرفة المجالية: دمج معارف العلوم الاجتماعية في VLM من خلال الإشارات الدورية
  2. التكيف مع المهام: تحديد وتكيف تلقائي مع أنواع مختلفة من مهام التقييم (الإدراك مقابل الكشف)
  3. التعلم السياقي: الاستفادة من أمثلة التعليقات من الخبراء لتحسين أداء النموذج
  4. تصميم التعاون بين الإنسان والآلة: محاكاة عملية تدريب موظفي الترميز البشريين، بما في ذلك دراسة الأدبيات وبحث البروتوكول وفحص الأمثلة

دراسة حالة

خلفية البحث

بناءً على بحث العلوم الاجتماعية الأسري لـ Pasco و White (2020):

  • الهدف البحثي: تقييم العلاقة بين بيئة الحي واستخدام المراهقين للعلامات العرقية
  • الطريقة: استخدام بروتوكول الملاحظة الاجتماعية المنهجية (SSO) لتدريب موظفي الترميز البشريين
  • محتوى التقييم: درجة التدهور المادي والرموز الاجتماعية والثقافية وغيرها
  • طريقة التحقق: تقييم موثوقية الترميز بين الموظفين من خلال معامل الارتباط داخل الفئة (ICC)

تطبيق StreetLens

  • العمل كموظف ترميز ذكي إضافي في عملية التقييم
  • استخدام الأدبيات البحثية ذات الصلة لتعريف دور VLM
  • معالجة الأسئلة المحددة في دليل الترميز (مثل "Disorder 3")
  • توفير نتائج تقييم قابلة للتفسير

إعداد التجربة

مصادر البيانات

  • صور Street View: صور Google Street View
  • البيانات الجغرافية: بيانات طرق TIGER للتعداد الأمريكي
  • استراتيجية أخذ العينات: نقاط موقع محددة مسبقاً بفاصل 5 أمتار
  • بيانات الحالة: بيانات معلقة يدوياً من دراسة الحالة الأصلية

التنفيذ التقني

  • منصة النشر: دفتر Google Colab
  • الخادم: جامعة مينيسوتا، متصل عبر Cloudflare
  • واجهة المستخدم: تصميم أزرار معياري يدعم الاستكشاف المنفصل لكل وحدة

الأعمال ذات الصلة

تطور الأساليب التقليدية

  1. الأبحاث المبكرة: استخدم Sampson و Raudenbush (1999) تقييم الفيديو لتقييم الفوضى المادية في 23000 قطعة شارع في شيكاغو
  2. التدقيق الافتراضي: اعتمدت الأبحاث اللاحقة على Google Earth و Street View للتقييم عن بعد
  3. أساليب رؤية الحاسوب: الكشف عن الخصائص المادية الحضرية مثل المساحات الخضراء وجودة الأرصفة

الحالة الحالية لتطبيقات VLM

  • تقييم المشي: استخدام VLM لتقييم ملاءمة المدن للمشي
  • الأوصاف المنظمة: إنشاء أوصاف منظمة للبيئات الحضرية
  • كشف الكائنات: الكشف عن كائنات محددة في فئات التدقيق

مزايا StreetLens

بالمقارنة مع الأعمال الموجودة، يوفر StreetLens:

  • سير عمل شامل موجه للباحث
  • عملية تدريب منهجية لـ VLM تحاكي العملية البشرية
  • قابلية التكيف عبر تصاميم البحث والسياقات الجغرافية

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. فعالية سير العمل: نجح StreetLens في محاكاة عملية تدريب وتقييم موظفي الترميز البشريين
  2. دمج المعرفة المجالية: دمج فعال لمعارف العلوم الاجتماعية من خلال الإشارات الدورية
  3. تحسين قابلية التوسع: تحسين كبير في القدرة على توسيع نطاق تقييم بيئة الحي
  4. التعاون بين الإنسان والآلة: تحقيق تعاون فعال بين الذكاء الاصطناعي والباحثين

القيود

  1. انحياز النموذج: قد يحتوي VLM على انحياز في تفسير السياق الاجتماعي والثقافي للأحياء المتنوعة
  2. التحقق من التقييم: الحاجة إلى أساليب تقييم أكثر منهجية (مثل ICC) للتحقق من موثوقية الترميز المؤتمتة
  3. آلية التغذية الراجعة: حلقات التغذية الراجعة الحالية محدودة، مما يتطلب المزيد من ميزات التحسين التفاعلية

الاتجاهات المستقبلية

  1. تعزيز التفاعل بين الإنسان والآلة:
    • إضافة حلقات تغذية راجعة لتمكين الباحثين من تفسير وتحسين قرارات StreetLens
    • استكشاف أنواع مختلفة من موظفي الترميز المؤتمتين
    • تطوير أساليب ترميز مؤتمتة أقرب إلى الترميز البشري
  2. تحسين أساليب التقييم:
    • استخدام معامل الارتباط داخل الفئة (ICC) لمعاملة موظفي الترميز المؤتمتين كأحد موظفي التعليق البشريين
    • توفير آليات تغذية راجعة لمراقبة معقولية وموثوقية المخرجات
    • تحسين سهولة مراجعة النتائج وتحسينها
  3. تخفيف الانحياز:
    • تقييم مصادر الانحياز المحتملة
    • تطبيق أساليب التصميم التشاركي للتعاون مع خبراء المجال
    • ضمان الطبيعة المسؤولة والموجهة للإنسان للأداة

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول سير عمل VLM يحاكي بشكل منهجي عملية تدريب موظفي الترميز البشريين
  2. قيمة عملية عالية: حل المشاكل الفعلية في بحث الأحياء مع آفاق تطبيق واسعة
  3. حل تقني معقول: تصميم من أربع وحدات واضح مع مسار تقني قابل للتطبيق
  4. ودود مفتوح المصدر: توفير تنفيذ Google Colab لتقليل حواجز الاستخدام
  5. التكامل متعدد التخصصات: دمج فعال لتقنيات الذكاء الاصطناعي والمنهجيات العلمية الاجتماعية

أوجه القصور

  1. تقييم غير كافٍ: نقص التجارب المقارنة المنهجية مع موظفي الترميز البشريين
  2. مخاطر الانحياز: النقاش غير كافٍ حول مشاكل الانحياز في VLM في التفسير الاجتماعي والثقافي
  3. عدم التحقق من القدرة على التعميم: بناءً على دراسة حالة واحدة فقط، مع نقص التحقق من السيناريوهات المتعددة
  4. تفاصيل تقنية غير كافية: تحليل محدود لاستراتيجيات هندسة الإشارات المحددة والتأثيرات

التأثير

  1. المساهمة الأكاديمية: توفير نموذج جديد للحوسبة الجغرافية الموجهة للإنسان والتعاون بين الإنسان والآلة
  2. القيمة العملية: يمكن أن تحسن بشكل كبير من كفاءة وحجم بحث الأحياء
  3. التأثير عبر التخصصات: تطبيق قيمة في مجالات التخطيط الحضري والصحة العامة وعلم الاجتماع
  4. الابتكار المنهجي: توفير إطار عمل مرجعي لتطبيق VLM في المهام الخاصة بالمجال

السيناريوهات المعمول بها

  1. البحث الحضري: تقييم خصائص بيئة الحي على نطاق واسع
  2. الصحة العامة: البحث عن تأثير العوامل البيئية على الصحة
  3. البحث الاجتماعي: تحليل العلاقة بين خصائص المجتمع والظواهر الاجتماعية
  4. التخطيط الحضري: تقييم بيئة المدينة بناءً على الخصائص البصرية

الاعتبارات الأخلاقية

تعترف الورقة صراحة بمشكلة الانحياز الاجتماعي المحتمل في نماذج التعلم الآلي، خاصة عند تفسير السياق الاجتماعي والثقافي للأحياء المتنوعة. يخطط المؤلفون لتقييم مصادر الانحياز المحتملة في الأعمال المستقبلية والتعاون مع خبراء المجال لتطبيق أساليب التصميم التشاركي، مما يضمن أن StreetLens يعمل كأداة مسؤولة وموجهة للإنسان.

المراجع

تستشهد الورقة بالأعمال المهمة في المجالات ذات الصلة، بما في ذلك:

  • الأبحاث الكلاسيكية في تقييم بيئة الحي (Sampson & Raudenbush, 1999)
  • تطور أساليب التدقيق الافتراضي (Odgers et al., 2012; Clarke et al., 2010)
  • تطبيقات VLM في التحليل الحضري (Biljecki & Ito, 2021)
  • تقنيات هندسة الإشارات (Schulhoff et al., 2025)

الملخص: يمثل StreetLens تقدماً مهماً في دمج الذكاء الاصطناعي مع أساليب البحث العلمي الاجتماعي، حيث يحقق الأتمتة والتوسع في تقييم بيئة الحي من خلال تصميم سير عمل منهجي. على الرغم من الحاجة إلى مزيد من التحسينات في التحقق من التقييم ومعالجة الانحياز، فإن مفهوم التعاون بين الإنسان والآلة المبتكر والحل التقني العملي يوفران مرجعاً قيماً للأدوات والمنهجيات البحثية في المجالات ذات الصلة.