2025-11-18T18:43:13.867270

StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery

Kim, Jang, Chiang et al.
Traditionally, neighborhood studies have used interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. Although these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this paper, we present StreetLens, a user-configurable human-centered workflow that integrates relevant social science expertise into a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by focusing the analysis on questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed in diverse settings. StreetLens represents a shift toward flexible and agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies. StreetLens is publicly available at https://knowledge-computing.github.io/projects/streetlens.
academic

StreetLens: पड़ोस मूल्यांकन के लिए मानव-केंद्रित AI एजेंटों को सक्षम करना स्ट्रीट व्यू इमेजरी से

मूल जानकारी

  • पेपर ID: 2506.14670
  • शीर्षक: StreetLens: पड़ोस मूल्यांकन के लिए मानव-केंद्रित AI एजेंटों को सक्षम करना स्ट्रीट व्यू इमेजरी से
  • लेखक: जिना किम, लीजे जांग, याओ-यी चियांग, गुआन्यु वांग, मिशेल सी. पास्को (मिनेसोटा विश्वविद्यालय)
  • वर्गीकरण: cs.HC (मानव-कंप्यूटर इंटरैक्शन), cs.AI (कृत्रिम बुद्धिमत्ता)
  • प्रकाशन सम्मेलन: द 1st ACM SIGSPATIAL इंटरनेशनल वर्कशॉप ऑन ह्यूमन-सेंटर्ड जियोस्पेशियल कंप्यूटिंग (GeoHCC '25)
  • पेपर लिंक: https://arxiv.org/abs/2506.14670
  • प्रोजेक्ट लिंक: https://knowledge-computing.github.io/projects/streetlens

सारांश

परंपरागत पड़ोस अनुसंधान साक्षात्कार, सर्वेक्षण और विस्तृत प्रोटोकॉल के आधार पर मानव इमेज एनोटेशन पर निर्भर करता है ताकि पर्यावरणीय विशेषताओं की पहचान की जा सके, जिनमें भौतिक अव्यवस्था, क्षय, सड़क सुरक्षा और सामाजिक-सांस्कृतिक प्रतीक शामिल हैं, और विकास और स्वास्थ्य परिणामों पर उनके प्रभाव का अध्ययन किया जा सके। यद्यपि ये विधियां समृद्ध अंतर्दृष्टि प्रदान करती हैं, लेकिन वे समय-सापेक्ष और विशेषज्ञ हस्तक्षेप की गहन आवश्यकता रखती हैं। यह पेपर StreetLens प्रस्तावित करता है, एक उपयोगकर्ता-कॉन्फ़िगरेबल मानव-केंद्रित वर्कफ़्लो जो प्रासंगिक सामाजिक विज्ञान विशेषज्ञता को दृश्य भाषा मॉडल (VLM) में एकीकृत करता है, जो स्केलेबल पड़ोस पर्यावरणीय मूल्यांकन के लिए है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पड़ोस पर्यावरणीय मूल्यांकन परंपरागत रूप से निम्नलिखित चुनौतियों का सामना करता है:

  1. श्रम-गहन प्रकृति: प्रशिक्षित कोडर द्वारा व्यवस्थित सामाजिक अवलोकन (SSO) की आवश्यकता, एक ही इमेज के लिए विश्वसनीयता सुनिश्चित करने के लिए कई कोडर द्वारा एनोटेशन
  2. स्केलेबिलिटी सीमाएं: मानव विधियां बड़े भौगोलिक क्षेत्रों और विविध अनुसंधान परिस्थितियों तक विस्तारित करना मुश्किल है
  3. विशेषज्ञ निर्भरता: डोमेन विशेषज्ञों की निरंतर भागीदारी और निरीक्षण की आवश्यकता
  4. मानकीकरण कठिनाई: अनुसंधान डिजाइन और भौगोलिक संदर्भ में अनुकूलन योग्य प्रणालीगत दृष्टिकोण का अभाव

अनुसंधान महत्व

पड़ोस पर्यावरणीय विशेषताओं का मूल्यांकन निम्नलिखित को समझने के लिए महत्वपूर्ण है:

  • किशोर विकास
  • मानसिक स्वास्थ्य
  • सामाजिक समरसता
  • सार्वजनिक स्वास्थ्य परिणाम

मौजूदा विधियों की सीमाएं

  1. परंपरागत विधियां: मूल्यवान अंतर्दृष्टि प्रदान करने के बावजूद, प्रक्रिया जटिल, विशेषज्ञ-निर्भर और स्केल करना मुश्किल है
  2. मौजूदा VLM अनुप्रयोग: अधिकांशतः तदर्थ अनुप्रयोग हैं, संरचित ढांचे की कमी है, VLM को मानव कोडर की तरह काम करने के लिए व्यवस्थित रूप से "प्रशिक्षित" नहीं कर सकते
  3. प्रतिक्रिया तंत्र की कमी: मौजूदा विधियां आमतौर पर VLM परिणामों को सीधे स्वीकार करती हैं, शोधकर्ता प्रतिक्रिया प्रदान नहीं करती

मुख्य योगदान

  1. StreetLens वर्कफ़्लो प्रस्तावित करना: पहला एंड-टू-एंड, शोधकर्ता-केंद्रित व्यवस्थित सामाजिक अवलोकन वर्कफ़्लो जो मानव कोडर प्रशिक्षण प्रक्रिया का अनुकरण करता है
  2. मानव-मशीन सहयोग ढांचा: भूमिका संकेत (role prompting) के माध्यम से डोमेन ज्ञान को विश्लेषण प्रक्रिया के मुख्य घटक के रूप में एकीकृत करना
  3. स्वचालित संकेत ट्यूनिंग: प्रासंगिक अनुसंधान साहित्य और कोडिंग मैनुअल से डोमेन-विशिष्ट संकेत स्वचालित रूप से उत्पन्न करना
  4. व्याख्यात्मकता वृद्धि: VLM निर्णयों की व्याख्या और प्रतिक्रिया तंत्र प्रदान करना
  5. ओपन-सोर्स पहुंच: Google Colab नोटबुक प्रदान करना, तकनीकी बाधा को कम करना

विधि विवरण

कार्य परिभाषा

इनपुट:

  • अनुसंधान क्षेत्र विनिर्देश
  • कोडिंग मैनुअल और प्रोटोकॉल
  • प्रासंगिक शैक्षणिक पेपर
  • उदाहरण एनोटेशन
  • स्ट्रीट व्यू इमेजरी (SVI)

आउटपुट:

  • संरचित पर्यावरणीय विशेषता मूल्यांकन
  • वस्तुनिष्ठ विशेषताओं (जैसे कार संख्या) से व्यक्तिपरक धारणा (जैसे अव्यवस्था की भावना) तक सिमेंटिक एनोटेशन
  • मूल्यांकन व्याख्या और प्रतिक्रिया

प्रणाली आर्किटेक्चर

StreetLens में चार मुख्य मॉड्यूल शामिल हैं:

M1. डेटा प्रोसेसर (Data Processor)

  • कार्य: इनपुट सामग्री को एकत्रित और संगठित करना
  • इनपुट प्रसंस्करण:
    • अनुसंधान क्षेत्र चयन (अमेरिकी जनगणना TIGER सड़क डेटा पर आधारित, 5 मीटर अंतराल नमूनाकरण)
    • सामग्री अपलोड (कोडिंग मैनुअल, प्रोटोकॉल, प्रासंगिक पेपर, उदाहरण एनोटेशन)
    • Google Street View इमेज पुनः प्राप्ति
  • आउटपुट: संरचित इनपुट डेटासेट

M2. स्वचालित संकेत ट्यूनिंग (Automated Prompt Tuning)

  • भूमिका पीढ़ी: प्रासंगिक पेपर सारांश के आधार पर VLM पेशेवर भूमिका विवरण उत्पन्न करना
    संकेत टेम्पलेट:
    "आप निम्नलिखित क्षेत्रों में विशेषज्ञ हैं और यहां प्रदान किए गए पेपर सारांश के लेखक हैं: [पेपर सारांश]। प्रदर्शित विशेषज्ञता के आधार पर, अपने बारे में एक सामान्य पेशेवर भूमिका विवरण उत्पन्न करें एक से दो वाक्यों में, 'आप हैं' से शुरू करते हुए दूसरे व्यक्ति में लिखा गया।"
    
  • कार्य वर्गीकरण: व्यक्तिपरक धारणा कार्य बनाम वस्तुनिष्ठ पहचान कार्य में अंतर करना
    वर्गीकरण संकेत:
    "आप एनोटेशन कार्यों के वर्गीकारक हैं... यदि यह समग्र स्थिति या गुणवत्ता को रेट/मूल्यांकन करने के लिए कहता है, तो 'धारणा' के रूप में लेबल करें। यदि यह विशिष्ट वस्तुओं का पता लगाने, गिनती या सत्यापन के लिए कहता है, तो 'object_detection' के रूप में लेबल करें।"
    
  • कोडिंग मैनुअल प्रसंस्करण: प्रश्न-उत्तर जोड़ी को संरचित संकेत में परिवर्तित करना

M3. दृश्य भाषा मॉडल प्रोसेसर (VLM Processor)

  • मॉडल चयन: ओपन-सोर्स हल्के VLM InternVL3-2B का उपयोग करना
    • इमेज एनकोडर: InternViT-300M-448px-V2_5
    • भाषा मॉडल: Qwen2.5-1.5B
  • प्रसंस्करण प्रवाह:
    1. इमेज एनकोडिंग और एम्बेडिंग
    2. M2 द्वारा उत्पन्न संकेत के साथ संयोजन
    3. संदर्भ सीखने के लिए उदाहरण इमेज-उत्तर जोड़ी का उपयोग
    4. पर्यावरणीय विशेषता मूल्यांकन उत्पन्न करना

M4. प्रतिक्रिया प्रदाता (Feedback Provider)

  • व्याख्या पीढ़ी: VLM मूल्यांकन के लिए तर्क व्याख्या प्रदान करना
  • व्याख्यात्मकता: शोधकर्ताओं को AI एजेंट की निर्णय प्रक्रिया को समझने में सहायता करना
  • उदाहरण: 'Decay 1' माप की व्याख्या: "केवल मामूली दरारें हैं, और कोई भी गड्ढे मौजूद हैं तो उन्हें ठीक किया गया है या ढका गया है"

तकनीकी नवाचार बिंदु

  1. डोमेन ज्ञान एकीकरण: भूमिका संकेत के माध्यम से सामाजिक विज्ञान विशेषज्ञता को VLM में एम्बेड करना
  2. कार्य आत्म-अनुकूलन: विभिन्न प्रकार के मूल्यांकन कार्यों (धारणा बनाम पहचान) की स्वचालित रूप से पहचान और अनुकूलन करना
  3. संदर्भ सीखना: विशेषज्ञ एनोटेशन उदाहरणों का उपयोग करके मॉडल प्रदर्शन में सुधार करना
  4. मानव-मशीन सहयोग डिजाइन: मानव कोडर प्रशिक्षण प्रक्रिया का अनुकरण करना, जिसमें साहित्य अध्ययन, प्रोटोकॉल अनुसंधान, उदाहरण जांच शामिल है

केस स्टडी

अनुसंधान पृष्ठभूमि

पास्को और व्हाइट (2020) के पारिवारिक सामाजिक विज्ञान अनुसंधान पर आधारित:

  • अनुसंधान लक्ष्य: पड़ोस पर्यावरण और किशोर नस्लीय लेबलिंग उपयोग के बीच संबंध का मूल्यांकन
  • विधि: व्यवस्थित सामाजिक अवलोकन (SSO) प्रोटोकॉल का उपयोग करके मानव कोडर को प्रशिक्षित करना
  • मूल्यांकन सामग्री: भौतिक क्षय की डिग्री, सामाजिक-सांस्कृतिक प्रतीक आदि
  • सत्यापन विधि: अंतर-कोडर विश्वसनीयता का मूल्यांकन करने के लिए इनट्राक्लास सहसंबंध गुणांक (ICC) का उपयोग

StreetLens अनुप्रयोग

  • अतिरिक्त बुद्धिमान कोडर के रूप में मूल्यांकन प्रक्रिया में भाग लेना
  • VLM भूमिका परिभाषित करने के लिए प्रासंगिक अनुसंधान साहित्य का उपयोग
  • कोडिंग मैनुअल में विशिष्ट प्रश्नों (जैसे "Disorder 3") को संभालना
  • व्याख्यात्मक मूल्यांकन परिणाम प्रदान करना

प्रायोगिक सेटअप

डेटा स्रोत

  • स्ट्रीट व्यू इमेज: Google Street View इमेज
  • भौगोलिक डेटा: अमेरिकी जनगणना TIGER सड़क डेटा
  • नमूनाकरण रणनीति: 5 मीटर अंतराल पूर्वनिर्धारित बिंदु स्थान
  • केस डेटा: मूल केस स्टडी से मानव एनोटेशन डेटा

तकनीकी कार्यान्वयन

  • तैनाती मंच: Google Colab नोटबुक
  • सर्वर: मिनेसोटा विश्वविद्यालय, Cloudflare के माध्यम से जुड़ा हुआ
  • उपयोगकर्ता इंटरफेस: मॉड्यूलर बटन डिजाइन, प्रत्येक मॉड्यूल कार्यक्षमता के अलग-अलग अन्वेषण का समर्थन करता है

संबंधित कार्य

परंपरागत विधि विकास

  1. प्रारंभिक अनुसंधान: सैम्पसन और रॉडेनबुश (1999) ने शिकागो की 23,000 सड़क खंडों की भौतिक अव्यवस्था का मूल्यांकन करने के लिए वीडियो का उपयोग किया
  2. आभासी ऑडिट: बाद के अनुसंधान ने दूरस्थ मूल्यांकन के लिए Google Earth और Street View को अपनाया
  3. कंप्यूटर दृष्टि विधियां: शहरी हरियाली, फुटपाथ गुणवत्ता आदि भौतिक विशेषताओं का पता लगाना

VLM अनुप्रयोग वर्तमान स्थिति

  • पैदल यात्रा क्षमता मूल्यांकन: शहरी पैदल यात्रा अनुकूलता का मूल्यांकन करने के लिए VLM का उपयोग
  • संरचित विवरण: शहरी पर्यावरण के संरचित विवरण उत्पन्न करना
  • वस्तु पहचान: ऑडिट श्रेणियों में विशिष्ट वस्तुओं का पता लगाना

StreetLens लाभ

मौजूदा कार्य की तुलना में, StreetLens प्रदान करता है:

  • एंड-टू-एंड शोधकर्ता-केंद्रित वर्कफ़्लो
  • VLM प्रशिक्षण प्रक्रिया का व्यवस्थित अनुकरण
  • अनुसंधान डिजाइन और भौगोलिक संदर्भ में अनुकूलन क्षमता

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. वर्कफ़्लो प्रभावशीलता: StreetLens ने मानव कोडर की प्रशिक्षण और मूल्यांकन प्रक्रिया को सफलतापूर्वक अनुकरण किया
  2. डोमेन ज्ञान एकीकरण: भूमिका संकेत के माध्यम से सामाजिक विज्ञान विशेषज्ञता को प्रभावी ढंग से एकीकृत किया
  3. स्केलेबिलिटी सुधार: पड़ोस पर्यावरणीय मूल्यांकन की स्केल करने की क्षमता में उल्लेखनीय सुधार
  4. मानव-मशीन सहयोग: AI और शोधकर्ता के बीच प्रभावी सहयोग प्राप्त किया

सीमाएं

  1. मॉडल पूर्वाग्रह: VLM विविध पड़ोस के सामाजिक-सांस्कृतिक संदर्भ की व्याख्या में पूर्वाग्रह हो सकता है
  2. मूल्यांकन सत्यापन: स्वचालित कोडिंग की विश्वसनीयता को सत्यापित करने के लिए अधिक व्यवस्थित मूल्यांकन विधि (जैसे ICC) की आवश्यकता है
  3. प्रतिक्रिया तंत्र: वर्तमान प्रतिक्रिया लूप सीमित है, अधिक इंटरैक्टिव सुधार सुविधाओं की आवश्यकता है

भविष्य की दिशा

  1. मानव-मशीन इंटरैक्शन वृद्धि:
    • शोधकर्ताओं को StreetLens निर्णयों की व्याख्या और सुधार करने के लिए प्रतिक्रिया लूप जोड़ना
    • विभिन्न प्रकार के स्वचालित कोडर की खोज करना
    • मानव कोडिंग के करीब स्वचालित विधियां विकसित करना
  2. मूल्यांकन विधि सुधार:
    • स्वचालित कोडर को मानव एनोटेटर के रूप में मानते हुए इनट्राक्लास सहसंबंध गुणांक (ICC) का उपयोग करना
    • आउटपुट की तर्कसंगतता और विश्वसनीयता की निगरानी के लिए प्रतिक्रिया तंत्र प्रदान करना
    • परिणाम समीक्षा और सुधार की सुविधा बढ़ाना
  3. पूर्वाग्रह शमन:
    • संभावित पूर्वाग्रह स्रोतों का मूल्यांकन करना
    • डोमेन विशेषज्ञों के साथ सहयोग के लिए भागीदारी डिजाइन विधियां लागू करना
    • उपकरण की जिम्मेदार और मानव-केंद्रित विशेषता सुनिश्चित करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: पहली बार मानव कोडर प्रशिक्षण प्रक्रिया का व्यवस्थित अनुकरण करने वाली VLM वर्कफ़्लो प्रस्तावित करना
  2. उच्च व्यावहारिक मूल्य: पड़ोस अनुसंधान में वास्तविक दर्द बिंदुओं को हल करना, व्यापक अनुप्रयोग संभावना
  3. तर्कसंगत तकनीकी समाधान: स्पष्ट चार-मॉड्यूल डिजाइन, व्यवहार्य तकनीकी मार्ग
  4. ओपन-सोर्स अनुकूल: Google Colab कार्यान्वयन प्रदान करना, उपयोग बाधा को कम करना
  5. अंतःविषय एकीकरण: AI तकनीक और सामाजिक विज्ञान पद्धति को प्रभावी ढंग से संयोजित करना

कमियां

  1. अपर्याप्त मूल्यांकन: मानव कोडर के साथ व्यवस्थित तुलनात्मक प्रयोग की कमी
  2. पूर्वाग्रह जोखिम: सामाजिक-सांस्कृतिक व्याख्या में VLM पूर्वाग्रह समस्या पर पर्याप्त चर्चा नहीं
  3. सामान्यीकरण क्षमता अपरीक्षित: केवल एक केस स्टडी पर आधारित, बहु-परिदृश्य सत्यापन की कमी
  4. तकनीकी विवरण अपर्याप्त: संकेत इंजीनियरिंग की विशिष्ट रणनीति और प्रभाव विश्लेषण सीमित

प्रभाव

  1. शैक्षणिक योगदान: मानव-मशीन सहयोग के भूगोल-स्थानिक कंप्यूटिंग के लिए नया प्रतिमान प्रदान करना
  2. व्यावहारिक मूल्य: पड़ोस अनुसंधान की दक्षता और स्केल को महत्वपूर्ण रूप से बढ़ा सकता है
  3. अंतः-क्षेत्र प्रभाव: शहरी नियोजन, सार्वजनिक स्वास्थ्य, समाजशास्त्र आदि क्षेत्रों में अनुप्रयोग मूल्य
  4. पद्धति नवाचार: डोमेन-विशिष्ट कार्यों में VLM अनुप्रयोग के लिए संदर्भ ढांचा प्रदान करना

लागू परिदृश्य

  1. शहरी अनुसंधान: बड़े पैमाने पर पड़ोस पर्यावरणीय विशेषता मूल्यांकन
  2. सार्वजनिक स्वास्थ्य: पर्यावरणीय कारकों के स्वास्थ्य प्रभाव पर अनुसंधान
  3. समाजशास्त्र अनुसंधान: सामुदायिक विशेषताओं और सामाजिक घटनाओं के संबंध विश्लेषण
  4. शहरी नियोजन: दृश्य विशेषताओं के आधार पर शहरी पर्यावरण मूल्यांकन

नैतिक विचार

पेपर स्पष्ट रूप से मशीन लर्निंग मॉडल में संभावित सामाजिक पूर्वाग्रह समस्या को स्वीकार करता है, विशेष रूप से विविध पड़ोस के सामाजिक-सांस्कृतिक संदर्भ की व्याख्या में। लेखक भविष्य के कार्य में संभावित पूर्वाग्रह स्रोतों का मूल्यांकन करने और डोमेन विशेषज्ञों के साथ सहयोग करके भागीदारी डिजाइन विधियां लागू करने की योजना बनाते हैं, ताकि StreetLens एक जिम्मेदार मानव-केंद्रित उपकरण के रूप में कार्य करे।

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों को उद्धृत करता है, जिनमें शामिल हैं:

  • पड़ोस पर्यावरण मूल्यांकन का शास्त्रीय अनुसंधान (सैम्पसन और रॉडेनबुश, 1999)
  • आभासी ऑडिट विधि का विकास (ओडगर्स एट अल., 2012; क्लार्क एट अल., 2010)
  • शहरी विश्लेषण में VLM अनुप्रयोग (बिलजेकी और इटो, 2021)
  • संकेत इंजीनियरिंग तकनीकें (शुलहॉफ एट अल., 2025)

सारांश: StreetLens AI और सामाजिक विज्ञान अनुसंधान विधि के संलयन में महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, व्यवस्थित वर्कफ़्लो डिजाइन के माध्यम से पड़ोस पर्यावरणीय मूल्यांकन के स्वचालन और स्केलिंग को प्राप्त करता है। यद्यपि मूल्यांकन सत्यापन और पूर्वाग्रह हैंडलिंग के पहलुओं में आगे सुधार की आवश्यकता है, लेकिन इसका नवीन मानव-मशीन सहयोग विचार और व्यावहारिक तकनीकी समाधान संबंधित क्षेत्र अनुसंधान के लिए मूल्यवान उपकरण और पद्धति संदर्भ प्रदान करते हैं।