2025-11-25T02:07:24.751943

Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents

Zheng, Shan

Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.

academic

नियोजन पूर्वाग्रह को उजागर करना: ऑनलाइन फ्रीलांस बाजारों में पूर्वाग्रह पर प्लेटफॉर्म डेटा विश्लेषण और नियंत्रित प्रयोग RAG-LLM जनित सामग्री के माध्यम से

मूल जानकारी

पेपर ID: 2510.13091
शीर्षक: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
लेखक: Wugeng Zheng, Guohou Shan (Northeastern University)
वर्गीकरण: cs.HC (मानव-कंप्यूटर अंतःक्रिया)
प्रकाशन सम्मेलन: ACM Conference on Intelligent User Interfaces 2026
पेपर लिंक: https://arxiv.org/abs/2510.13091

सारांश

ऑनलाइन फ्रीलांस बाजार वैश्विक श्रम बाजार के तेजी से बढ़ते हिस्से के रूप में, सैद्धांतिक रूप से एक ऐसा निष्पक्ष वातावरण बनाना चाहिए जहां व्यावसायिक कौशल नियोजन का मुख्य कारक हो। हालांकि, उपयोगकर्ता प्रोफाइल में व्यक्तिगत जानकारी निरंतर भेदभाव की चिंताएं उठाती है। यह पेपर एक नवीन दृष्टिकोण प्रस्तुत करता है जो नियंत्रित प्रयोगों के लिए यथार्थवादी कृत्रिम फ्रीलांसर प्रोफाइल बनाने के लिए पुनर्प्राप्ति-संवर्धित जनन (RAG) और बड़े भाषा मॉडल (LLM) का उपयोग करता है। अनुसंधान परिणाम दर्शाते हैं कि लिंग के संदर्भ में, हालांकि प्रारंभिक नियोजन निर्णयों में कोई महत्वपूर्ण वरीयता नहीं है, महिला फ्रीलांसर परियोजना पूरी होने के बाद अपूर्ण रेटिंग प्राप्त करने की अधिक संभावना रखती हैं। क्षेत्रीय पूर्वाग्रह के संदर्भ में, अमेरिकी फ्रीलांसर मजबूत और सुसंगत लाभ प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: क्या ऑनलाइन फ्रीलांस प्लेटफॉर्म वास्तव में नियोजन पूर्वाग्रह को समाप्त करने का लक्ष्य प्राप्त करते हैं, और इन पूर्वाग्रहों को सटीक रूप से कैसे मापा और विश्लेषण किया जाए।
महत्व:
- ऑनलाइन फ्रीलांस बाजार COVID-19 के बाद तेजी से विकसित हुआ है, यूरोप और अमेरिका में 20-30% कार्यशील आयु की जनसंख्या स्वतंत्र कार्य में भाग लेती है
- ये प्लेटफॉर्म सैद्धांतिक रूप से व्यक्तिगत पृष्ठभूमि के बजाय कौशल के आधार पर मूल्यांकन करना चाहिए
- उपयोगकर्ता प्रोफाइल में व्यक्तिगत रूप से पहचाने जाने योग्य जानकारी जानबूझकर या अनजाने में पूर्वाग्रह का कारण बन सकती है
मौजूदा विधि की सीमाएं:
- पारंपरिक अनुसंधान मुख्य रूप से अवलोकनात्मक डेटा विश्लेषण पर निर्भर करते हैं, जिससे भ्रामक चर को नियंत्रित करना मुश्किल है
- फ्रीलांसर के कौशल, शिक्षा पृष्ठभूमि, परियोजना अनुभव आमतौर पर जनसांख्यिकीय विशेषताओं (लिंग, जाति) के साथ जुड़े होते हैं
- इन चर को सांख्यिकीय रूप से नियंत्रित करने के लिए बड़े पैमाने पर डेटासेट एकत्र करना महत्वपूर्ण चुनौतियों का सामना करता है
अनुसंधान प्रेरणा: एक नई प्रायोगिक विधि विकसित करना जो चर को कठोरता से नियंत्रित कर सके, और नियोजन निर्णयों पर विशिष्ट जनसांख्यिकीय कारकों के स्वतंत्र प्रभाव को सटीक रूप से अलग और मापने में सक्षम हो।

मुख्य योगदान

पद्धतिगत नवाचार: नियोजन पूर्वाग्रह नियंत्रित प्रयोगों के लिए उच्च-नियंत्रित संश्लेषित डेटा उत्पन्न करने के लिए पहली बार RAG-LLM ढांचे का उपयोग, पारंपरिक अवलोकनात्मक डेटा में भ्रामक कारकों की चुनौतियों को दूर करना।
बहु-चरणीय पूर्वाग्रह विश्लेषण: नियोजन-पूर्व चरण (उपयोगकर्ता अनुसंधान के माध्यम से) और परियोजना-पश्चात मूल्यांकन चरण (वास्तविक-विश्व डेटा का उपयोग करके) को कवर करने वाली एक व्यापक विश्लेषण ढांचा प्रस्तावित करना, जो केवल परियोजना-पश्चात डेटा तक सीमित अनुसंधान की तुलना में अधिक पूर्ण दृष्टिकोण प्रदान करता है।
सटीक चर नियंत्रण: RAG-LLM द्वारा उत्पन्न प्रोफाइल के माध्यम से सटीक चर अलगाव प्राप्त करना, जो विशिष्ट अनुसंधान चर को छोड़कर लगभग समान उम्मीदवार प्रोफाइल बनाने में सक्षम है।
अनुभवजन्य निष्कर्ष: लिंग और क्षेत्रीय पूर्वाग्रह के विभिन्न चरणों में विभिन्न अभिव्यक्ति पैटर्न को उजागर करना, ऑनलाइन बाजार भेदभाव तंत्र को समझने के लिए नई अंतर्दृष्टि प्रदान करना।

विधि विवरण

कार्य परिभाषा

इनपुट: फ्रीलांस प्लेटफॉर्म का वास्तविक उपयोगकर्ता डेटा और विशिष्ट जनसांख्यिकीय चर नियंत्रण आवश्यकताएं आउटपुट: उच्च-नियंत्रित संश्लेषित फ्रीलांसर प्रोफाइल, नियोजन निर्णयों पर विशिष्ट चर के प्रभाव को मापने के लिए बाधाएं: उत्पन्न प्रोफाइल कौशल, अनुभव, रेटिंग आदि में अत्यधिक समान होना चाहिए, केवल अनुसंधान चर (जैसे लिंग, क्षेत्र) में अंतर होना चाहिए

मॉडल आर्किटेक्चर

1. डेटा अधिग्रहण और प्रसंस्करण

डेटा स्रोत: Freelancer.com से 12,799 फ्रीलांसर प्रोफाइल स्क्रैप किए गए
डेटा पूर्व-प्रसंस्करण:
- लिंग वर्गीकरण के लिए Huggingface पूर्व-प्रशिक्षित चेहरा पहचान मॉडल का उपयोग (आत्मविश्वास थ्रेशोल्ड 0.75)
- भारत और अमेरिका के फ्रीलांसर पर ध्यान केंद्रित (डेटासेट में सबसे प्रतिनिधि दो देश)
- उपयोगकर्ता नाम, उपयोगकर्ता ID, सत्यापन बैज, समग्र रेटिंग, प्रोफाइल टैगलाइन आदि विशेषताएं निकालना

2. RAG-LLM पाइपलाइन

वेक्टरकरण: Huggingface एम्बेडिंग मॉडल का उपयोग करके प्रसंस्कृत डेटा को वेक्टरकृत करना, ज्ञान आधार का निर्माण करना
मुख्य मॉडल: Qwen/QwQ-32B बड़े भाषा मॉडल को अपनाना
जनन प्रक्रिया:
1. पुनर्प्राप्ति: ज्ञान आधार से सबसे समान प्रोफाइल को संदर्भ के रूप में पुनः प्राप्त करना
2. संवर्धन: पुनः प्राप्त दस्तावेजों को LLM संदर्भ में जोड़ना
3. जनन: संवर्धित प्रॉम्प्ट के आधार पर सुसंगत और वास्तविक-विश्व डेटा के साथ सुसंगत प्रोफाइल उत्पन्न करना

3. प्रायोगिक प्लेटफॉर्म

तकनीकी स्टैक: इंटरैक्टिव वेब पेज बनाने के लिए Flask का उपयोग
कार्य डिजाइन:
- फ्रीलांसर तुलना कार्य: दो प्रोफाइल को साथ-साथ प्रदर्शित करना, उपयोगकर्ता से पसंदीदा नियोजन उम्मीदवार चुनने के लिए कहना
- टिप्पणी तुलना कार्य: संबंधित टिप्पणी जानकारी प्रदर्शित करना और प्रश्नों का उत्तर देना
डेटा संग्रह: उपयोगकर्ता चयन और इंटरैक्शन डेटा रिकॉर्ड करना

4. प्रतिभागी भर्ती

प्लेटफॉर्म: Amazon Mechanical Turk (MTurk) के माध्यम से प्रतिभागियों की भर्ती
गुणवत्ता नियंत्रण: ध्यान जांच प्रश्न शामिल करना, जांच पास न करने वाली प्रस्तुतियों को फ़िल्टर करना

तकनीकी नवाचार बिंदु

सटीक चर नियंत्रण: पारंपरिक विधि की तुलना में, RAG-LLM ढांचा सभी विशेषताओं में अत्यधिक समान प्रोफाइल जोड़ी उत्पन्न कर सकता है, केवल अनुसंधान चर में अंतर के साथ, जिससे पहले कभी न देखे गए प्रायोगिक नियंत्रण सटीकता प्राप्त होती है।
वास्तविकता आश्वासन: RAG तंत्र के माध्यम से, उत्पन्न प्रोफाइल वास्तविक डेटा पर आधारित हैं, शुद्ध मानव-लिखित प्रोफाइल से उत्पन्न अवास्तविकता और असंगति समस्याओं से बचना।
दक्षता वृद्धि: प्रत्येक प्रोफाइल को मैन्युअल रूप से लिखने के लिए 10-15 मिनट की तुलना में, RAG-LLM विधि जनन दक्षता में काफी वृद्धि करती है, जबकि गुणवत्ता सुनिश्चित करती है।

प्रायोगिक सेटअप

डेटासेट

आकार: 12,799 वास्तविक फ्रीलांसर प्रोफाइल
स्रोत: Freelancer.com प्लेटफॉर्म
विशेषताएं: उपयोगकर्ता नाम, ID, सत्यापन स्थिति, रेटिंग, टिप्पणी संख्या, देश, AI अनुमानित लिंग
संश्लेषित डेटा: उपयोगकर्ता अनुसंधान के लिए 1,980 उच्च-नियंत्रित प्रोफाइल जोड़ी उत्पन्न करना

मूल्यांकन मेट्रिक्स

नियोजन वरीयता: प्रोफाइल चयन संभावना और जीत दर
नेतृत्व धारणा: अधिक नेतृत्व के रूप में चुने जाने की संभावना
रेटिंग पूर्वाग्रह: गैर-5-सितारा रेटिंग प्राप्त करने की संभावना (लॉजिस्टिक प्रतिगमन का उपयोग करके)
टिप्पणी संख्या: प्राप्त टिप्पणियों की संख्या (नकारात्मक द्विपद प्रतिगमन का उपयोग करके)

तुलना विधियां

पारंपरिक अवलोकनात्मक डेटा विश्लेषण विधि
सांख्यिकीय प्रतिगमन विश्लेषण (इंटरैक्शन शर्तों के साथ और बिना)

कार्यान्वयन विवरण

आत्मविश्वास थ्रेशोल्ड: लिंग वर्गीकरण मॉडल आत्मविश्वास > 0.75
सांख्यिकीय विधि: लॉजिस्टिक प्रतिगमन, नकारात्मक द्विपद प्रतिगमन, ची-स्क्वायर परीक्षण
महत्व स्तर: p<0.05, p<0.01, p<0.001

प्रायोगिक परिणाम

मुख्य परिणाम

1. नियोजन निर्णय विश्लेषण

क्षेत्रीय पूर्वाग्रह: अमेरिकी फ्रीलांसर भारतीय फ्रीलांसर के सापेक्ष महत्वपूर्ण लाभ रखते हैं
- अमेरिकी पुरुष जीत दर: 1.212 (95% CI: 1.066, 1.375, p=0.003)
- अमेरिकी महिला जीत दर: 1.158 (95% CI: 1.020, 1.315, p=0.025)
- भारतीय पुरुष जीत दर: 0.767 (95% CI: 0.678, 0.869, p<0.001)
लिंग पूर्वाग्रह: एक ही देश के भीतर, लिंग अंतर महत्वपूर्ण नहीं है (p>0.3)

2. नेतृत्व धारणा विश्लेषण

मजबूत क्षेत्रीय पूर्वाग्रह:
- अमेरिकी पुरुष बनाम भारतीय पुरुष: OR=2.014 (p<0.001)
- अमेरिकी महिला बनाम भारतीय महिला: OR=1.934 (p<0.001)
अमेरिकी उम्मीदवार समग्र लाभ: दोनों लिंगों के अमेरिकी उम्मीदवार नेता के रूप में काफी अधिक चुने जाते हैं

3. परियोजना-पश्चात मूल्यांकन विश्लेषण

लिंग पूर्वाग्रह: महिला फ्रीलांसर गैर-पूर्ण रेटिंग प्राप्त करने की संभावना 51.2% अधिक है (OR=1.512, p<0.001)
क्षेत्रीय पूर्वाग्रह: अमेरिकी फ्रीलांसर गैर-पूर्ण रेटिंग प्राप्त करने की संभावना 37.9% कम है (OR=0.621, p=0.019)

4. टिप्पणी संख्या विश्लेषण

इंटरैक्शन प्रभाव महत्वपूर्ण: टिप्पणी संख्या पर लिंग का प्रभाव देश पर निर्भर करता है (p=0.031)
- भारतीय महिलाएं भारतीय पुरुषों की तुलना में 24% अधिक टिप्पणी प्राप्त करती हैं (IRR=1.237)
- अमेरिकी महिलाएं अमेरिकी पुरुषों की तुलना में 22% कम टिप्पणी प्राप्त करती हैं

विलोपन प्रयोग

पेपर इंटरैक्शन शर्तों को शामिल करने और न करने वाले मॉडल की तुलना के माध्यम से, क्षेत्र और लिंग कारकों के स्वतंत्र कार्य और उनके इंटरैक्शन प्रभाव को सत्यापित करता है।

प्रायोगिक निष्कर्ष

चरणीय अंतर: लिंग पूर्वाग्रह नियोजन चरण में महत्वपूर्ण नहीं है, लेकिन मूल्यांकन चरण में महत्वपूर्ण है; क्षेत्रीय पूर्वाग्रह दोनों चरणों में महत्वपूर्ण और सुसंगत है।
क्षेत्रीय पूर्वाग्रह की सर्वव्यापकता: अमेरिकी फ्रीलांसर चयन, नेतृत्व धारणा और रेटिंग में व्यवस्थित लाभ का आनंद लेते हैं।
लिंग पूर्वाग्रह की जटिलता: महिलाएं काम के अवसर प्राप्त करने में नुकसान में नहीं हैं, लेकिन कार्य मूल्यांकन में अधिक कठोर मानकों का सामना करती हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पद्धतिगत सफलता: RAG-LLM ढांचा उच्च सटीकता चर नियंत्रण को सफलतापूर्वक प्राप्त करता है, ऑनलाइन पूर्वाग्रह अनुसंधान के लिए नई पद्धतिगत उपकरण प्रदान करता है।
लिंग पूर्वाग्रह की चरणीय विशेषता: महिलाएं नियोजन चरण में महत्वपूर्ण नुकसान का सामना नहीं करती हैं, लेकिन परियोजना पूरी होने के बाद के मूल्यांकन में अधिक कठोर निर्णय मानकों का सामना करती हैं।
क्षेत्रीय पूर्वाग्रह की व्यवस्थितता: अमेरिकी फ्रीलांसर नियोजन चयन से अंतिम मूल्यांकन तक पूरी प्रक्रिया में लाभ का आनंद लेते हैं, जो गहरे सांस्कृतिक पूर्वाग्रह और रूढ़िवाद को दर्शाता है।

सीमाएं

भौगोलिक दायरा सीमा: अनुसंधान मुख्य रूप से अमेरिकी और भारतीय फ्रीलांसर पर केंद्रित है, वैश्विक स्थिति का पूरी तरह से प्रतिनिधित्व नहीं कर सकता है।
प्लेटफॉर्म विशिष्टता: केवल Freelancer.com के डेटा पर आधारित, विभिन्न प्लेटफॉर्म में विभिन्न पूर्वाग्रह पैटर्न हो सकते हैं।
समय सीमा: अनुसंधान एक विशिष्ट समय बिंदु पर पूर्वाग्रह स्थिति को दर्शाता है, समय के साथ परिवर्तन हो सकता है।
प्रतिभागी प्रतिनिधित्व: MTurk प्रतिभागी वास्तविक नियोक्ता समूह का पूरी तरह से प्रतिनिधित्व नहीं कर सकते हैं।

भविष्य की दिशाएं

क्रॉस-प्लेटफॉर्म सत्यापन: कई फ्रीलांस प्लेटफॉर्म पर अनुसंधान निष्कर्षों की सार्वभौमिकता को सत्यापित करना।
अनुदैर्ध्य अनुसंधान: समय के साथ पूर्वाग्रह परिवर्तन प्रवृत्तियों को ट्रैक करना।
हस्तक्षेप उपाय: अनुसंधान निष्कर्षों के आधार पर पूर्वाग्रह कम करने के लिए प्लेटफॉर्म डिजाइन हस्तक्षेप उपाय तैयार और परीक्षण करना।
जनसांख्यिकीय विस्तार: आयु, शिक्षा पृष्ठभूमि आदि जैसे अधिक जनसांख्यिकीय आयाम शामिल करना।

गहन मूल्यांकन

शक्तियां

विधि नवाचार मजबूत: RAG-LLM नियंत्रित प्रायोगिक डेटा उत्पन्न करने की विधि अग्रणी है, सामाजिक विज्ञान प्रायोगिक अनुसंधान के लिए नई उपकरण प्रदान करती है।
प्रायोगिक डिजाइन कठोर: बहु-चरणीय विश्लेषण डिजाइन व्यापक है, नियोजन-पूर्व निर्णय और परियोजना-पश्चात मूल्यांकन दोनों पर विचार करता है।
सांख्यिकीय विश्लेषण पर्याप्त: उपयुक्त सांख्यिकीय विधियों का उपयोग, इंटरैक्शन प्रभाव विश्लेषण शामिल, परिणाम सांख्यिकीय रूप से महत्वपूर्ण हैं।
व्यावहारिक महत्व महत्वपूर्ण: अनुसंधान निष्कर्ष ऑनलाइन श्रम बाजार निष्पक्षता को समझने के लिए महत्वपूर्ण नीति निहितार्थ रखते हैं।
तकनीकी कार्यान्वयन पूर्ण: डेटा संग्रह से प्रायोगिक प्लेटफॉर्म निर्माण तक, तकनीकी मार्ग स्पष्ट और पूर्ण है।

कमियां

नमूना आकार अपेक्षाकृत सीमित: हालांकि 12,799 प्रोफाइल शामिल हैं, उपयोगकर्ता अनुसंधान प्रतिभागियों का आकार आगे विस्तार की आवश्यकता हो सकती है।
सांस्कृतिक कारक विश्लेषण अपर्याप्त: क्षेत्रीय पूर्वाग्रह की व्याख्या मुख्य रूप से अनुमान पर आधारित है, सांस्कृतिक और मनोवैज्ञानिक तंत्र विश्लेषण की कमी है।
दीर्घकालीन प्रभाव अज्ञात: अनुसंधान अनुप्रस्थ है, पूर्वाग्रह की गतिशील परिवर्तन को उजागर नहीं कर सकता है।
जनन गुणवत्ता सत्यापन: हालांकि उत्पन्न प्रोफाइल के मैनुअल समीक्षा का उल्लेख किया गया है, व्यवस्थित गुणवत्ता मूल्यांकन मेट्रिक्स की कमी है।

प्रभाव

शैक्षणिक योगदान: HCI और सामाजिक कंप्यूटिंग क्षेत्र के लिए नई अनुसंधान प्रतिमान प्रदान करता है, व्यापक उद्धरण और अनुप्रयोग की अपेक्षा है।
व्यावहारिक मूल्य: अनुसंधान निष्कर्ष प्लेटफॉर्म डिजाइन सुधार का मार्गदर्शन कर सकते हैं, अधिक निष्पक्ष ऑनलाइन श्रम बाजार को बढ़ावा दे सकते हैं।
पुनरुत्पादनशीलता: पद्धति स्पष्ट है, तकनीकी कार्यान्वयन पुनरुत्पादनीय है, बाद के अनुसंधान सत्यापन और विस्तार के लिए अनुकूल है।
अंतःविषय प्रभाव: AI तकनीक और सामाजिक विज्ञान अनुसंधान को जोड़ता है, अंतःविषय अनुसंधान के मूल्य को प्रदर्शित करता है।

लागू परिदृश्य

ऑनलाइन प्लेटफॉर्म पूर्वाग्रह अनुसंधान: अन्य प्रकार के ऑनलाइन बाजार और प्लेटफॉर्म तक विस्तारित किया जा सकता है।
एल्गोरिथम निष्पक्षता मूल्यांकन: AI सिस्टम की निष्पक्षता परीक्षण के लिए नई डेटा जनन विधि प्रदान करता है।
नीति निर्माण समर्थन: श्रम बाजार निष्पक्षता नीति निर्माण के लिए अनुभवजन्य साक्ष्य प्रदान करता है।
प्लेटफॉर्म डिजाइन अनुकूलन: ऑनलाइन प्लेटफॉर्म के उपयोगकर्ता इंटरफेस और सिफारिश एल्गोरिथम डिजाइन का मार्गदर्शन करता है।

संदर्भ

पेपर ऑनलाइन बाजार भेदभाव, मशीन लर्निंग अनुप्रयोग, मानव-कंप्यूटर अंतःक्रिया आदि कई क्षेत्रों के महत्वपूर्ण अनुसंधान को कवर करते हुए 35 संबंधित साहित्य का हवाला देता है, इस अनुसंधान के लिए ठोस सैद्धांतिक आधार और पद्धतिगत समर्थन प्रदान करता है।

समग्र मूल्यांकन: यह पद्धति पर महत्वपूर्ण नवाचार के साथ उच्च गुणवत्ता का अनुसंधान पत्र है। RAG-LLM तकनीक के माध्यम से सटीक चर नियंत्रण प्राप्त करके, ऑनलाइन पूर्वाग्रह अनुसंधान के लिए नया मार्ग खोलता है। अनुसंधान निष्कर्ष महत्वपूर्ण सैद्धांतिक और व्यावहारिक महत्व रखते हैं, ऑनलाइन श्रम बाजार निष्पक्षता को बढ़ावा देने में सकारात्मक भूमिका निभाते हैं। कुछ सीमाओं के बावजूद, यह समग्र रूप से इस क्षेत्र का महत्वपूर्ण योगदान है।