Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.
academic- معرّف الورقة البحثية: 2510.13091
- العنوان: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
- المؤلفون: Wugeng Zheng, Guohou Shan (جامعة نورثيسترن)
- التصنيف: cs.HC (التفاعل بين الإنسان والحاسوب)
- المؤتمر المنشور فيه: مؤتمر ACM حول واجهات المستخدم الذكية 2026
- رابط الورقة: https://arxiv.org/abs/2510.13091
تمثل أسواق العمل الحر عبر الإنترنت جزءاً سريع النمو من سوق العمل العالمي، وتفترض نظرياً أن تخلق بيئة عادلة حيث تكون المهارات المهنية هي العامل الأساسي في قرارات التوظيف. ومع ذلك، فإن المعلومات الشخصية في ملفات المستخدمين تثير مخاوف من استمرار التمييز. تقترح هذه الورقة منهجاً مبتكراً باستخدام الاسترجاع المعزز للتوليد (RAG) مع نماذج اللغة الكبيرة (LLM) لإنشاء ملفات تعريف واقعية لعاملين حرين اصطناعيين لإجراء تجارب مضبوطة. تظهر النتائج أنه فيما يتعلق بالنوع الاجتماعي، على الرغم من عدم وجود تفضيل ملحوظ في قرارات التوظيف الأولية، فإن العاملات الحرات يتعرضن بشكل أكبر لتلقي تقييمات غير مثالية بعد إكمال المشروع. فيما يتعلق بالتحيز الجغرافي، يظهر العاملون الحرون من الولايات المتحدة ميزة قوية وثابتة.
- المشكلة الأساسية: هل تحقق منصات العمل الحر عبر الإنترنت فعلاً الهدف من القضاء على التحيز في التوظيف، وكيفية قياس وتحليل هذه التحيزات بدقة.
- الأهمية:
- شهدت أسواق العمل الحر عبر الإنترنت نمواً سريعاً بعد جائحة كوفيد-19، حيث يشارك فيها 20-30% من السكان في سن العمل في أوروبا وأمريكا
- تفترض هذه المنصات نظرياً أن تقيم الأفراد بناءً على المهارات وليس على الخلفية الشخصية
- قد تؤدي المعلومات القابلة للتعريف شخصياً في ملفات المستخدمين إلى تحيزات واعية أو غير واعية
- قيود الطرق الموجودة:
- يعتمد البحث التقليدي بشكل أساسي على تحليل البيانات الملاحظة، مما يصعب السيطرة على المتغيرات المربكة
- عادة ما تكون مهارات العاملين الحرين وخلفيتهم التعليمية وخبرة مشاريعهم متشابكة مع الخصائص الديموغرافية (النوع الاجتماعي، العرق)
- يواجه جمع مجموعات بيانات واسعة النطاق للسيطرة الإحصائية على هذه المتغيرات تحديات كبيرة
- دافع البحث: تطوير منهج تجريبي جديد يمكنه التحكم الصارم في المتغيرات، وفصل وقياس التأثير المستقل لعوامل ديموغرافية محددة على قرارات التوظيف بدقة.
- الابتكار المنهجي: استخدام إطار عمل RAG-LLM للمرة الأولى لتوليد بيانات اصطناعية محكومة بشكل صارم لإجراء تجارب مضبوطة حول التحيز في التوظيف، مما يتغلب على تحديات العوامل المربكة في البيانات الملاحظة التقليدية.
- تحليل التحيز متعدد المراحل: اقتراح إطار عمل تحليلي شامل يغطي المرحلة السابقة للتوظيف (من خلال دراسات المستخدمين) ومرحلة التقييم بعد المشروع (باستخدام البيانات الحقيقية)، مما يوفر منظوراً أكثر اكتمالاً من الدراسات المقتصرة على بيانات ما بعد المشروع.
- التحكم الدقيق في المتغيرات: تحقيق عزل دقيق للمتغيرات من خلال الملفات التي ينتجها RAG-LLM، مما يمكّن من إنشاء ملفات مرشحين متطابقة تقريباً في جميع الجوانب باستثناء متغيرات البحث المحددة.
- النتائج التجريبية: كشف أنماط مختلفة لتعبير التحيز على أساس النوع الاجتماعي والجغرافيا في مراحل مختلفة، مما يوفر رؤى جديدة لفهم آليات التمييز في الأسواق عبر الإنترنت.
المدخلات: بيانات المستخدمين الحقيقية من منصات العمل الحر والاحتياجات المحددة للتحكم في المتغيرات الديموغرافية
المخرجات: ملفات تعريف عاملين حرين اصطناعية محكومة بشكل عالي، لقياس تأثير متغيرات محددة على قرارات التوظيف
القيود: يجب أن تكون الملفات المُنتجة متشابهة بدرجة عالية من حيث المهارات والخبرة والتقييمات، مع وجود اختلافات فقط في متغيرات البحث (مثل النوع الاجتماعي والمنطقة الجغرافية)
- مصدر البيانات: استخراج 12,799 ملف تعريف عامل حر من Freelancer.com
- معالجة البيانات المسبقة:
- استخدام نموذج التعرف على الوجوه المدرب مسبقاً من Huggingface لتصنيف النوع الاجتماعي (عتبة الثقة 0.75)
- التركيز على العاملين الحرين من الهند والولايات المتحدة (أكثر دولتين تمثيلاً في مجموعة البيانات)
- استخراج خصائص مثل اسم المستخدم وهويته والشارات التحقق والتقييم الإجمالي والشعار الشخصي
- المتجهات: استخدام نموذج التضمين من Huggingface لتحويل البيانات المعالجة إلى متجهات وبناء قاعدة معارف
- النموذج الأساسي: استخدام نموذج اللغة الكبير Qwen/QwQ-32B
- عملية التوليد:
- الاسترجاع: استرجاع الملفات الأكثر تشابهاً من قاعدة المعارف كمراجع
- التعزيز: إضافة المستندات المسترجعة إلى سياق LLM
- التوليد: توليد ملفات متماسكة وتتوافق مع البيانات الحقيقية بناءً على المطالبات المعززة
- مجموعة التقنيات: استخدام Flask لبناء تطبيق ويب تفاعلي
- تصميم المهام:
- مهمة مقارنة العاملين الحرين: عرض ملفين جنباً إلى جنب، يطلب من المستخدمين اختيار المرشح الذي يفضلون توظيفه
- مهمة مقارنة التعليقات: عرض معلومات التعليقات ذات الصلة والإجابة على الأسئلة
- جمع البيانات: تسجيل اختيارات المستخدمين وبيانات التفاعل
- المنصة: تجنيد المشاركين من خلال Amazon Mechanical Turk (MTurk)
- ضمان الجودة: تضمين أسئلة فحص الانتباه لتصفية الإرسالات التي لم تجتز الفحص
- التحكم الدقيق في المتغيرات: مقارنة بالطرق التقليدية، يمكن لإطار عمل RAG-LLM توليد أزواج ملفات متشابهة بدرجة عالية في جميع الخصائص، مع وجود اختلافات فقط في متغيرات البحث، مما يحقق دقة تحكم تجريبية لم تُشهد من قبل.
- ضمان الواقعية: من خلال آلية RAG، تستند الملفات المُنتجة إلى بيانات حقيقية، مما يتجنب المشاكل المحتملة للكتابة اليدوية مثل عدم الواقعية والتناقضات.
- تحسين الكفاءة: مقارنة بالكتابة اليدوية لكل ملف التي تستغرق 10-15 دقيقة، يحسّن منهج RAG-LLM الكفاءة بشكل كبير مع ضمان الجودة.
- الحجم: 12,799 ملف تعريف عامل حر حقيقي
- المصدر: منصة Freelancer.com
- الخصائص: اسم المستخدم والهوية والحالة التحقق والتقييم وعدد التعليقات والدولة والنوع الاجتماعي المستنتج بالذكاء الاصطناعي
- البيانات الاصطناعية: توليد 1,980 زوج ملف محكوم بشكل عالي لدراسة المستخدمين
- تفضيل التوظيف: احتمالية اختيار الملف ومعدل الفوز
- إدراك القيادة: احتمالية الاختيار كشخص أكثر قيادة
- التحيز في التقييم: احتمالية تلقي تقييم غير 5 نجوم (باستخدام الانحدار اللوجستي)
- عدد التعليقات: عدد التعليقات المستلمة (باستخدام الانحدار ذي الحدين السالب)
- طريقة تحليل البيانات الملاحظة التقليدية
- تحليل الانحدار الإحصائي (مع وبدون حدود التفاعل)
- عتبة الثقة: ثقة نموذج تصنيف النوع الاجتماعي > 0.75
- الطرق الإحصائية: الانحدار اللوجستي والانحدار ذو الحدين السالب واختبار كاي تربيع
- مستويات الدلالة: p<0.05, p<0.01, p<0.001
- التحيز الجغرافي: العاملون الحرون من الولايات المتحدة لديهم ميزة ملحوظة مقابل نظرائهم من الهند
- معدل فوز الذكور الأمريكيين: 1.212 (95% CI: 1.066, 1.375, p=0.003)
- معدل فوز الإناث الأمريكيات: 1.158 (95% CI: 1.020, 1.315, p=0.025)
- معدل فوز الذكور الهنود: 0.767 (95% CI: 0.678, 0.869, p<0.001)
- التحيز على أساس النوع الاجتماعي: داخل نفس الدولة، الفروقات بين الجنسين غير ملحوظة (p>0.3)
- تحيز جغرافي قوي:
- الذكور الأمريكيون مقابل الذكور الهنود: OR=2.014 (p<0.001)
- الإناث الأمريكيات مقابل الإناث الهنديات: OR=1.934 (p<0.001)
- الميزة الشاملة للمرشحين الأمريكيين: يتم اختيار المرشحين الأمريكيين من كلا الجنسين بشكل ملحوظ أكثر كقادة
- التحيز على أساس النوع الاجتماعي: العاملات الحرات يتلقين تقييمات غير مثالية بنسبة أعلى بـ 51.2% (OR=1.512, p<0.001)
- التحيز الجغرافي: العاملون الحرون من الولايات المتحدة يتلقون تقييمات غير مثالية بنسبة أقل بـ 37.9% (OR=0.621, p=0.019)
- تأثير التفاعل ملحوظ: تأثير النوع الاجتماعي على عدد التعليقات يعتمد على الدولة (p=0.031)
- الإناث الهنديات يتلقين 24% تعليقات أكثر من الذكور الهنود (IRR=1.237)
- الإناث الأمريكيات يتلقين 22% تعليقات أقل من الذكور الأمريكيين
تتحقق الورقة من التأثيرات المستقلة للعوامل الجغرافية والجنسانية وتأثيرات التفاعل بينها من خلال مقارنة النماذج التي تتضمن وتستبعد حدود التفاعل.
- الاختلافات بين المراحل: التحيز على أساس النوع الاجتماعي غير ملحوظ في مرحلة التوظيف لكنه ملحوظ في مرحلة التقييم؛ التحيز الجغرافي ملحوظ وثابت في كلا المرحلتين.
- الانتشار الواسع للتحيز الجغرافي: يتمتع العاملون الحرون من الولايات المتحدة بميزة منهجية في الاختيار وإدراك القيادة والتقييم.
- تعقيد التحيز على أساس النوع الاجتماعي: النساء لا يعانين من عيب في الحصول على فرص العمل، لكنهن يواجهن معايير أكثر صرامة في تقييم العمل.
- Hannak وآخرون (2017): اكتشاف التحيز العرقي والجنساني على TaskRabbit و Fiverr
- Edelman وآخرون (2017): اكتشاف استمرار التمييز من قبل المستهلكين على منصات الاقتصاد المشترك مثل Airbnb
- Chan & Wang (2018): اكتشاف تفضيل التوظيف للمتقدمات من الإناث في بعض الحالات
- قيود الطرق التقليدية: يصعب على استخراج البيانات والتحليل القياسي السيطرة على جميع المتغيرات المربكة المحتملة
- تطبيق LLM في أبحاث المنصات: فهم أنشطة المستخدمين في Stack Overflow والتعليقات عبر الإنترنت وسلوك البحث وغيرها
- تقنية RAG: التغلب على مشاكل الأخطاء الواقعية في LLM القياسي وعدم كفاية القدرة على معالجة المعلومات المتخصصة
- نقطة تحول منهجية: نجح إطار عمل RAG-LLM في تحقيق التحكم الدقيق في المتغيرات، مما يوفر أداة منهجية جديدة لأبحاث التحيز عبر الإنترنت.
- الخصائص المرحلية للتحيز على أساس النوع الاجتماعي: النساء لا يواجهن عيباً ملحوظاً في مرحلة التوظيف، لكنهن يواجهن معايير حكم أكثر صرامة في التقييم بعد إكمال المشروع.
- الطبيعة المنهجية للتحيز الجغرافي: يتمتع العاملون الحرون من الولايات المتحدة بميزة شاملة من اختيار التوظيف إلى التقييم النهائي، مما يعكس تحيزات ثقافية وصور نمطية عميقة.
- قيود النطاق الجغرافي: يركز البحث بشكل أساسي على العاملين الحرين من الولايات المتحدة والهند، وقد لا يمثل بشكل كامل الوضع العالمي.
- نقص تحليل العوامل الثقافية: يستند تفسير التحيز الجغرافي بشكل أساسي إلى التكهنات، مع نقص التحليل العميق للآليات الثقافية والنفسية.
- عدم معرفة التأثيرات طويلة الأجل: البحث عرضي، ولا يمكنه الكشف عن التغييرات الديناميكية للتحيز.
- التحقق من جودة التوليد: على الرغم من الإشارة إلى المراجعة اليدوية للملفات المُنتجة، إلا أن هناك نقصاً في مؤشرات تقييم الجودة المنهجية.
- المساهمة الأكاديمية: توفير نموذج بحثي جديد لمجالات HCI والحوسبة الاجتماعية، من المتوقع أن يتم الاستشهاد به وتطبيقه على نطاق واسع.
- القيمة العملية: يمكن للنتائج أن توجه تحسينات تصميم المنصة، وتعزيز سوق عمل حر أكثر عدلاً عبر الإنترنت.
- قابلية التكرار: المنهجية واضحة والتنفيذ التقني قابل للتكرار، مما يسهل التحقق والتوسع في الأبحاث اللاحقة.
- التأثير متعدد التخصصات: يجمع بين تقنيات الذكاء الاصطناعي والبحث العلمي الاجتماعي، مما يعكس قيمة البحث متعدد التخصصات.
- أبحاث التحيز في المنصات عبر الإنترنت: يمكن توسيعها لتشمل أنواعاً أخرى من الأسواق والمنصات عبر الإنترنت.
- تقييم العدالة الخوارزمية: توفير طريقة جديدة لتوليد البيانات لاختبار عدالة أنظمة الذكاء الاصطناعي.
- دعم صنع السياسات: توفير أدلة تجريبية لصنع سياسات عدالة سوق العمل.
- تحسين تصميم المنصة: توجيه تصميم واجهة المستخدم والخوارزميات الموصى بها للمنصات عبر الإنترنت.
تستشهد الورقة بـ 35 مرجعاً ذا صلة، تغطي أبحاثاً مهمة في مجالات التمييز في الأسواق عبر الإنترنت وتطبيقات التعلم الآلي والتفاعل بين الإنسان والحاسوب وغيرها، مما يوفر أساساً نظرياً وتدعماً منهجياً قوياً لهذا البحث.
التقييم الشامل: هذه ورقة بحثية عالية الجودة ذات ابتكار مهم من حيث المنهجية. من خلال تحقيق التحكم الدقيق في المتغيرات باستخدام تقنية RAG-LLM، فتحت آفاقاً جديدة لأبحاث التحيز عبر الإنترنت. النتائج البحثية لها أهمية نظرية وعملية كبيرة، وتساهم بشكل إيجابي في تعزيز العدالة في سوق العمل الحر عبر الإنترنت. على الرغم من وجود بعض القيود، فإن هذه الورقة تمثل بشكل عام مساهمة مهمة في هذا المجال.