2025-11-25T02:07:24.751943

Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents

Zheng, Shan

Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.

academic

كشف التحيز في التوظيف: تحليل بيانات المنصة والتجارب المضبوطة حول التحيز في أسواق العمل الحر عبر الإنترنت باستخدام محتويات RAG-LLM

المعلومات الأساسية

معرّف الورقة البحثية: 2510.13091
العنوان: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
المؤلفون: Wugeng Zheng, Guohou Shan (جامعة نورثيسترن)
التصنيف: cs.HC (التفاعل بين الإنسان والحاسوب)
المؤتمر المنشور فيه: مؤتمر ACM حول واجهات المستخدم الذكية 2026
رابط الورقة: https://arxiv.org/abs/2510.13091

الملخص

تمثل أسواق العمل الحر عبر الإنترنت جزءاً سريع النمو من سوق العمل العالمي، وتفترض نظرياً أن تخلق بيئة عادلة حيث تكون المهارات المهنية هي العامل الأساسي في قرارات التوظيف. ومع ذلك، فإن المعلومات الشخصية في ملفات المستخدمين تثير مخاوف من استمرار التمييز. تقترح هذه الورقة منهجاً مبتكراً باستخدام الاسترجاع المعزز للتوليد (RAG) مع نماذج اللغة الكبيرة (LLM) لإنشاء ملفات تعريف واقعية لعاملين حرين اصطناعيين لإجراء تجارب مضبوطة. تظهر النتائج أنه فيما يتعلق بالنوع الاجتماعي، على الرغم من عدم وجود تفضيل ملحوظ في قرارات التوظيف الأولية، فإن العاملات الحرات يتعرضن بشكل أكبر لتلقي تقييمات غير مثالية بعد إكمال المشروع. فيما يتعلق بالتحيز الجغرافي، يظهر العاملون الحرون من الولايات المتحدة ميزة قوية وثابتة.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: هل تحقق منصات العمل الحر عبر الإنترنت فعلاً الهدف من القضاء على التحيز في التوظيف، وكيفية قياس وتحليل هذه التحيزات بدقة.
الأهمية:
- شهدت أسواق العمل الحر عبر الإنترنت نمواً سريعاً بعد جائحة كوفيد-19، حيث يشارك فيها 20-30% من السكان في سن العمل في أوروبا وأمريكا
- تفترض هذه المنصات نظرياً أن تقيم الأفراد بناءً على المهارات وليس على الخلفية الشخصية
- قد تؤدي المعلومات القابلة للتعريف شخصياً في ملفات المستخدمين إلى تحيزات واعية أو غير واعية
قيود الطرق الموجودة:
- يعتمد البحث التقليدي بشكل أساسي على تحليل البيانات الملاحظة، مما يصعب السيطرة على المتغيرات المربكة
- عادة ما تكون مهارات العاملين الحرين وخلفيتهم التعليمية وخبرة مشاريعهم متشابكة مع الخصائص الديموغرافية (النوع الاجتماعي، العرق)
- يواجه جمع مجموعات بيانات واسعة النطاق للسيطرة الإحصائية على هذه المتغيرات تحديات كبيرة
دافع البحث: تطوير منهج تجريبي جديد يمكنه التحكم الصارم في المتغيرات، وفصل وقياس التأثير المستقل لعوامل ديموغرافية محددة على قرارات التوظيف بدقة.

المساهمات الأساسية

الابتكار المنهجي: استخدام إطار عمل RAG-LLM للمرة الأولى لتوليد بيانات اصطناعية محكومة بشكل صارم لإجراء تجارب مضبوطة حول التحيز في التوظيف، مما يتغلب على تحديات العوامل المربكة في البيانات الملاحظة التقليدية.
تحليل التحيز متعدد المراحل: اقتراح إطار عمل تحليلي شامل يغطي المرحلة السابقة للتوظيف (من خلال دراسات المستخدمين) ومرحلة التقييم بعد المشروع (باستخدام البيانات الحقيقية)، مما يوفر منظوراً أكثر اكتمالاً من الدراسات المقتصرة على بيانات ما بعد المشروع.
التحكم الدقيق في المتغيرات: تحقيق عزل دقيق للمتغيرات من خلال الملفات التي ينتجها RAG-LLM، مما يمكّن من إنشاء ملفات مرشحين متطابقة تقريباً في جميع الجوانب باستثناء متغيرات البحث المحددة.
النتائج التجريبية: كشف أنماط مختلفة لتعبير التحيز على أساس النوع الاجتماعي والجغرافيا في مراحل مختلفة، مما يوفر رؤى جديدة لفهم آليات التمييز في الأسواق عبر الإنترنت.

شرح تفصيلي للمنهجية

تعريف المهمة

المدخلات: بيانات المستخدمين الحقيقية من منصات العمل الحر والاحتياجات المحددة للتحكم في المتغيرات الديموغرافية المخرجات: ملفات تعريف عاملين حرين اصطناعية محكومة بشكل عالي، لقياس تأثير متغيرات محددة على قرارات التوظيف القيود: يجب أن تكون الملفات المُنتجة متشابهة بدرجة عالية من حيث المهارات والخبرة والتقييمات، مع وجود اختلافات فقط في متغيرات البحث (مثل النوع الاجتماعي والمنطقة الجغرافية)

معمارية النموذج

1. الحصول على البيانات ومعالجتها

مصدر البيانات: استخراج 12,799 ملف تعريف عامل حر من Freelancer.com
معالجة البيانات المسبقة:
- استخدام نموذج التعرف على الوجوه المدرب مسبقاً من Huggingface لتصنيف النوع الاجتماعي (عتبة الثقة 0.75)
- التركيز على العاملين الحرين من الهند والولايات المتحدة (أكثر دولتين تمثيلاً في مجموعة البيانات)
- استخراج خصائص مثل اسم المستخدم وهويته والشارات التحقق والتقييم الإجمالي والشعار الشخصي

2. خط أنابيب RAG-LLM

المتجهات: استخدام نموذج التضمين من Huggingface لتحويل البيانات المعالجة إلى متجهات وبناء قاعدة معارف
النموذج الأساسي: استخدام نموذج اللغة الكبير Qwen/QwQ-32B
عملية التوليد:
1. الاسترجاع: استرجاع الملفات الأكثر تشابهاً من قاعدة المعارف كمراجع
2. التعزيز: إضافة المستندات المسترجعة إلى سياق LLM
3. التوليد: توليد ملفات متماسكة وتتوافق مع البيانات الحقيقية بناءً على المطالبات المعززة

3. منصة التجربة

مجموعة التقنيات: استخدام Flask لبناء تطبيق ويب تفاعلي
تصميم المهام:
- مهمة مقارنة العاملين الحرين: عرض ملفين جنباً إلى جنب، يطلب من المستخدمين اختيار المرشح الذي يفضلون توظيفه
- مهمة مقارنة التعليقات: عرض معلومات التعليقات ذات الصلة والإجابة على الأسئلة
جمع البيانات: تسجيل اختيارات المستخدمين وبيانات التفاعل

4. تجنيد المشاركين

المنصة: تجنيد المشاركين من خلال Amazon Mechanical Turk (MTurk)
ضمان الجودة: تضمين أسئلة فحص الانتباه لتصفية الإرسالات التي لم تجتز الفحص

نقاط الابتكار التقني

التحكم الدقيق في المتغيرات: مقارنة بالطرق التقليدية، يمكن لإطار عمل RAG-LLM توليد أزواج ملفات متشابهة بدرجة عالية في جميع الخصائص، مع وجود اختلافات فقط في متغيرات البحث، مما يحقق دقة تحكم تجريبية لم تُشهد من قبل.
ضمان الواقعية: من خلال آلية RAG، تستند الملفات المُنتجة إلى بيانات حقيقية، مما يتجنب المشاكل المحتملة للكتابة اليدوية مثل عدم الواقعية والتناقضات.
تحسين الكفاءة: مقارنة بالكتابة اليدوية لكل ملف التي تستغرق 10-15 دقيقة، يحسّن منهج RAG-LLM الكفاءة بشكل كبير مع ضمان الجودة.

إعداد التجربة

مجموعة البيانات

الحجم: 12,799 ملف تعريف عامل حر حقيقي
المصدر: منصة Freelancer.com
الخصائص: اسم المستخدم والهوية والحالة التحقق والتقييم وعدد التعليقات والدولة والنوع الاجتماعي المستنتج بالذكاء الاصطناعي
البيانات الاصطناعية: توليد 1,980 زوج ملف محكوم بشكل عالي لدراسة المستخدمين

مؤشرات التقييم

تفضيل التوظيف: احتمالية اختيار الملف ومعدل الفوز
إدراك القيادة: احتمالية الاختيار كشخص أكثر قيادة
التحيز في التقييم: احتمالية تلقي تقييم غير 5 نجوم (باستخدام الانحدار اللوجستي)
عدد التعليقات: عدد التعليقات المستلمة (باستخدام الانحدار ذي الحدين السالب)

طرق المقارنة

طريقة تحليل البيانات الملاحظة التقليدية
تحليل الانحدار الإحصائي (مع وبدون حدود التفاعل)

تفاصيل التنفيذ

عتبة الثقة: ثقة نموذج تصنيف النوع الاجتماعي > 0.75
الطرق الإحصائية: الانحدار اللوجستي والانحدار ذو الحدين السالب واختبار كاي تربيع
مستويات الدلالة: p<0.05, p<0.01, p<0.001

نتائج التجربة

النتائج الرئيسية

1. تحليل قرارات التوظيف

التحيز الجغرافي: العاملون الحرون من الولايات المتحدة لديهم ميزة ملحوظة مقابل نظرائهم من الهند
- معدل فوز الذكور الأمريكيين: 1.212 (95% CI: 1.066, 1.375, p=0.003)
- معدل فوز الإناث الأمريكيات: 1.158 (95% CI: 1.020, 1.315, p=0.025)
- معدل فوز الذكور الهنود: 0.767 (95% CI: 0.678, 0.869, p<0.001)
التحيز على أساس النوع الاجتماعي: داخل نفس الدولة، الفروقات بين الجنسين غير ملحوظة (p>0.3)

2. تحليل إدراك القيادة

تحيز جغرافي قوي:
- الذكور الأمريكيون مقابل الذكور الهنود: OR=2.014 (p<0.001)
- الإناث الأمريكيات مقابل الإناث الهنديات: OR=1.934 (p<0.001)
الميزة الشاملة للمرشحين الأمريكيين: يتم اختيار المرشحين الأمريكيين من كلا الجنسين بشكل ملحوظ أكثر كقادة

3. تحليل التقييم بعد المشروع

التحيز على أساس النوع الاجتماعي: العاملات الحرات يتلقين تقييمات غير مثالية بنسبة أعلى بـ 51.2% (OR=1.512, p<0.001)
التحيز الجغرافي: العاملون الحرون من الولايات المتحدة يتلقون تقييمات غير مثالية بنسبة أقل بـ 37.9% (OR=0.621, p=0.019)

4. تحليل عدد التعليقات

تأثير التفاعل ملحوظ: تأثير النوع الاجتماعي على عدد التعليقات يعتمد على الدولة (p=0.031)
- الإناث الهنديات يتلقين 24% تعليقات أكثر من الذكور الهنود (IRR=1.237)
- الإناث الأمريكيات يتلقين 22% تعليقات أقل من الذكور الأمريكيين

التجارب الاستئصالية

تتحقق الورقة من التأثيرات المستقلة للعوامل الجغرافية والجنسانية وتأثيرات التفاعل بينها من خلال مقارنة النماذج التي تتضمن وتستبعد حدود التفاعل.

النتائج التجريبية

الاختلافات بين المراحل: التحيز على أساس النوع الاجتماعي غير ملحوظ في مرحلة التوظيف لكنه ملحوظ في مرحلة التقييم؛ التحيز الجغرافي ملحوظ وثابت في كلا المرحلتين.
الانتشار الواسع للتحيز الجغرافي: يتمتع العاملون الحرون من الولايات المتحدة بميزة منهجية في الاختيار وإدراك القيادة والتقييم.
تعقيد التحيز على أساس النوع الاجتماعي: النساء لا يعانين من عيب في الحصول على فرص العمل، لكنهن يواجهن معايير أكثر صرامة في تقييم العمل.

الأعمال ذات الصلة

البحث في التمييز في الأسواق عبر الإنترنت

Hannak وآخرون (2017): اكتشاف التحيز العرقي والجنساني على TaskRabbit و Fiverr
Edelman وآخرون (2017): اكتشاف استمرار التمييز من قبل المستهلكين على منصات الاقتصاد المشترك مثل Airbnb
Chan & Wang (2018): اكتشاف تفضيل التوظيف للمتقدمات من الإناث في بعض الحالات

تطبيقات التعلم الآلي و LLM

قيود الطرق التقليدية: يصعب على استخراج البيانات والتحليل القياسي السيطرة على جميع المتغيرات المربكة المحتملة
تطبيق LLM في أبحاث المنصات: فهم أنشطة المستخدمين في Stack Overflow والتعليقات عبر الإنترنت وسلوك البحث وغيرها
تقنية RAG: التغلب على مشاكل الأخطاء الواقعية في LLM القياسي وعدم كفاية القدرة على معالجة المعلومات المتخصصة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نقطة تحول منهجية: نجح إطار عمل RAG-LLM في تحقيق التحكم الدقيق في المتغيرات، مما يوفر أداة منهجية جديدة لأبحاث التحيز عبر الإنترنت.
الخصائص المرحلية للتحيز على أساس النوع الاجتماعي: النساء لا يواجهن عيباً ملحوظاً في مرحلة التوظيف، لكنهن يواجهن معايير حكم أكثر صرامة في التقييم بعد إكمال المشروع.
الطبيعة المنهجية للتحيز الجغرافي: يتمتع العاملون الحرون من الولايات المتحدة بميزة شاملة من اختيار التوظيف إلى التقييم النهائي، مما يعكس تحيزات ثقافية وصور نمطية عميقة.

القيود

قيود النطاق الجغرافي: يركز البحث بشكل أساسي على العاملين الحرين من الولايات المتحدة والهند، وقد لا يمثل بشكل كامل الوضع العالمي.
نقص تحليل العوامل الثقافية: يستند تفسير التحيز الجغرافي بشكل أساسي إلى التكهنات، مع نقص التحليل العميق للآليات الثقافية والنفسية.
عدم معرفة التأثيرات طويلة الأجل: البحث عرضي، ولا يمكنه الكشف عن التغييرات الديناميكية للتحيز.
التحقق من جودة التوليد: على الرغم من الإشارة إلى المراجعة اليدوية للملفات المُنتجة، إلا أن هناك نقصاً في مؤشرات تقييم الجودة المنهجية.

التأثير

المساهمة الأكاديمية: توفير نموذج بحثي جديد لمجالات HCI والحوسبة الاجتماعية، من المتوقع أن يتم الاستشهاد به وتطبيقه على نطاق واسع.
القيمة العملية: يمكن للنتائج أن توجه تحسينات تصميم المنصة، وتعزيز سوق عمل حر أكثر عدلاً عبر الإنترنت.
قابلية التكرار: المنهجية واضحة والتنفيذ التقني قابل للتكرار، مما يسهل التحقق والتوسع في الأبحاث اللاحقة.
التأثير متعدد التخصصات: يجمع بين تقنيات الذكاء الاصطناعي والبحث العلمي الاجتماعي، مما يعكس قيمة البحث متعدد التخصصات.

السيناريوهات القابلة للتطبيق

أبحاث التحيز في المنصات عبر الإنترنت: يمكن توسيعها لتشمل أنواعاً أخرى من الأسواق والمنصات عبر الإنترنت.
تقييم العدالة الخوارزمية: توفير طريقة جديدة لتوليد البيانات لاختبار عدالة أنظمة الذكاء الاصطناعي.
دعم صنع السياسات: توفير أدلة تجريبية لصنع سياسات عدالة سوق العمل.
تحسين تصميم المنصة: توجيه تصميم واجهة المستخدم والخوارزميات الموصى بها للمنصات عبر الإنترنت.

المراجع

تستشهد الورقة بـ 35 مرجعاً ذا صلة، تغطي أبحاثاً مهمة في مجالات التمييز في الأسواق عبر الإنترنت وتطبيقات التعلم الآلي والتفاعل بين الإنسان والحاسوب وغيرها، مما يوفر أساساً نظرياً وتدعماً منهجياً قوياً لهذا البحث.

التقييم الشامل: هذه ورقة بحثية عالية الجودة ذات ابتكار مهم من حيث المنهجية. من خلال تحقيق التحكم الدقيق في المتغيرات باستخدام تقنية RAG-LLM، فتحت آفاقاً جديدة لأبحاث التحيز عبر الإنترنت. النتائج البحثية لها أهمية نظرية وعملية كبيرة، وتساهم بشكل إيجابي في تعزيز العدالة في سوق العمل الحر عبر الإنترنت. على الرغم من وجود بعض القيود، فإن هذه الورقة تمثل بشكل عام مساهمة مهمة في هذا المجال.