2025-11-25T02:07:24.751943

Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents

Zheng, Shan

Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.

academic

Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents

基本信息

论文ID: 2510.13091
标题: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
作者: Wugeng Zheng, Guohou Shan (Northeastern University)
分类: cs.HC (Human-Computer Interaction)
发表会议: ACM Conference on Intelligent User Interfaces 2026
论文链接: https://arxiv.org/abs/2510.13091

摘要

在线自由职业市场作为全球劳动力市场快速增长的一部分，理论上应该创造一个以专业技能为主要雇佣因素的公平环境。然而，用户档案中的个人信息引发了持续歧视的担忧。本文提出了一种创新方法，使用检索增强生成(RAG)与大语言模型(LLM)来创建逼真的人工自由职业者档案进行受控实验。研究结果显示，在性别方面，虽然初始雇佣决策中没有出现显著偏好，但女性自由职业者在项目完成后更容易收到不完美评分。在地区偏见方面，美国自由职业者表现出强烈且一致的优势。

研究背景与动机

问题定义

核心问题: 在线自由职业平台是否真正实现了消除雇佣偏见的目标，以及如何准确测量和分析这些偏见。
重要性:
- 在线自由职业市场在COVID-19后快速发展，在欧美20-30%的工作年龄人口参与独立工作
- 这些平台理论上应该基于技能而非个人背景进行评估
- 用户档案中的个人可识别信息可能导致有意识或无意识的偏见
现有方法局限性:
- 传统研究主要依赖观察性数据分析，难以控制混杂变量
- 自由职业者的技能、教育背景、项目经验通常与人口统计属性(性别、种族)交织在一起
- 收集大规模数据集来统计控制这些变量面临显著挑战
研究动机: 开发一种新的实验方法，能够严格控制变量，精确分离和测量特定人口统计因素对雇佣决策的独立影响。

核心贡献

方法论创新: 首次使用RAG-LLM框架生成高度控制的合成数据进行雇佣偏见受控实验，克服了传统观察性数据中混杂因素的挑战。
多阶段偏见分析: 提出了涵盖雇佣前阶段(通过用户研究)和项目后评估阶段(使用真实世界数据)的综合分析框架，提供了比仅限于项目后数据的研究更完整的视角。
精确变量控制: 通过RAG-LLM生成的档案实现了精确的变量隔离，能够创建除特定研究变量外几乎完全相同的候选人档案。
实证发现: 揭示了性别和地区偏见在不同阶段的不同表现模式，为理解在线市场歧视机制提供了新的洞察。

方法详解

任务定义

输入: 自由职业平台的真实用户数据和特定的人口统计变量控制需求输出: 高度控制的合成自由职业者档案，用于测量特定变量对雇佣决策的影响 约束条件: 生成的档案必须在技能、经验、评分等方面高度相似，仅在研究变量(如性别、地区)上存在差异

模型架构

1. 数据获取与处理

数据源: 从Freelancer.com爬取12,799个自由职业者档案
数据预处理:
- 使用Huggingface预训练面部识别模型进行性别分类(置信度阈值0.75)
- 重点关注印度和美国自由职业者(数据集中最具代表性的两个国家)
- 提取用户名、用户ID、验证徽章、整体评分、档案标语等属性

2. RAG-LLM管道

向量化: 使用Huggingface嵌入模型将处理后的数据向量化，构建知识库
核心模型: 采用Qwen/QwQ-32B大语言模型
生成流程:
1. 检索: 从知识库中检索最相似的档案作为参考
2. 增强: 将检索到的文档添加到LLM上下文中
3. 生成: 基于增强提示生成连贯且与真实世界数据一致的档案

3. 实验平台

技术栈: 使用Flask构建交互式网页
任务设计:
- 自由职业者比较任务：并排显示两个档案，要求用户选择偏好雇佣的候选人
- 评论比较任务：显示相关评论信息并回答问题
数据收集: 记录用户选择和交互数据

4. 参与者招募

平台: 通过Amazon Mechanical Turk (MTurk)招募参与者
质量控制: 包含注意力检查问题，过滤未通过检查的提交

技术创新点

精确变量控制: 与传统方法相比，RAG-LLM框架能够生成在所有属性上高度相似的档案对，仅在研究变量上存在差异，从而实现了前所未有的实验控制精度。
现实性保证: 通过RAG机制，生成的档案基于真实数据，避免了纯人工编写可能产生的不现实性和一致性问题。
效率提升: 相比手动编写每个档案需要10-15分钟，RAG-LLM方法大大提高了生成效率，同时确保质量。

实验设置

数据集

规模: 12,799个真实自由职业者档案
来源: Freelancer.com平台
特征: 用户名、ID、验证状态、评分、评论数、国家、AI推断性别
合成数据: 生成1,980个高度控制的档案对用于用户研究

评价指标

雇佣偏好: 档案选择概率和胜率
领导力感知: 被选为更具领导力的概率
评分偏见: 收到非5星评分的概率(使用逻辑回归)
评论数量: 收到的评论数量(使用负二项回归)

对比方法

传统观察性数据分析方法
统计回归分析(有无交互项)

实现细节

置信度阈值: 性别分类模型置信度>0.75
统计方法: 逻辑回归、负二项回归、卡方检验
显著性水平: p<0.05, p<0.01, p<0.001

实验结果

主要结果

1. 雇佣决策分析

地区偏见: 美国自由职业者相对印度自由职业者有显著优势
- 美国男性胜率: 1.212 (95% CI: 1.066, 1.375, p=0.003)
- 美国女性胜率: 1.158 (95% CI: 1.020, 1.315, p=0.025)
- 印度男性胜率: 0.767 (95% CI: 0.678, 0.869, p<0.001)
性别偏见: 在同一国家内，性别差异不显著(p>0.3)