2025-11-25T02:07:24.751943

Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents

Zheng, Shan

Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.

academic

Разоблачение предвзятости при найме: анализ данных платформы и контролируемые эксперименты по предвзятости на онлайн-рынках фриланса с использованием содержимого, созданного RAG-LLM

Основная информация

ID статьи: 2510.13091
Название: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
Авторы: Wugeng Zheng, Guohou Shan (Северо-восточный университет)
Классификация: cs.HC (Взаимодействие человека и компьютера)
Конференция: ACM Conference on Intelligent User Interfaces 2026
Ссылка на статью: https://arxiv.org/abs/2510.13091

Аннотация

Онлайн-рынки фриланса, являющиеся быстрорастущей частью глобального рынка труда, теоретически должны создавать справедливую среду, в которой профессиональные навыки являются основным фактором при найме. Однако личная информация в профилях пользователей вызывает опасения по поводу постоянной дискриминации. В данной статье предлагается инновационный подход, использующий поиск с дополнением (RAG) и большие языковые модели (LLM) для создания реалистичных искусственных профилей фрилансеров для контролируемых экспериментов. Результаты исследования показывают, что в отношении гендера, хотя в начальных решениях о найме не наблюдается значительных предпочтений, женщины-фрилансеры с большей вероятностью получают несовершенные оценки после завершения проекта. Что касается региональной предвзятости, фрилансеры из США демонстрируют сильное и последовательное преимущество.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос: действительно ли онлайн-платформы фриланса достигают цели устранения предвзятости при найме, и как точно измерить и проанализировать эту предвзятость.
Значимость:
- Рынок онлайн-фриланса быстро развивается после COVID-19, охватывая 20-30% трудоспособного населения в Европе и Америке
- Эти платформы теоретически должны проводить оценку на основе навыков, а не личных характеристик
- Личная идентифицирующая информация в профилях пользователей может привести к сознательной или бессознательной предвзятости
Ограничения существующих методов:
- Традиционные исследования в основном полагаются на наблюдательный анализ данных, что затрудняет контроль смешивающих переменных
- Навыки фрилансеров, образование, опыт проектов обычно переплетаются с демографическими характеристиками (пол, раса)
- Сбор крупномасштабных наборов данных для статистического контроля этих переменных сталкивается со значительными проблемами
Исследовательская мотивация: разработка нового экспериментального метода, способного строго контролировать переменные и точно разделять и измерять независимое влияние конкретных демографических факторов на решения о найме.

Основные вклады

Методологическое инновация: впервые использован фреймворк RAG-LLM для генерации высоко контролируемых синтетических данных в контролируемых экспериментах по предвзятости при найме, преодолевая проблемы смешивающих факторов в традиционных наблюдательных данных.
Многоэтапный анализ предвзятости: предложена комплексная аналитическая база, охватывающая этап до найма (через пользовательские исследования) и этап оценки после проекта (с использованием реальных данных), обеспечивающая более полную перспективу, чем исследования, ограниченные только данными после проекта.
Точный контроль переменных: профили, созданные RAG-LLM, обеспечивают точное разделение переменных, позволяя создавать профили кандидатов, которые почти идентичны во всех аспектах, кроме конкретных исследуемых переменных.
Эмпирические выводы: раскрывают различные модели проявления гендерной и региональной предвзятости на разных этапах, предоставляя новые insights для понимания механизмов дискриминации на онлайн-рынках.

Подробное описание методологии

Определение задачи

Входные данные: реальные данные пользователей платформы фриланса и конкретные требования контроля демографических переменных Выходные данные: высоко контролируемые синтетические профили фрилансеров для измерения влияния конкретных переменных на решения о найме Ограничения: созданные профили должны быть высоко похожи по навыкам, опыту, оценкам и т.д., различаясь только по исследуемым переменным (например, пол, регион)

Архитектура модели

1. Получение и обработка данных

Источник данных: 12 799 профилей фрилансеров, собранных с Freelancer.com
Предварительная обработка данных:
- Использование предварительно обученной модели распознавания лиц Huggingface для классификации пола (порог уверенности 0,75)
- Фокус на фрилансерах из Индии и США (два наиболее репрезентативных страны в наборе данных)
- Извлечение атрибутов: имя пользователя, ID пользователя, значки верификации, общая оценка, описание профиля

2. Конвейер RAG-LLM

Векторизация: использование модели встраивания Huggingface для векторизации обработанных данных и построения базы знаний
Основная модель: использование большой языковой модели Qwen/QwQ-32B
Процесс генерации:
1. Поиск: извлечение наиболее похожих профилей из базы знаний в качестве ссылок
2. Дополнение: добавление извлеченных документов в контекст LLM
3. Генерация: создание связных профилей на основе дополненного промпта, согласованных с реальными данными

3. Экспериментальная платформа

Технологический стек: использование Flask для построения интерактивного веб-приложения
Дизайн задач:
- Задача сравнения фрилансеров: отображение двух профилей рядом с просьбой пользователю выбрать предпочитаемого кандидата для найма
- Задача сравнения отзывов: отображение соответствующей информации об отзывах и ответы на вопросы
Сбор данных: запись выборов пользователей и данных взаимодействия

4. Набор участников

Платформа: набор участников через Amazon Mechanical Turk (MTurk)
Контроль качества: включение вопросов проверки внимания для фильтрации непройденных ответов

Технологические инновации

Точный контроль переменных: по сравнению с традиционными методами, фреймворк RAG-LLM может генерировать пары профилей, высоко похожие по всем атрибутам, различаясь только по исследуемым переменным, достигая беспрецедентной точности экспериментального контроля.
Гарантия реалистичности: благодаря механизму RAG, созданные профили основаны на реальных данных, избегая нереалистичности и проблем согласованности, которые могут возникнуть при ручном написании.
Повышение эффективности: по сравнению с ручным написанием каждого профиля, требующим 10-15 минут, метод RAG-LLM значительно повышает эффективность генерации при сохранении качества.

Экспериментальная установка

Набор данных

Масштаб: 12 799 реальных профилей фрилансеров
Источник: платформа Freelancer.com
Характеристики: имя пользователя, ID, статус верификации, оценка, количество отзывов, страна, предполагаемый пол (AI)
Синтетические данные: генерация 1 980 высоко контролируемых пар профилей для пользовательского исследования

Метрики оценки

Предпочтение при найме: вероятность выбора профиля и коэффициент побед
Восприятие лидерства: вероятность выбора как более лидерского
Предвзятость оценок: вероятность получения оценки ниже 5 звезд (использование логистической регрессии)
Количество отзывов: количество полученных отзывов (использование отрицательной биномиальной регрессии)

Методы сравнения

Традиционные методы наблюдательного анализа данных
Статистический регрессионный анализ (с взаимодействиями и без них)

Детали реализации

Порог уверенности: уверенность модели классификации пола > 0,75
Статистические методы: логистическая регрессия, отрицательная биномиальная регрессия, критерий хи-квадрат
Уровень значимости: p<0,05, p<0,01, p<0,001

Результаты экспериментов

Основные результаты

1. Анализ решений о найме

Региональная предвзятость: фрилансеры из США имеют значительное преимущество перед фрилансерами из Индии
- Коэффициент побед для мужчин из США: 1,212 (95% ДИ: 1,066, 1,375, p=0,003)
- Коэффициент побед для женщин из США: 1,158 (95% ДИ: 1,020, 1,315, p=0,025)
- Коэффициент побед для мужчин из Индии: 0,767 (95% ДИ: 0,678, 0,869, p<0,001)
Гендерная предвзятость: внутри одной страны гендерные различия незначительны (p>0,3)

2. Анализ восприятия лидерства

Сильная региональная предвзятость:
- Мужчины из США vs мужчины из Индии: OR=2,014 (p<0,001)
- Женщины из США vs женщины из Индии: OR=1,934 (p<0,001)
Общее преимущество кандидатов из США: кандидаты из США обоих полов значительно чаще выбираются как лидеры

3. Анализ оценок после проекта

Гендерная предвзятость: женщины-фрилансеры на 51,2% чаще получают оценки ниже совершенства (OR=1,512, p<0,001)
Региональная предвзятость: фрилансеры из США на 37,9% реже получают оценки ниже совершенства (OR=0,621, p=0,019)

4. Анализ количества отзывов

Значительный эффект взаимодействия: влияние пола на количество отзывов зависит от страны (p=0,031)
- Женщины из Индии получают на 24% больше отзывов, чем мужчины из Индии (IRR=1,237)
- Женщины из США получают на 22% меньше отзывов, чем мужчины из США

Абляционные эксперименты

Статья проводит сравнение моделей с включением и исключением членов взаимодействия для проверки независимого действия региональных и гендерных факторов и их эффектов взаимодействия.

Экспериментальные выводы

Различия по этапам: гендерная предвзятость незначительна на этапе найма, но значительна на этапе оценки; региональная предвзятость значительна и последовательна на обоих этапах.
Универсальность региональной предвзятости: фрилансеры из США пользуются систематическим преимуществом при выборе, восприятии лидерства и оценках.
Сложность гендерной предвзятости: женщины не находятся в невыгодном положении при получении работы, но сталкиваются с более строгими стандартами при оценке работы.

Связанные работы

Исследования дискриминации на онлайн-рынках

Hannak и др. (2017): обнаружена расовая и гендерная предвзятость на TaskRabbit и Fiverr
Edelman и др. (2017): выявлена постоянная дискриминация потребителей на платформах совместной экономики, таких как Airbnb
Chan & Wang (2018): обнаружено предпочтение при найме женщин-соискателей в некоторых случаях

Приложения машинного обучения и LLM

Ограничения традиционных методов: сбор данных и эконометрический анализ затрудняют контроль всех потенциальных смешивающих переменных
Применение LLM в исследованиях платформ: понимание активности пользователей в Stack Overflow, онлайн-отзывах, поведении поиска и других областях
Технология RAG: преодоление проблем фактических ошибок стандартных LLM и недостаточной способности обработки специализированной информации

Заключение и обсуждение

Основные выводы

Методологический прорыв: фреймворк RAG-LLM успешно реализует контроль переменных с высокой точностью, предоставляя новый методологический инструмент для исследования предвзятости в интернете.
Этапные характеристики гендерной предвзятости: женщины не сталкиваются со значительным недостатком на этапе найма, но сталкиваются с более строгими стандартами суждения при оценке после завершения проекта.
Систематичность региональной предвзятости: фрилансеры из США пользуются преимуществом на всех этапах от выбора при найме до окончательной оценки, отражая глубокие культурные предубеждения и стереотипы.

Ограничения

Ограничение географического охвата: исследование сосредоточено в основном на фрилансерах из США и Индии, что может не полностью представлять глобальную ситуацию.
Специфичность платформы: основано только на данных Freelancer.com; различные платформы могут демонстрировать различные модели предвзятости.
Временные ограничения: исследование отражает предвзятость в конкретный момент времени и может измениться со временем.
Репрезентативность участников: участники MTurk могут не полностью представлять реальную группу работодателей.

Будущие направления

Кросс-платформная проверка: проверка универсальности выводов исследования на нескольких платформах фриланса.
Продольные исследования: отслеживание тенденций изменения предвзятости во времени.
Меры вмешательства: разработка и тестирование мер по снижению предвзятости на основе выводов исследования.
Расширение демографических характеристик: включение дополнительных демографических измерений, таких как возраст, образование и т.д.

Глубокая оценка

Преимущества

Высокая методологическая инновативность: метод генерации контролируемых экспериментальных данных с использованием RAG-LLM является новаторским и предоставляет новый инструмент для исследований в социальных науках.
Строгий дизайн экспериментов: многоэтапный аналитический дизайн является комплексным, рассматривая как решения до найма, так и оценку после проекта.
Достаточный статистический анализ: использованы надлежащие статистические методы, включая анализ эффектов взаимодействия, результаты статистически значимы.
Значительная практическая значимость: выводы исследования имеют важное значение для политики в понимании справедливости онлайн-рынка труда.
Полная техническая реализация: от сбора данных до построения экспериментальной платформы, технологический маршрут ясен и полон.

Недостатки

Относительно ограниченный размер выборки: хотя включены 12 799 профилей, размер участников в пользовательском исследовании может потребовать дальнейшего расширения.
Недостаточный анализ культурных факторов: объяснение региональной предвзятости в основном основано на предположениях, не хватает глубокого анализа культурных и психологических механизмов.
Неизвестны долгосрочные эффекты: исследование является поперечным и не может раскрыть динамические изменения предвзятости.
Проверка качества генерации: хотя упоминается ручная проверка созданных профилей, отсутствуют систематические метрики оценки качества.

Влияние

Академический вклад: предоставляет новую исследовательскую парадигму для областей HCI и социальных вычислений, ожидается широкое цитирование и применение.
Практическая ценность: выводы исследования могут направлять улучшения дизайна платформы и способствовать более справедливому онлайн-рынку труда.
Воспроизводимость: методология ясна, техническая реализация воспроизводима, что способствует проверке и расширению последующих исследований.
Междисциплинарное влияние: сочетает технологию AI и исследования социальных наук, демонстрируя ценность междисциплинарных исследований.

Применимые сценарии

Исследование предвзятости онлайн-платформ: может быть расширено на другие типы онлайн-рынков и платформ.
Оценка справедливости алгоритмов: предоставляет новый метод генерации данных для тестирования справедливости систем AI.
Поддержка разработки политики: предоставляет эмпирические доказательства для разработки политики справедливости рынка труда.
Оптимизация дизайна платформы: направляет дизайн пользовательского интерфейса и алгоритмов рекомендаций онлайн-платформ.

Список литературы

Статья цитирует 35 соответствующих источников, охватывающих исследования в нескольких областях, включая дискриминацию на онлайн-рынках, приложения машинного обучения и взаимодействие человека и компьютера, обеспечивая прочную теоретическую основу и методологическую поддержку для данного исследования.

Общая оценка: это высококачественная исследовательская статья с важными методологическими инновациями. Благодаря технологии RAG-LLM, обеспечивающей точный контроль переменных, она открывает новый путь для исследования предвзятости в интернете. Выводы исследования имеют важное теоретическое и практическое значение и способствуют повышению справедливости на онлайн-рынке труда. Несмотря на некоторые ограничения, в целом это является важным вкладом в данную область.