2025-11-25T02:07:24.751943

Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents

Zheng, Shan

Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.

academic

Démasquer les biais d'embauche : Analyse des données de plateforme et expériences contrôlées sur les biais dans les marchés de travail indépendant en ligne via contenus générés par RAG-LLM

Informations de base

ID de l'article: 2510.13091
Titre: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
Auteurs: Wugeng Zheng, Guohou Shan (Université Northeastern)
Classification: cs.HC (Interaction Homme-Ordinateur)
Conférence de publication: Conférence ACM sur les interfaces utilisateur intelligentes 2026
Lien de l'article: https://arxiv.org/abs/2510.13091

Résumé

Les marchés de travail indépendant en ligne, en tant que segment en croissance rapide du marché du travail mondial, devraient théoriquement créer un environnement équitable où les compétences professionnelles constituent le principal facteur d'embauche. Cependant, les informations personnelles dans les profils utilisateurs soulèvent des préoccupations concernant la discrimination persistante. Cet article propose une approche innovante utilisant la génération augmentée par récupération (RAG) avec des modèles de langage de grande taille (LLM) pour créer des profils de travailleurs indépendants synthétiques réalistes destinés à des expériences contrôlées. Les résultats montrent que, en matière de genre, bien qu'aucune préférence significative n'apparaisse dans les décisions d'embauche initiales, les travailleuses indépendantes sont plus susceptibles de recevoir des évaluations imparfaites après l'achèvement du projet. Concernant les biais régionaux, les travailleurs indépendants américains présentent un avantage fort et cohérent.

Contexte et motivation de la recherche

Définition du problème

Problème central: Les plateformes de travail indépendant en ligne réalisent-elles véritablement l'objectif d'éliminer les biais d'embauche, et comment mesurer et analyser précisément ces biais?
Importance:
- Le marché du travail indépendant en ligne s'est développé rapidement après la COVID-19, avec 20-30% de la population en âge de travailler en Europe et en Amérique du Nord engagée dans le travail indépendant
- Ces plateformes devraient théoriquement évaluer les candidats sur la base de leurs compétences plutôt que de leurs antécédents personnels
- Les informations d'identification personnelle dans les profils utilisateurs peuvent entraîner des biais conscients ou inconscients
Limitations des méthodes existantes:
- Les recherches traditionnelles reposent principalement sur l'analyse de données observationnelles, ce qui rend difficile le contrôle des variables confondantes
- Les compétences, l'éducation et l'expérience professionnelle des travailleurs indépendants sont généralement entrelacées avec les attributs démographiques (genre, race)
- La collecte de grands ensembles de données pour contrôler statistiquement ces variables présente des défis importants
Motivation de la recherche: Développer une nouvelle méthode expérimentale capable de contrôler rigoureusement les variables et de mesurer précisément l'impact indépendant de facteurs démographiques spécifiques sur les décisions d'embauche.

Contributions principales

Innovation méthodologique: Première utilisation du cadre RAG-LLM pour générer des données synthétiques hautement contrôlées destinées à des expériences contrôlées sur les biais d'embauche, surmontant les défis des facteurs confondants dans les données observationnelles traditionnelles.
Analyse des biais en plusieurs étapes: Proposition d'un cadre d'analyse complet couvrant la phase pré-embauche (par le biais d'études utilisateur) et la phase d'évaluation post-projet (utilisant des données du monde réel), offrant une perspective plus complète que les recherches limitées aux données post-projet.
Contrôle précis des variables: Réalisation d'une isolation précise des variables grâce aux profils générés par RAG-LLM, permettant la création de profils de candidats presque identiques à tous les égards sauf pour les variables d'étude spécifiques.
Résultats empiriques: Révélation de modèles d'expression différents des biais de genre et régionaux à différentes étapes, fournissant de nouvelles perspectives pour comprendre les mécanismes de discrimination sur les marchés en ligne.

Explication détaillée de la méthode

Définition de la tâche

Entrée: Données utilisateur réelles de la plateforme de travail indépendant et besoins spécifiques de contrôle des variables démographiques Sortie: Profils de travailleurs indépendants synthétiques hautement contrôlés pour mesurer l'impact de variables spécifiques sur les décisions d'embauche Contraintes: Les profils générés doivent être hautement similaires en termes de compétences, d'expérience et d'évaluations, ne différant que sur les variables d'étude (comme le genre et la région)

Architecture du modèle

1. Acquisition et traitement des données

Source de données: Extraction de 12 799 profils de travailleurs indépendants depuis Freelancer.com
Prétraitement des données:
- Utilisation d'un modèle de reconnaissance faciale pré-entraîné Huggingface pour la classification du genre (seuil de confiance 0,75)
- Concentration sur les travailleurs indépendants indiens et américains (les deux pays les plus représentés dans l'ensemble de données)
- Extraction d'attributs tels que le nom d'utilisateur, l'ID utilisateur, les badges de vérification, l'évaluation globale, la description du profil, etc.

2. Pipeline RAG-LLM

Vectorisation: Utilisation du modèle d'intégration Huggingface pour vectoriser les données traitées et construire une base de connaissances
Modèle principal: Adoption du modèle de langage de grande taille Qwen/QwQ-32B
Processus de génération:
1. Récupération: Récupération des profils les plus similaires de la base de connaissances comme références
2. Augmentation: Ajout des documents récupérés au contexte du LLM
3. Génération: Génération de profils cohérents et conformes aux données du monde réel sur la base d'invites augmentées

3. Plateforme expérimentale

Pile technologique: Utilisation de Flask pour construire une interface web interactive
Conception des tâches:
- Tâche de comparaison de travailleurs indépendants: Affichage côte à côte de deux profils, demandant aux utilisateurs de choisir le candidat qu'ils préféreraient embaucher
- Tâche de comparaison d'avis: Affichage des informations d'avis pertinentes et réponse aux questions
Collecte de données: Enregistrement des choix des utilisateurs et des données d'interaction

4. Recrutement des participants

Plateforme: Recrutement des participants via Amazon Mechanical Turk (MTurk)
Contrôle de qualité: Inclusion de questions de vérification d'attention, filtrage des soumissions non validées

Points d'innovation technique

Contrôle précis des variables: Par rapport aux méthodes traditionnelles, le cadre RAG-LLM peut générer des paires de profils hautement similaires sur tous les attributs, ne différant que sur les variables d'étude, réalisant ainsi une précision de contrôle expérimental sans précédent.
Garantie de réalisme: Grâce au mécanisme RAG, les profils générés sont basés sur des données réelles, évitant les problèmes d'irréalisme et d'incohérence qui pourraient résulter de la rédaction manuelle.
Amélioration de l'efficacité: Comparé à la rédaction manuelle qui nécessite 10-15 minutes par profil, la méthode RAG-LLM améliore considérablement l'efficacité de génération tout en assurant la qualité.

Configuration expérimentale

Ensemble de données

Échelle: 12 799 profils réels de travailleurs indépendants
Source: Plateforme Freelancer.com
Caractéristiques: Nom d'utilisateur, ID, statut de vérification, évaluation, nombre d'avis, pays, genre déduit par IA
Données synthétiques: Génération de 1 980 paires de profils hautement contrôlées pour l'étude utilisateur

Métriques d'évaluation

Préférence d'embauche: Probabilité de sélection du profil et taux de victoire
Perception du leadership: Probabilité d'être sélectionné comme plus leader
Biais d'évaluation: Probabilité de recevoir une évaluation non-5 étoiles (utilisant la régression logistique)
Nombre d'avis: Nombre d'avis reçus (utilisant la régression binomiale négative)

Méthodes de comparaison

Méthode traditionnelle d'analyse de données observationnelles
Analyse de régression statistique (avec et sans termes d'interaction)

Détails d'implémentation

Seuil de confiance: Confiance du modèle de classification du genre > 0,75
Méthodes statistiques: Régression logistique, régression binomiale négative, test du chi-carré
Niveaux de signification: p<0,05, p<0,01, p<0,001

Résultats expérimentaux

Résultats principaux

1. Analyse des décisions d'embauche

Biais régional: Les travailleurs indépendants américains présentent un avantage significatif par rapport aux travailleurs indépendants indiens
- Taux de victoire des hommes américains: 1,212 (IC 95%: 1,066, 1,375, p=0,003)
- Taux de victoire des femmes américaines: 1,158 (IC 95%: 1,020, 1,315, p=0,025)
- Taux de victoire des hommes indiens: 0,767 (IC 95%: 0,678, 0,869, p<0,001)
Biais de genre: Au sein du même pays, les différences de genre ne sont pas significatives (p>0,3)

2. Analyse de la perception du leadership

Biais régional fort:
- Hommes américains vs hommes indiens: OR=2,014 (p<0,001)
- Femmes américaines vs femmes indiennes: OR=1,934 (p<0,001)
Avantage global des candidats américains: Les candidats américains des deux genres sont significativement plus souvent sélectionnés comme leaders

3. Analyse de l'évaluation post-projet

Biais de genre: Les travailleuses indépendantes ont une probabilité 51,2% plus élevée de recevoir des évaluations imparfaites (OR=1,512, p<0,001)
Biais régional: Les travailleurs indépendants américains ont une probabilité 37,9% plus faible de recevoir des évaluations imparfaites (OR=0,621, p=0,019)

4. Analyse du nombre d'avis

Effet d'interaction significatif: L'impact du genre sur le nombre d'avis dépend du pays (p=0,031)
- Les femmes indiennes reçoivent 24% plus d'avis que les hommes indiens (IRR=1,237)
- Les femmes américaines reçoivent 22% moins d'avis que les hommes américains

Expériences d'ablation

L'article valide l'action indépendante et les effets d'interaction des facteurs régionaux et de genre par comparaison de modèles avec et sans termes d'interaction.

Résultats expérimentaux

Différences de phase: Le biais de genre n'est pas significatif à la phase d'embauche mais devient significatif à la phase d'évaluation; le biais régional est significatif et cohérent aux deux phases.
Universalité du biais régional: Les travailleurs indépendants américains jouissent d'un avantage systématique en matière de sélection, de perception du leadership et d'évaluation.
Complexité du biais de genre: Les femmes ne sont pas désavantagées dans l'obtention d'opportunités de travail, mais font face à des normes d'évaluation plus strictes après l'exécution du travail.

Travaux connexes

Recherche sur la discrimination sur les marchés en ligne

Hannak et al. (2017): Découverte de biais raciaux et de genre sur TaskRabbit et Fiverr
Edelman et al. (2017): Découverte de la persistance de la discrimination des consommateurs sur les plateformes d'économie de partage comme Airbnb
Chan & Wang (2018): Découverte de préférences d'embauche envers les candidates femmes dans certains contextes

Applications du machine learning et des LLM

Limitations des méthodes traditionnelles: L'extraction de données et l'analyse économétrique rendent difficile le contrôle de toutes les variables confondantes potentielles
Application des LLM dans la recherche sur les plateformes: Compréhension des activités utilisateur sur Stack Overflow, les avis en ligne, le comportement de recherche, etc.
Technologie RAG: Surmonter les erreurs factuelles des LLM standards et les insuffisances du traitement des informations spécialisées

Conclusions et discussion

Conclusions principales

Percée méthodologique: Le cadre RAG-LLM réalise avec succès un contrôle des variables de haute précision, fournissant un nouvel outil méthodologique pour la recherche sur les biais en ligne.
Caractéristiques phasées du biais de genre: Les femmes ne font pas face à un désavantage significatif à la phase d'embauche, mais font face à des normes de jugement plus strictes dans l'évaluation post-projet.
Systématicité du biais régional: Les travailleurs indépendants américains jouissent d'un avantage tout au long du processus, de la sélection d'embauche à l'évaluation finale, reflétant des biais culturels et des stéréotypes profonds.

Limitations

Limitation géographique: La recherche se concentre principalement sur les travailleurs indépendants américains et indiens, ce qui peut ne pas représenter complètement la situation mondiale.
Spécificité de la plateforme: Basée uniquement sur les données de Freelancer.com, différentes plateformes peuvent présenter des modèles de biais différents.
Limitation temporelle: La recherche reflète les biais à un moment spécifique et peut changer au fil du temps.
Représentativité des participants: Les participants MTurk peuvent ne pas représenter complètement le groupe réel d'employeurs.

Directions futures

Validation multi-plateforme: Vérification de l'universalité des résultats de recherche sur plusieurs plateformes de travail indépendant.
Recherche longitudinale: Suivi des tendances de changement des biais au fil du temps.
Mesures d'intervention: Conception et test de mesures d'intervention de conception de plateforme basées sur les résultats de recherche pour réduire les biais.
Extension démographique: Inclusion de dimensions démographiques supplémentaires telles que l'âge, le contexte éducatif, etc.

Évaluation approfondie

Avantages

Forte innovativité méthodologique: La méthode de génération de données expérimentales contrôlées par RAG-LLM est pionnière et fournit un nouvel outil pour la recherche expérimentale en sciences sociales.
Conception expérimentale rigoureuse: La conception d'analyse multi-étapes est complète, considérant à la fois les décisions pré-embauche et l'évaluation post-projet.
Analyse statistique suffisante: Utilisation de méthodes statistiques appropriées, incluant l'analyse des effets d'interaction, avec des résultats statistiquement significatifs.
Importance pratique significative: Les résultats de recherche ont des implications politiques importantes pour comprendre l'équité du marché du travail en ligne.
Implémentation technologique complète: De la collecte de données à la construction de la plateforme expérimentale, la route technologique est claire et complète.

Insuffisances

Taille d'échantillon relativement limitée: Bien que comprenant 12 799 profils, la taille des participants à l'étude utilisateur peut nécessiter une expansion supplémentaire.
Analyse insuffisante des facteurs culturels: L'explication des biais régionaux repose principalement sur des conjectures, manquant d'analyse approfondie des mécanismes culturels et psychologiques.
Effets à long terme inconnus: La recherche est transversale et ne peut pas révéler les changements dynamiques des biais.
Vérification de la qualité de génération: Bien que mentionnant l'examen manuel des profils générés, il manque des métriques d'évaluation de qualité systématiques.

Impact

Contribution académique: Fournit un nouveau paradigme de recherche pour les domaines HCI et informatique sociale, devant être largement cité et appliqué.
Valeur pratique: Les résultats de recherche peuvent guider l'amélioration de la conception des plateformes, favorisant un marché du travail en ligne plus équitable.
Reproductibilité: La méthodologie est claire et l'implémentation technologique est reproductible, facilitant la validation et l'extension des recherches ultérieures.
Impact interdisciplinaire: Combinant la technologie IA et la recherche en sciences sociales, reflétant la valeur de la recherche interdisciplinaire.

Scénarios applicables

Recherche sur les biais des plateformes en ligne: Peut être étendue à d'autres types de marchés et de plateformes en ligne.
Évaluation de l'équité algorithmique: Fournit une nouvelle méthode de génération de données pour tester l'équité des systèmes IA.
Support de la formulation de politiques: Fournit des preuves empiriques pour la formulation de politiques d'équité du marché du travail.
Optimisation de la conception de plateforme: Guide la conception de l'interface utilisateur et des algorithmes de recommandation des plateformes en ligne.

Références

L'article cite 35 articles connexes, couvrant plusieurs domaines de recherche importants incluant la discrimination sur les marchés en ligne, l'application du machine learning, et l'interaction homme-ordinateur, fournissant une base théorique et un soutien méthodologique solides pour cette recherche.

Évaluation globale: Ceci est un article de recherche de haute qualité avec une innovation méthodologique importante. En réalisant un contrôle précis des variables grâce à la technologie RAG-LLM, il ouvre une nouvelle voie pour la recherche sur les biais en ligne. Les résultats de recherche ont une importance théorique et pratique significative, contribuant positivement à la promotion de l'équité du marché du travail en ligne. Malgré certaines limitations, il s'agit d'une contribution importante dans ce domaine.