2025-11-25T02:07:24.751943

Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents

Zheng, Shan
Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.
academic

Einstellung Bias Enthüllen: Plattformdatenanalyse und kontrollierte Experimente zu Vorurteilen in Online-Freelance-Märkten mittels RAG-LLM-generierter Inhalte

Grundinformationen

  • Paper-ID: 2510.13091
  • Titel: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
  • Autoren: Wugeng Zheng, Guohou Shan (Northeastern University)
  • Klassifikation: cs.HC (Human-Computer Interaction)
  • Veröffentlichungskonferenz: ACM Conference on Intelligent User Interfaces 2026
  • Paper-Link: https://arxiv.org/abs/2510.13091

Zusammenfassung

Online-Freelance-Märkte als schnell wachsender Teil des globalen Arbeitsmarktes sollten theoretisch ein faires Umfeld schaffen, in dem berufliche Fähigkeiten der Hauptfaktor für Einstellungsentscheidungen sind. Persönliche Informationen in Benutzerprofilen werfen jedoch Bedenken hinsichtlich anhaltender Diskriminierung auf. Dieses Paper präsentiert einen innovativen Ansatz, der Retrieval-Augmented Generation (RAG) mit großen Sprachmodellen (LLM) nutzt, um realistische synthetische Freelancer-Profile für kontrollierte Experimente zu erstellen. Die Ergebnisse zeigen, dass es bei der Geschlechtskomponente zwar keine signifikanten Vorlieben bei anfänglichen Einstellungsentscheidungen gibt, aber weibliche Freelancer nach Projektabschluss eher unvollkommene Bewertungen erhalten. Bei regionalen Vorurteilen zeigen US-amerikanische Freelancer einen starken und konsistenten Vorteil.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Realisieren Online-Freelance-Plattformen wirklich das Ziel, Einstellungsvorurteile zu beseitigen, und wie können diese Vorurteile genau gemessen und analysiert werden?
  2. Bedeutung:
    • Der Online-Freelance-Markt hat sich nach COVID-19 schnell entwickelt, wobei 20-30% der erwerbstätigen Bevölkerung in Europa und Nordamerika in unabhängiger Arbeit tätig sind
    • Diese Plattformen sollten theoretisch auf der Grundlage von Fähigkeiten und nicht auf persönlichem Hintergrund bewerten
    • Persönlich identifizierbare Informationen in Benutzerprofilen können zu bewussten oder unbewussten Vorurteilen führen
  3. Einschränkungen bestehender Methoden:
    • Traditionelle Forschung stützt sich hauptsächlich auf Beobachtungsdatenanalyse, was es schwierig macht, Störvariablen zu kontrollieren
    • Die Fähigkeiten, Bildungshintergründe und Projekterfahrung von Freelancern sind typischerweise mit demografischen Attributen (Geschlecht, Rasse) verflochten
    • Die Erfassung großer Datensätze zur statistischen Kontrolle dieser Variablen ist mit erheblichen Herausforderungen verbunden
  4. Forschungsmotivation: Entwicklung einer neuen experimentellen Methode, die Variablen streng kontrollieren kann und die unabhängige Auswirkung spezifischer demografischer Faktoren auf Einstellungsentscheidungen präzise isolieren und messen kann.

Kernbeiträge

  1. Methodologische Innovation: Erstmalige Verwendung des RAG-LLM-Frameworks zur Generierung hochgradig kontrollierter synthetischer Daten für kontrollierte Einstellungsvorurteils-Experimente, was die Herausforderung von Störvariablen in traditionellen Beobachtungsdaten überwindet.
  2. Mehrstufige Bias-Analyse: Vorschlag eines umfassenden Analyserahmens, der die Voreinstellungsphase (durch Benutzerstudien) und die Nachprojekt-Bewertungsphase (unter Verwendung realer Daten) abdeckt und eine vollständigere Perspektive als nur auf Nachprojekt-Daten beschränkte Forschung bietet.
  3. Präzise Variablenkontrolle: Realisierung präziser Variablenisolation durch RAG-LLM-generierte Profile, die es ermöglicht, Kandidatenprofile zu erstellen, die in allen Aspekten außer spezifischen Forschungsvariablen nahezu identisch sind.
  4. Empirische Befunde: Enthüllung unterschiedlicher Manifestationsmuster von Geschlechts- und Regionalvorurteilen in verschiedenen Phasen und Bereitstellung neuer Erkenntnisse zum Verständnis von Diskriminierungsmechanismen in Online-Märkten.

Methodische Details

Aufgabendefinition

Eingabe: Echte Benutzerdaten von Freelance-Plattformen und spezifische demografische Variablenkontrollanforderungen Ausgabe: Hochgradig kontrollierte synthetische Freelancer-Profile zur Messung der Auswirkung spezifischer Variablen auf Einstellungsentscheidungen Einschränkungen: Die generierten Profile müssen in Fähigkeiten, Erfahrung und Bewertungen hochgradig ähnlich sein und dürfen nur in Forschungsvariablen (wie Geschlecht, Region) unterschiedlich sein

Modellarchitektur

1. Datenbeschaffung und -verarbeitung

  • Datenquelle: Scraping von 12.799 Freelancer-Profilen von Freelancer.com
  • Datenvorverarbeitung:
    • Verwendung eines vortrainierten Gesichtserkennungsmodells von Huggingface für Geschlechtsklassifikation (Konfidenz-Schwellenwert 0,75)
    • Fokus auf Freelancer aus Indien und den USA (die beiden repräsentativsten Länder im Datensatz)
    • Extraktion von Benutzernamen, Benutzer-ID, Verifizierungsabzeichen, Gesamtbewertung, Profiltagline und anderen Attributen

2. RAG-LLM-Pipeline

  • Vektorisierung: Verwendung eines Huggingface-Einbettungsmodells zur Vektorisierung der verarbeiteten Daten und zum Aufbau einer Wissensdatenbank
  • Kernmodell: Einsatz des Qwen/QwQ-32B-Sprachmodells
  • Generierungsprozess:
    1. Abruf: Abruf der ähnlichsten Profile aus der Wissensdatenbank als Referenz
    2. Anreicherung: Hinzufügen der abgerufenen Dokumente zum LLM-Kontext
    3. Generierung: Generierung kohärenter und mit realen Daten konsistenter Profile basierend auf angereicherten Eingabeaufforderungen

3. Experimentelle Plattform

  • Technologie-Stack: Verwendung von Flask zum Aufbau einer interaktiven Webseite
  • Aufgabendesign:
    • Freelancer-Vergleichsaufgabe: Nebeneinander Anzeige zweier Profile mit Aufforderung an Benutzer, den bevorzugten Kandidaten auszuwählen
    • Bewertungsvergleichsaufgabe: Anzeige relevanter Bewertungsinformationen und Beantwortung von Fragen
  • Datenerfassung: Aufzeichnung von Benutzerauswahl und Interaktionsdaten

4. Teilnehmerrekrutierung

  • Plattform: Rekrutierung von Teilnehmern über Amazon Mechanical Turk (MTurk)
  • Qualitätskontrolle: Einbeziehung von Aufmerksamkeitsprüfungsfragen zur Filterung nicht bestandener Einreichungen

Technische Innovationspunkte

  1. Präzise Variablenkontrolle: Im Vergleich zu traditionellen Methoden kann das RAG-LLM-Framework Profile generieren, die in allen Attributen hochgradig ähnlich sind und nur in Forschungsvariablen unterschiedlich sind, wodurch eine beispiellose experimentelle Kontrollgenauigkeit erreicht wird.
  2. Realitätssicherung: Durch den RAG-Mechanismus basieren die generierten Profile auf echten Daten und vermeiden die Unrealismus und Inkonsistenzen, die bei reiner manueller Erstellung auftreten können.
  3. Effizienzsteigerung: Im Vergleich zu manueller Erstellung, die 10-15 Minuten pro Profil erfordert, verbessert die RAG-LLM-Methode die Generierungseffizienz erheblich und gewährleistet gleichzeitig die Qualität.

Experimentelles Setup

Datensatz

  • Umfang: 12.799 echte Freelancer-Profile
  • Quelle: Freelancer.com-Plattform
  • Merkmale: Benutzername, ID, Verifizierungsstatus, Bewertung, Anzahl der Bewertungen, Land, KI-inferiertes Geschlecht
  • Synthetische Daten: Generierung von 1.980 hochgradig kontrollierten Profilepaaren für Benutzerstudien

Bewertungsmetriken

  • Einstellungspräferenz: Profilauswahlwahrscheinlichkeit und Gewinnquote
  • Führungswahrnehmung: Wahrscheinlichkeit, als führungsstärker ausgewählt zu werden
  • Bewertungsbias: Wahrscheinlichkeit, nicht-5-Stern-Bewertungen zu erhalten (unter Verwendung logistischer Regression)
  • Anzahl der Bewertungen: Anzahl der erhaltenen Bewertungen (unter Verwendung negativer Binomialregression)

Vergleichsmethoden

  • Traditionelle Beobachtungsdatenanalysemethoden
  • Statistische Regressionsanalyse (mit und ohne Interaktionsterme)

Implementierungsdetails

  • Konfidenz-Schwellenwert: Geschlechtsklassifikationsmodell-Konfidenz > 0,75
  • Statistische Methoden: Logistische Regression, negative Binomialregression, Chi-Quadrat-Test
  • Signifikanzniveau: p<0,05, p<0,01, p<0,001

Experimentelle Ergebnisse

Hauptergebnisse

1. Einstellungsentscheidungsanalyse

  • Regionalbias: US-amerikanische Freelancer haben einen signifikanten Vorteil gegenüber indischen Freelancern
    • US-amerikanische Männer Gewinnquote: 1,212 (95% KI: 1,066, 1,375, p=0,003)
    • US-amerikanische Frauen Gewinnquote: 1,158 (95% KI: 1,020, 1,315, p=0,025)
    • Indische Männer Gewinnquote: 0,767 (95% KI: 0,678, 0,869, p<0,001)
  • Geschlechtsbias: Innerhalb desselben Landes sind Geschlechtsunterschiede nicht signifikant (p>0,3)

2. Führungswahrnehmungsanalyse

  • Starker Regionalbias:
    • US-amerikanische Männer vs. indische Männer: OR=2,014 (p<0,001)
    • US-amerikanische Frauen vs. indische Frauen: OR=1,934 (p<0,001)
  • Gesamtvorteil US-amerikanischer Kandidaten: Kandidaten aus den USA beider Geschlechter werden signifikant häufiger als Führungskräfte ausgewählt

3. Nachprojekt-Bewertungsanalyse

  • Geschlechtsbias: Weibliche Freelancer erhalten mit 51,2% höherer Wahrscheinlichkeit nicht-perfekte Bewertungen (OR=1,512, p<0,001)
  • Regionalbias: US-amerikanische Freelancer erhalten mit 37,9% niedrigerer Wahrscheinlichkeit nicht-perfekte Bewertungen (OR=0,621, p=0,019)

4. Bewertungsanzahlanalyse

  • Signifikante Interaktionseffekte: Die Auswirkung des Geschlechts auf die Bewertungsanzahl hängt vom Land ab (p=0,031)
    • Indische Frauen erhalten 24% mehr Bewertungen als indische Männer (IRR=1,237)
    • US-amerikanische Frauen erhalten 22% weniger Bewertungen als US-amerikanische Männer

Ablationsexperimente

Das Paper validiert die unabhängigen Auswirkungen und Interaktionseffekte von Regional- und Geschlechtsfaktoren durch Vergleich von Modellen mit und ohne Interaktionsterme.

Experimentelle Befunde

  1. Phasendifferenzen: Geschlechtsbias ist in der Einstellungsphase nicht signifikant, aber in der Bewertungsphase signifikant; Regionalbias ist in beiden Phasen signifikant und konsistent.
  2. Universalität des Regionalbiases: US-amerikanische Freelancer genießen systematische Vorteile bei Auswahl, Führungswahrnehmung und Bewertung.
  3. Komplexität des Geschlechtsbiases: Frauen sind bei der Gewinnung von Arbeitsmöglichkeiten nicht benachteiligt, sehen sich aber bei der Arbeitsbewertung strengeren Standards gegenüber.

Verwandte Arbeiten

Diskriminierungsforschung in Online-Märkten

  • Hannak et al. (2017): Entdeckung von Rassen- und Geschlechtsbias auf TaskRabbit und Fiverr
  • Edelman et al. (2017): Feststellung anhaltender Verbraucherdiskriminierung auf Sharing-Economy-Plattformen wie Airbnb
  • Chan & Wang (2018): Entdeckung von Einstellungspräferenzen für weibliche Bewerber in bestimmten Situationen

Maschinelles Lernen und LLM-Anwendungen

  • Einschränkungen traditioneller Methoden: Datenbeschaffung und ökonometrische Analyse können nicht alle potenziellen Störvariablen kontrollieren
  • LLM-Anwendungen in der Plattformforschung: Verständnis von Benutzeraktivitäten auf Stack Overflow, Online-Bewertungen, Suchverhalten und anderen Feldern
  • RAG-Technologie: Überwindung von Faktizitätsfehlern standardmäßiger LLMs und unzureichender Fähigkeiten zur Verarbeitung spezialisierter Informationen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodologischer Durchbruch: Das RAG-LLM-Framework realisiert erfolgreich hochpräzise Variablenkontrolle und bietet neue methodologische Werkzeuge für die Online-Bias-Forschung.
  2. Phasische Charakteristiken des Geschlechtsbiases: Frauen sehen sich in der Einstellungsphase keinen signifikanten Nachteilen gegenüber, aber in der Bewertung nach Projektabschluss strengeren Beurteilungsstandards.
  3. Systemische Natur des Regionalbiases: US-amerikanische Freelancer genießen Vorteile über den gesamten Prozess von Einstellungsauswahl bis zur endgültigen Bewertung, was tiefere kulturelle Vorurteile und Stereotypen widerspiegelt.

Einschränkungen

  1. Geografische Reichweitenbeschränkung: Die Forschung konzentriert sich hauptsächlich auf US-amerikanische und indische Freelancer und kann möglicherweise nicht vollständig die globale Situation repräsentieren.
  2. Plattformspezifität: Basierend nur auf Daten von Freelancer.com können verschiedene Plattformen unterschiedliche Bias-Muster aufweisen.
  3. Zeitliche Einschränkung: Die Forschung spiegelt Vorurteile zu einem bestimmten Zeitpunkt wider und kann sich im Laufe der Zeit ändern.
  4. Repräsentativität der Teilnehmer: MTurk-Teilnehmer repräsentieren möglicherweise nicht vollständig die echte Arbeitgebergruppe.

Zukünftige Richtungen

  1. Plattformübergreifende Validierung: Validierung der Universalität der Forschungsergebnisse auf mehreren Freelance-Plattformen.
  2. Längsschnittstudien: Verfolgung von Trends bei Vorurteilen im Laufe der Zeit.
  3. Interventionsmaßnahmen: Entwurf und Test von Plattformdesign-Interventionen zur Verringerung von Vorurteilen basierend auf Forschungsergebnissen.
  4. Erweiterung demografischer Dimensionen: Einbeziehung zusätzlicher demografischer Dimensionen wie Alter, Bildungshintergrund usw.

Tiefgreifende Bewertung

Stärken

  1. Starke methodologische Innovation: Die Methode zur Generierung kontrollierter Experimentaldaten mit RAG-LLM ist bahnbrechend und bietet neue Werkzeuge für sozialwissenschaftliche experimentelle Forschung.
  2. Strenge Experimentaldesign: Das mehrstufige Analysedesign ist umfassend und berücksichtigt sowohl Voreinstellungsentscheidungen als auch Nachprojekt-Bewertungen.
  3. Umfassende statistische Analyse: Verwendung angemessener statistischer Methoden, einschließlich Interaktionseffektanalyse, mit statistisch signifikanten Ergebnissen.
  4. Große praktische Bedeutung: Die Forschungsergebnisse haben wichtige politische Implikationen für das Verständnis der Fairness des Online-Arbeitsmarktes.
  5. Vollständige technische Implementierung: Klare und vollständige technische Route von der Datenerfassung bis zum Experimentalplattform-Aufbau.

Mängel

  1. Relativ begrenzte Stichprobengröße: Obwohl 12.799 Profile enthalten sind, kann die Teilnehmerzahl der Benutzerstudie möglicherweise weiter erweitert werden.
  2. Unzureichende Analyse kultureller Faktoren: Die Erklärung des Regionalbiases basiert hauptsächlich auf Vermutungen und ermangelt tiefgreifender Analyse kultureller und psychologischer Mechanismen.
  3. Langzeiteffekte unbekannt: Die Forschung ist querschnittlich und kann die dynamischen Veränderungen von Vorurteilen nicht offenbaren.
  4. Validierung der Generierungsqualität: Obwohl manuelle Überprüfung der generierten Profile erwähnt wird, fehlen systematische Qualitätsbewertungsmetriken.

Auswirkungen

  1. Akademischer Beitrag: Bietet ein neues Forschungsparadigma für die HCI- und Social-Computing-Felder, das voraussichtlich weit zitiert und angewendet wird.
  2. Praktischer Wert: Die Forschungsergebnisse können Plattformdesign-Verbesserungen leiten und einen faireren Online-Arbeitsmarkt fördern.
  3. Reproduzierbarkeit: Klare Methodik und reproduzierbare technische Implementierung fördern die Validierung und Erweiterung durch nachfolgende Forschung.
  4. Interdisziplinäre Auswirkungen: Kombination von KI-Technologie und sozialwissenschaftlicher Forschung, die den Wert interdisziplinärer Forschung demonstriert.

Anwendungsszenarien

  1. Online-Plattform-Bias-Forschung: Erweiterbar auf andere Arten von Online-Märkten und Plattformen.
  2. Algorithmen-Fairness-Bewertung: Bietet neue Datengenerierungsmethoden für Fairness-Tests von KI-Systemen.
  3. Politische Entscheidungsunterstützung: Bereitstellung empirischer Evidenz für die Politikgestaltung zur Arbeitsmarktfairness.
  4. Plattformdesign-Optimierung: Anleitung für Benutzeroberflächen- und Empfehlungsalgorithmus-Design von Online-Plattformen.

Literaturverzeichnis

Das Paper zitiert 35 relevante Literaturquellen, die Forschungen zu Online-Markt-Diskriminierung, Maschinenlern-Anwendungen, Mensch-Computer-Interaktion und anderen Bereichen abdecken und eine solide theoretische und methodologische Grundlage für diese Forschung bieten.


Gesamtbewertung: Dies ist ein hochwertiges Forschungspapier mit wichtigen methodologischen Innovationen. Durch die Realisierung präziser Variablenkontrolle mit RAG-LLM-Technologie eröffnet es neue Wege für die Online-Bias-Forschung. Die Forschungsergebnisse haben wichtige theoretische und praktische Bedeutung und tragen positiv zur Förderung der Fairness des Online-Arbeitsmarktes bei. Trotz einiger Einschränkungen ist es insgesamt ein wichtiger Beitrag zu diesem Forschungsgebiet.