2025-11-25T02:07:24.751943

Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents

Zheng, Shan

Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.

academic

Smascherare i Pregiudizi nelle Assunzioni: Analisi dei Dati della Piattaforma e Esperimenti Controllati sui Pregiudizi nei Mercati Freelance Online tramite Contenuti Generati da RAG-LLM

Informazioni Fondamentali

ID Articolo: 2510.13091
Titolo: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
Autori: Wugeng Zheng, Guohou Shan (Northeastern University)
Classificazione: cs.HC (Interazione Uomo-Computer)
Conferenza di Pubblicazione: ACM Conference on Intelligent User Interfaces 2026
Link Articolo: https://arxiv.org/abs/2510.13091

Riassunto

I mercati freelance online, come parte in rapida crescita del mercato del lavoro globale, dovrebbero teoricamente creare un ambiente equo in cui le competenze professionali sono il fattore principale di assunzione. Tuttavia, le informazioni personali nei profili utente suscitano preoccupazioni riguardanti la discriminazione persistente. Questo articolo propone un approccio innovativo che utilizza la Generazione Aumentata da Recupero (RAG) con Modelli di Linguaggio di Grandi Dimensioni (LLM) per creare profili realistici di freelancer artificiali per esperimenti controllati. I risultati della ricerca mostrano che, per quanto riguarda il genere, sebbene non emergano preferenze significative nelle decisioni di assunzione iniziali, i freelancer donne hanno maggiori probabilità di ricevere valutazioni imperfette dopo il completamento del progetto. Per quanto riguarda i pregiudizi geografici, i freelancer statunitensi mostrano un vantaggio forte e coerente.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Se i mercati freelance online raggiungono veramente l'obiettivo di eliminare i pregiudizi nelle assunzioni e come misurare e analizzare accuratamente questi pregiudizi.
Importanza:
- I mercati freelance online hanno subito uno sviluppo rapido dopo il COVID-19, con il 20-30% della popolazione in età lavorativa in Europa e America impegnata in lavoro indipendente
- Queste piattaforme dovrebbero teoricamente valutare in base alle competenze piuttosto che al background personale
- Le informazioni personali identificabili nei profili utente possono portare a pregiudizi consci o inconsci
Limitazioni dei Metodi Esistenti:
- La ricerca tradizionale si basa principalmente sull'analisi osservazionale dei dati, rendendo difficile controllare le variabili confondenti
- Le competenze, l'istruzione e l'esperienza progettuale dei freelancer sono spesso intrecciate con attributi demografici (genere, razza)
- La raccolta di set di dati su larga scala per controllare statisticamente queste variabili presenta sfide significative
Motivazione della Ricerca: Sviluppare un nuovo metodo sperimentale che possa controllare rigorosamente le variabili e misurare con precisione l'impatto indipendente di specifici fattori demografici sulle decisioni di assunzione.

Contributi Principali

Innovazione Metodologica: Primo utilizzo del framework RAG-LLM per generare dati sintetici altamente controllati per esperimenti controllati sui pregiudizi nelle assunzioni, superando le sfide dei fattori confondenti nei dati osservazionali tradizionali.
Analisi dei Pregiudizi Multistadio: Propone un framework di analisi completo che copre la fase pre-assunzione (attraverso ricerca con utenti) e la fase di valutazione post-progetto (utilizzando dati del mondo reale), fornendo una prospettiva più completa rispetto alla ricerca limitata ai soli dati post-progetto.
Controllo Preciso delle Variabili: Realizza l'isolamento preciso delle variabili attraverso profili generati da RAG-LLM, consentendo la creazione di profili di candidati quasi identici in tutti gli aspetti tranne che per le variabili di ricerca specifiche.
Risultati Empirici: Rivela diversi modelli di manifestazione dei pregiudizi di genere e geografici in diverse fasi, fornendo nuove intuizioni per comprendere i meccanismi della discriminazione nei mercati online.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Dati utente reali dalla piattaforma freelance e requisiti specifici di controllo delle variabili demografiche Output: Profili di freelancer sintetici altamente controllati per misurare l'impatto di variabili specifiche sulle decisioni di assunzione Vincoli: I profili generati devono essere altamente simili in termini di competenze, esperienza e valutazioni, differendo solo nelle variabili di ricerca (come genere e area geografica)

Architettura del Modello

1. Acquisizione e Elaborazione dei Dati

Fonte Dati: Estrazione di 12.799 profili di freelancer da Freelancer.com
Preelaborazione Dati:
- Utilizzo di modelli di riconoscimento facciale preaddestrati da Huggingface per la classificazione del genere (soglia di confidenza 0,75)
- Attenzione focalizzata su freelancer indiani e statunitensi (i due paesi più rappresentativi nel set di dati)
- Estrazione di attributi come nome utente, ID utente, badge di verifica, valutazione complessiva, tagline del profilo

2. Pipeline RAG-LLM

Vettorizzazione: Utilizzo di modelli di embedding da Huggingface per vettorizzare i dati elaborati e costruire una base di conoscenza
Modello Principale: Adozione del modello di linguaggio di grandi dimensioni Qwen/QwQ-32B
Processo di Generazione:
1. Recupero: Recupero dei profili più simili dalla base di conoscenza come riferimento
2. Aumento: Aggiunta dei documenti recuperati al contesto dell'LLM
3. Generazione: Generazione di profili coerenti e coerenti con i dati del mondo reale basati su prompt aumentati

3. Piattaforma Sperimentale

Stack Tecnologico: Utilizzo di Flask per costruire un'interfaccia web interattiva
Progettazione del Compito:
- Compito di confronto tra freelancer: visualizzazione affiancata di due profili, richiedendo agli utenti di scegliere il candidato che preferirebbero assumere
- Compito di confronto tra commenti: visualizzazione di informazioni di commenti rilevanti e risposta a domande
Raccolta Dati: Registrazione delle scelte utente e dei dati di interazione

4. Reclutamento dei Partecipanti

Piattaforma: Reclutamento di partecipanti tramite Amazon Mechanical Turk (MTurk)
Controllo di Qualità: Inclusione di domande di controllo dell'attenzione per filtrare i contributi che non superano i controlli

Punti di Innovazione Tecnica

Controllo Preciso delle Variabili: Rispetto ai metodi tradizionali, il framework RAG-LLM è in grado di generare coppie di profili altamente simili in tutti gli attributi, differendo solo nelle variabili di ricerca, realizzando così un controllo sperimentale senza precedenti.
Garanzia di Realismo: Attraverso il meccanismo RAG, i profili generati si basano su dati reali, evitando l'irrealismo e i problemi di coerenza che potrebbero derivare dalla composizione manuale.
Miglioramento dell'Efficienza: Rispetto alla composizione manuale che richiede 10-15 minuti per profilo, il metodo RAG-LLM aumenta significativamente l'efficienza di generazione mantenendo la qualità.

Configurazione Sperimentale

Set di Dati

Scala: 12.799 profili di freelancer reali
Fonte: Piattaforma Freelancer.com
Caratteristiche: Nome utente, ID, stato di verifica, valutazione, numero di commenti, paese, genere dedotto da IA
Dati Sintetici: Generazione di 1.980 coppie di profili altamente controllate per la ricerca con utenti

Metriche di Valutazione

Preferenza di Assunzione: Probabilità di selezione del profilo e tasso di vittoria
Percezione della Leadership: Probabilità di essere selezionato come più autorevole
Pregiudizio di Valutazione: Probabilità di ricevere una valutazione non a 5 stelle (utilizzando regressione logistica)
Numero di Commenti: Numero di commenti ricevuti (utilizzando regressione binomiale negativa)

Metodi di Confronto

Metodo tradizionale di analisi dei dati osservazionali
Analisi di regressione statistica (con e senza termini di interazione)

Dettagli di Implementazione

Soglia di Confidenza: Confidenza del modello di classificazione del genere > 0,75
Metodi Statistici: Regressione logistica, regressione binomiale negativa, test del chi-quadrato
Livello di Significatività: p<0,05, p<0,01, p<0,001

Risultati Sperimentali

Risultati Principali

1. Analisi delle Decisioni di Assunzione

Pregiudizio Geografico: I freelancer statunitensi hanno un vantaggio significativo rispetto ai freelancer indiani
- Tasso di vittoria uomini statunitensi: 1,212 (IC 95%: 1,066, 1,375, p=0,003)
- Tasso di vittoria donne statunitensi: 1,158 (IC 95%: 1,020, 1,315, p=0,025)
- Tasso di vittoria uomini indiani: 0,767 (IC 95%: 0,678, 0,869, p<0,001)
Pregiudizio di Genere: All'interno dello stesso paese, le differenze di genere non sono significative (p>0,3)

2. Analisi della Percezione della Leadership

Pregiudizio Geografico Forte:
- Uomini statunitensi vs uomini indiani: OR=2,014 (p<0,001)
- Donne statunitensi vs donne indiane: OR=1,934 (p<0,001)
Vantaggio Complessivo dei Candidati Statunitensi: I candidati statunitensi di entrambi i generi sono significativamente più spesso selezionati come leader

3. Analisi della Valutazione Post-Progetto

Pregiudizio di Genere: Le freelancer donne hanno una probabilità del 51,2% più alta di ricevere valutazioni non perfette (OR=1,512, p<0,001)
Pregiudizio Geografico: I freelancer statunitensi hanno una probabilità del 37,9% più bassa di ricevere valutazioni non perfette (OR=0,621, p=0,019)

4. Analisi del Numero di Commenti

Effetto di Interazione Significativo: L'impatto del genere sul numero di commenti dipende dal paese (p=0,031)
- Le donne indiane ricevono il 24% di commenti in più rispetto agli uomini indiani (IRR=1,237)
- Le donne statunitensi ricevono il 22% di commenti in meno rispetto agli uomini statunitensi

Esperimenti di Ablazione

L'articolo verifica l'azione indipendente e gli effetti di interazione dei fattori geografici e di genere attraverso il confronto di modelli con e senza termini di interazione.

Risultati Sperimentali

Differenze di Fase: Il pregiudizio di genere non è significativo nella fase di assunzione ma è significativo nella fase di valutazione; il pregiudizio geografico è significativo e coerente in entrambe le fasi.
Universalità del Pregiudizio Geografico: I freelancer statunitensi godono di un vantaggio sistematico nella selezione, nella percezione della leadership e nelle valutazioni.
Complessità del Pregiudizio di Genere: Le donne non sono svantaggiate nell'ottenere opportunità di lavoro, ma affrontano standard di valutazione più rigorosi nel lavoro.

Lavori Correlati

Ricerca sulla Discriminazione nei Mercati Online

Hannak et al. (2017): Scoperta di pregiudizi razziali e di genere su TaskRabbit e Fiverr
Edelman et al. (2017): Scoperta della persistenza della discriminazione dei consumatori su piattaforme di economia condivisa come Airbnb
Chan & Wang (2018): Scoperta di preferenze di assunzione per le donne richiedenti in alcuni casi

Applicazioni di Machine Learning e LLM

Limitazioni dei Metodi Tradizionali: Lo scraping dei dati e l'analisi econometrica hanno difficoltà a controllare tutte le potenziali variabili confondenti
Applicazione di LLM nella Ricerca su Piattaforme: Comprensione dell'attività degli utenti in Stack Overflow, recensioni online, comportamento di ricerca e altri campi
Tecnologia RAG: Superamento dei problemi di errori fattuali degli LLM standard e insufficienza nella gestione di informazioni specializzate

Conclusioni e Discussione

Conclusioni Principali

Avanzamento Metodologico: Il framework RAG-LLM realizza con successo il controllo delle variabili ad alta precisione, fornendo un nuovo strumento metodologico per la ricerca sui pregiudizi online.
Caratteristiche di Fase del Pregiudizio di Genere: Le donne non affrontano uno svantaggio significativo nella fase di assunzione, ma affrontano standard di giudizio più rigorosi nella valutazione dopo il completamento del progetto.
Sistematicità del Pregiudizio Geografico: I freelancer statunitensi godono di un vantaggio nel processo completo dalla selezione di assunzione alla valutazione finale, riflettendo pregiudizi culturali e stereotipi più profondi.

Limitazioni

Limitazioni Geografiche: La ricerca si concentra principalmente su freelancer statunitensi e indiani, il che potrebbe non rappresentare completamente la situazione globale.
Specificità della Piattaforma: Basato solo su dati da Freelancer.com, diverse piattaforme potrebbero presentare diversi modelli di pregiudizio.
Limitazione Temporale: La ricerca riflette la situazione dei pregiudizi in un momento specifico nel tempo, che potrebbe cambiare nel tempo.
Rappresentatività dei Partecipanti: I partecipanti a MTurk potrebbero non rappresentare completamente il vero gruppo di datori di lavoro.

Direzioni Future

Verifica Multipiattaforma: Verifica dell'universalità dei risultati della ricerca su più piattaforme freelance.
Ricerca Longitudinale: Tracciamento dei trend di cambiamento dei pregiudizi nel tempo.
Misure di Intervento: Progettazione e test di interventi di progettazione della piattaforma per ridurre i pregiudizi basati sui risultati della ricerca.
Espansione Demografica: Inclusione di più dimensioni demografiche come età, background educativo, ecc.

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: Il metodo di generazione di dati sperimentali controllati tramite RAG-LLM è pioneristico, fornendo un nuovo strumento per la ricerca sperimentale nelle scienze sociali.
Rigoroso Progettazione Sperimentale: Il progettazione dell'analisi multistadio è completa, considerando sia le decisioni pre-assunzione che la valutazione post-progetto.
Analisi Statistica Sufficiente: Utilizzo di metodi statistici appropriati, inclusa l'analisi degli effetti di interazione, con risultati statisticamente significativi.
Significato Pratico Sostanziale: I risultati della ricerca hanno importanti implicazioni politiche per comprendere l'equità del mercato del lavoro online.
Implementazione Tecnica Completa: Dalla raccolta dei dati alla costruzione della piattaforma sperimentale, il percorso tecnico è chiaro e completo.

Insufficienze

Scala del Campione Relativamente Limitata: Sebbene includa 12.799 profili, la scala dei partecipanti nella ricerca con utenti potrebbe richiedere ulteriore ampliamento.
Analisi Insufficiente dei Fattori Culturali: L'interpretazione dei pregiudizi geografici si basa principalmente su speculazioni, mancando di un'analisi approfondita dei meccanismi culturali e psicologici.
Effetti a Lungo Termine Sconosciuti: La ricerca è trasversale e non può rivelare i cambiamenti dinamici dei pregiudizi.
Verifica della Qualità di Generazione: Sebbene sia menzionata la revisione manuale dei profili generati, mancano metriche di valutazione della qualità sistematiche.

Impatto

Contributo Accademico: Fornisce un nuovo paradigma di ricerca per i campi HCI e social computing, con previsione di ampia citazione e applicazione.
Valore Pratico: I risultati della ricerca possono guidare i miglioramenti della progettazione della piattaforma, promuovendo un mercato del lavoro online più equo.
Riproducibilità: La metodologia è chiara e l'implementazione tecnica è riproducibile, facilitando la verifica e l'estensione della ricerca successiva.
Impatto Interdisciplinare: Combina tecnologie AI e ricerca nelle scienze sociali, esemplificando il valore della ricerca interdisciplinare.

Scenari Applicabili

Ricerca sui Pregiudizi nelle Piattaforme Online: Estensibile ad altri tipi di mercati e piattaforme online.
Valutazione dell'Equità Algoritmica: Fornisce un nuovo metodo di generazione di dati per il test dell'equità dei sistemi AI.
Supporto alla Formulazione di Politiche: Fornisce prove empiriche per la formulazione di politiche di equità del mercato del lavoro.
Ottimizzazione della Progettazione della Piattaforma: Guida la progettazione dell'interfaccia utente e dell'algoritmo di raccomandazione delle piattaforme online.

Bibliografia

L'articolo cita 35 articoli correlati, coprendo importanti ricerche in più campi inclusa la discriminazione nei mercati online, l'applicazione del machine learning e l'interazione uomo-computer, fornendo una solida base teorica e supporto metodologico per questa ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti innovazioni metodologiche. Attraverso la tecnologia RAG-LLM per realizzare il controllo preciso delle variabili, apre un nuovo percorso per la ricerca sui pregiudizi online. I risultati della ricerca hanno significato teorico e pratico importante, con effetti positivi sulla promozione dell'equità nel mercato del lavoro online. Nonostante alcune limitazioni, nel complesso rappresenta un contributo importante in questo campo.