Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.
academic- ID Articolo: 2510.13091
- Titolo: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
- Autori: Wugeng Zheng, Guohou Shan (Northeastern University)
- Classificazione: cs.HC (Interazione Uomo-Computer)
- Conferenza di Pubblicazione: ACM Conference on Intelligent User Interfaces 2026
- Link Articolo: https://arxiv.org/abs/2510.13091
I mercati freelance online, come parte in rapida crescita del mercato del lavoro globale, dovrebbero teoricamente creare un ambiente equo in cui le competenze professionali sono il fattore principale di assunzione. Tuttavia, le informazioni personali nei profili utente suscitano preoccupazioni riguardanti la discriminazione persistente. Questo articolo propone un approccio innovativo che utilizza la Generazione Aumentata da Recupero (RAG) con Modelli di Linguaggio di Grandi Dimensioni (LLM) per creare profili realistici di freelancer artificiali per esperimenti controllati. I risultati della ricerca mostrano che, per quanto riguarda il genere, sebbene non emergano preferenze significative nelle decisioni di assunzione iniziali, i freelancer donne hanno maggiori probabilità di ricevere valutazioni imperfette dopo il completamento del progetto. Per quanto riguarda i pregiudizi geografici, i freelancer statunitensi mostrano un vantaggio forte e coerente.
- Problema Centrale: Se i mercati freelance online raggiungono veramente l'obiettivo di eliminare i pregiudizi nelle assunzioni e come misurare e analizzare accuratamente questi pregiudizi.
- Importanza:
- I mercati freelance online hanno subito uno sviluppo rapido dopo il COVID-19, con il 20-30% della popolazione in età lavorativa in Europa e America impegnata in lavoro indipendente
- Queste piattaforme dovrebbero teoricamente valutare in base alle competenze piuttosto che al background personale
- Le informazioni personali identificabili nei profili utente possono portare a pregiudizi consci o inconsci
- Limitazioni dei Metodi Esistenti:
- La ricerca tradizionale si basa principalmente sull'analisi osservazionale dei dati, rendendo difficile controllare le variabili confondenti
- Le competenze, l'istruzione e l'esperienza progettuale dei freelancer sono spesso intrecciate con attributi demografici (genere, razza)
- La raccolta di set di dati su larga scala per controllare statisticamente queste variabili presenta sfide significative
- Motivazione della Ricerca: Sviluppare un nuovo metodo sperimentale che possa controllare rigorosamente le variabili e misurare con precisione l'impatto indipendente di specifici fattori demografici sulle decisioni di assunzione.
- Innovazione Metodologica: Primo utilizzo del framework RAG-LLM per generare dati sintetici altamente controllati per esperimenti controllati sui pregiudizi nelle assunzioni, superando le sfide dei fattori confondenti nei dati osservazionali tradizionali.
- Analisi dei Pregiudizi Multistadio: Propone un framework di analisi completo che copre la fase pre-assunzione (attraverso ricerca con utenti) e la fase di valutazione post-progetto (utilizzando dati del mondo reale), fornendo una prospettiva più completa rispetto alla ricerca limitata ai soli dati post-progetto.
- Controllo Preciso delle Variabili: Realizza l'isolamento preciso delle variabili attraverso profili generati da RAG-LLM, consentendo la creazione di profili di candidati quasi identici in tutti gli aspetti tranne che per le variabili di ricerca specifiche.
- Risultati Empirici: Rivela diversi modelli di manifestazione dei pregiudizi di genere e geografici in diverse fasi, fornendo nuove intuizioni per comprendere i meccanismi della discriminazione nei mercati online.
Input: Dati utente reali dalla piattaforma freelance e requisiti specifici di controllo delle variabili demografiche
Output: Profili di freelancer sintetici altamente controllati per misurare l'impatto di variabili specifiche sulle decisioni di assunzione
Vincoli: I profili generati devono essere altamente simili in termini di competenze, esperienza e valutazioni, differendo solo nelle variabili di ricerca (come genere e area geografica)
- Fonte Dati: Estrazione di 12.799 profili di freelancer da Freelancer.com
- Preelaborazione Dati:
- Utilizzo di modelli di riconoscimento facciale preaddestrati da Huggingface per la classificazione del genere (soglia di confidenza 0,75)
- Attenzione focalizzata su freelancer indiani e statunitensi (i due paesi più rappresentativi nel set di dati)
- Estrazione di attributi come nome utente, ID utente, badge di verifica, valutazione complessiva, tagline del profilo
- Vettorizzazione: Utilizzo di modelli di embedding da Huggingface per vettorizzare i dati elaborati e costruire una base di conoscenza
- Modello Principale: Adozione del modello di linguaggio di grandi dimensioni Qwen/QwQ-32B
- Processo di Generazione:
- Recupero: Recupero dei profili più simili dalla base di conoscenza come riferimento
- Aumento: Aggiunta dei documenti recuperati al contesto dell'LLM
- Generazione: Generazione di profili coerenti e coerenti con i dati del mondo reale basati su prompt aumentati
- Stack Tecnologico: Utilizzo di Flask per costruire un'interfaccia web interattiva
- Progettazione del Compito:
- Compito di confronto tra freelancer: visualizzazione affiancata di due profili, richiedendo agli utenti di scegliere il candidato che preferirebbero assumere
- Compito di confronto tra commenti: visualizzazione di informazioni di commenti rilevanti e risposta a domande
- Raccolta Dati: Registrazione delle scelte utente e dei dati di interazione
- Piattaforma: Reclutamento di partecipanti tramite Amazon Mechanical Turk (MTurk)
- Controllo di Qualità: Inclusione di domande di controllo dell'attenzione per filtrare i contributi che non superano i controlli
- Controllo Preciso delle Variabili: Rispetto ai metodi tradizionali, il framework RAG-LLM è in grado di generare coppie di profili altamente simili in tutti gli attributi, differendo solo nelle variabili di ricerca, realizzando così un controllo sperimentale senza precedenti.
- Garanzia di Realismo: Attraverso il meccanismo RAG, i profili generati si basano su dati reali, evitando l'irrealismo e i problemi di coerenza che potrebbero derivare dalla composizione manuale.
- Miglioramento dell'Efficienza: Rispetto alla composizione manuale che richiede 10-15 minuti per profilo, il metodo RAG-LLM aumenta significativamente l'efficienza di generazione mantenendo la qualità.
- Scala: 12.799 profili di freelancer reali
- Fonte: Piattaforma Freelancer.com
- Caratteristiche: Nome utente, ID, stato di verifica, valutazione, numero di commenti, paese, genere dedotto da IA
- Dati Sintetici: Generazione di 1.980 coppie di profili altamente controllate per la ricerca con utenti
- Preferenza di Assunzione: Probabilità di selezione del profilo e tasso di vittoria
- Percezione della Leadership: Probabilità di essere selezionato come più autorevole
- Pregiudizio di Valutazione: Probabilità di ricevere una valutazione non a 5 stelle (utilizzando regressione logistica)
- Numero di Commenti: Numero di commenti ricevuti (utilizzando regressione binomiale negativa)
- Metodo tradizionale di analisi dei dati osservazionali
- Analisi di regressione statistica (con e senza termini di interazione)
- Soglia di Confidenza: Confidenza del modello di classificazione del genere > 0,75
- Metodi Statistici: Regressione logistica, regressione binomiale negativa, test del chi-quadrato
- Livello di Significatività: p<0,05, p<0,01, p<0,001
- Pregiudizio Geografico: I freelancer statunitensi hanno un vantaggio significativo rispetto ai freelancer indiani
- Tasso di vittoria uomini statunitensi: 1,212 (IC 95%: 1,066, 1,375, p=0,003)
- Tasso di vittoria donne statunitensi: 1,158 (IC 95%: 1,020, 1,315, p=0,025)
- Tasso di vittoria uomini indiani: 0,767 (IC 95%: 0,678, 0,869, p<0,001)
- Pregiudizio di Genere: All'interno dello stesso paese, le differenze di genere non sono significative (p>0,3)
- Pregiudizio Geografico Forte:
- Uomini statunitensi vs uomini indiani: OR=2,014 (p<0,001)
- Donne statunitensi vs donne indiane: OR=1,934 (p<0,001)
- Vantaggio Complessivo dei Candidati Statunitensi: I candidati statunitensi di entrambi i generi sono significativamente più spesso selezionati come leader
- Pregiudizio di Genere: Le freelancer donne hanno una probabilità del 51,2% più alta di ricevere valutazioni non perfette (OR=1,512, p<0,001)
- Pregiudizio Geografico: I freelancer statunitensi hanno una probabilità del 37,9% più bassa di ricevere valutazioni non perfette (OR=0,621, p=0,019)
- Effetto di Interazione Significativo: L'impatto del genere sul numero di commenti dipende dal paese (p=0,031)
- Le donne indiane ricevono il 24% di commenti in più rispetto agli uomini indiani (IRR=1,237)
- Le donne statunitensi ricevono il 22% di commenti in meno rispetto agli uomini statunitensi
L'articolo verifica l'azione indipendente e gli effetti di interazione dei fattori geografici e di genere attraverso il confronto di modelli con e senza termini di interazione.
- Differenze di Fase: Il pregiudizio di genere non è significativo nella fase di assunzione ma è significativo nella fase di valutazione; il pregiudizio geografico è significativo e coerente in entrambe le fasi.
- Universalità del Pregiudizio Geografico: I freelancer statunitensi godono di un vantaggio sistematico nella selezione, nella percezione della leadership e nelle valutazioni.
- Complessità del Pregiudizio di Genere: Le donne non sono svantaggiate nell'ottenere opportunità di lavoro, ma affrontano standard di valutazione più rigorosi nel lavoro.
- Hannak et al. (2017): Scoperta di pregiudizi razziali e di genere su TaskRabbit e Fiverr
- Edelman et al. (2017): Scoperta della persistenza della discriminazione dei consumatori su piattaforme di economia condivisa come Airbnb
- Chan & Wang (2018): Scoperta di preferenze di assunzione per le donne richiedenti in alcuni casi
- Limitazioni dei Metodi Tradizionali: Lo scraping dei dati e l'analisi econometrica hanno difficoltà a controllare tutte le potenziali variabili confondenti
- Applicazione di LLM nella Ricerca su Piattaforme: Comprensione dell'attività degli utenti in Stack Overflow, recensioni online, comportamento di ricerca e altri campi
- Tecnologia RAG: Superamento dei problemi di errori fattuali degli LLM standard e insufficienza nella gestione di informazioni specializzate
- Avanzamento Metodologico: Il framework RAG-LLM realizza con successo il controllo delle variabili ad alta precisione, fornendo un nuovo strumento metodologico per la ricerca sui pregiudizi online.
- Caratteristiche di Fase del Pregiudizio di Genere: Le donne non affrontano uno svantaggio significativo nella fase di assunzione, ma affrontano standard di giudizio più rigorosi nella valutazione dopo il completamento del progetto.
- Sistematicità del Pregiudizio Geografico: I freelancer statunitensi godono di un vantaggio nel processo completo dalla selezione di assunzione alla valutazione finale, riflettendo pregiudizi culturali e stereotipi più profondi.
- Limitazioni Geografiche: La ricerca si concentra principalmente su freelancer statunitensi e indiani, il che potrebbe non rappresentare completamente la situazione globale.
- Specificità della Piattaforma: Basato solo su dati da Freelancer.com, diverse piattaforme potrebbero presentare diversi modelli di pregiudizio.
- Limitazione Temporale: La ricerca riflette la situazione dei pregiudizi in un momento specifico nel tempo, che potrebbe cambiare nel tempo.
- Rappresentatività dei Partecipanti: I partecipanti a MTurk potrebbero non rappresentare completamente il vero gruppo di datori di lavoro.
- Verifica Multipiattaforma: Verifica dell'universalità dei risultati della ricerca su più piattaforme freelance.
- Ricerca Longitudinale: Tracciamento dei trend di cambiamento dei pregiudizi nel tempo.
- Misure di Intervento: Progettazione e test di interventi di progettazione della piattaforma per ridurre i pregiudizi basati sui risultati della ricerca.
- Espansione Demografica: Inclusione di più dimensioni demografiche come età, background educativo, ecc.
- Forte Innovazione Metodologica: Il metodo di generazione di dati sperimentali controllati tramite RAG-LLM è pioneristico, fornendo un nuovo strumento per la ricerca sperimentale nelle scienze sociali.
- Rigoroso Progettazione Sperimentale: Il progettazione dell'analisi multistadio è completa, considerando sia le decisioni pre-assunzione che la valutazione post-progetto.
- Analisi Statistica Sufficiente: Utilizzo di metodi statistici appropriati, inclusa l'analisi degli effetti di interazione, con risultati statisticamente significativi.
- Significato Pratico Sostanziale: I risultati della ricerca hanno importanti implicazioni politiche per comprendere l'equità del mercato del lavoro online.
- Implementazione Tecnica Completa: Dalla raccolta dei dati alla costruzione della piattaforma sperimentale, il percorso tecnico è chiaro e completo.
- Scala del Campione Relativamente Limitata: Sebbene includa 12.799 profili, la scala dei partecipanti nella ricerca con utenti potrebbe richiedere ulteriore ampliamento.
- Analisi Insufficiente dei Fattori Culturali: L'interpretazione dei pregiudizi geografici si basa principalmente su speculazioni, mancando di un'analisi approfondita dei meccanismi culturali e psicologici.
- Effetti a Lungo Termine Sconosciuti: La ricerca è trasversale e non può rivelare i cambiamenti dinamici dei pregiudizi.
- Verifica della Qualità di Generazione: Sebbene sia menzionata la revisione manuale dei profili generati, mancano metriche di valutazione della qualità sistematiche.
- Contributo Accademico: Fornisce un nuovo paradigma di ricerca per i campi HCI e social computing, con previsione di ampia citazione e applicazione.
- Valore Pratico: I risultati della ricerca possono guidare i miglioramenti della progettazione della piattaforma, promuovendo un mercato del lavoro online più equo.
- Riproducibilità: La metodologia è chiara e l'implementazione tecnica è riproducibile, facilitando la verifica e l'estensione della ricerca successiva.
- Impatto Interdisciplinare: Combina tecnologie AI e ricerca nelle scienze sociali, esemplificando il valore della ricerca interdisciplinare.
- Ricerca sui Pregiudizi nelle Piattaforme Online: Estensibile ad altri tipi di mercati e piattaforme online.
- Valutazione dell'Equità Algoritmica: Fornisce un nuovo metodo di generazione di dati per il test dell'equità dei sistemi AI.
- Supporto alla Formulazione di Politiche: Fornisce prove empiriche per la formulazione di politiche di equità del mercato del lavoro.
- Ottimizzazione della Progettazione della Piattaforma: Guida la progettazione dell'interfaccia utente e dell'algoritmo di raccomandazione delle piattaforme online.
L'articolo cita 35 articoli correlati, coprendo importanti ricerche in più campi inclusa la discriminazione nei mercati online, l'applicazione del machine learning e l'interazione uomo-computer, fornendo una solida base teorica e supporto metodologico per questa ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti innovazioni metodologiche. Attraverso la tecnologia RAG-LLM per realizzare il controllo preciso delle variabili, apre un nuovo percorso per la ricerca sui pregiudizi online. I risultati della ricerca hanno significato teorico e pratico importante, con effetti positivi sulla promozione dell'equità nel mercato del lavoro online. Nonostante alcune limitazioni, nel complesso rappresenta un contributo importante in questo campo.