Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.
academic- 논문 ID: 2510.13091
- 제목: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
- 저자: Wugeng Zheng, Guohou Shan (Northeastern University)
- 분류: cs.HC (인간-컴퓨터 상호작용)
- 발표 학회: ACM Conference on Intelligent User Interfaces 2026
- 논문 링크: https://arxiv.org/abs/2510.13091
온라인 프리랜스 마켓플레이스는 전 세계 노동력 시장의 빠르게 성장하는 부분으로서, 이론적으로는 전문 기술을 주요 채용 요인으로 하는 공정한 환경을 창출해야 한다. 그러나 사용자 프로필의 개인 정보는 지속적인 차별에 대한 우려를 야기한다. 본 논문은 검색 증강 생성(RAG)과 대규모 언어 모델(LLM)을 사용하여 통제 실험을 위한 현실적인 인공 프리랜서 프로필을 생성하는 혁신적인 방법을 제시한다. 연구 결과는 성별 측면에서 초기 채용 결정에는 유의미한 선호도가 나타나지 않았지만, 여성 프리랜서는 프로젝트 완료 후 불완전한 평가를 받을 가능성이 더 높음을 보여준다. 지역 편견 측면에서는 미국 프리랜서가 강력하고 일관된 우위를 나타낸다.
- 핵심 문제: 온라인 프리랜스 플랫폼이 채용 편견 제거 목표를 실제로 달성하고 있는지, 그리고 이러한 편견을 정확하게 측정하고 분석하는 방법은 무엇인가.
- 중요성:
- COVID-19 이후 온라인 프리랜스 시장이 빠르게 발전하여 유럽과 미국의 20-30% 근로 연령 인구가 독립적 업무에 참여
- 이러한 플랫폼은 이론적으로 개인 배경이 아닌 기술을 기반으로 평가해야 함
- 사용자 프로필의 개인 식별 정보는 의식적 또는 무의식적 편견을 초래할 수 있음
- 기존 방법의 한계:
- 전통적 연구는 주로 관찰 데이터 분석에 의존하여 교란 변수를 제어하기 어려움
- 프리랜서의 기술, 교육 배경, 프로젝트 경험은 일반적으로 인구통계학적 속성(성별, 인종)과 얽혀 있음
- 이러한 변수를 통계적으로 제어하기 위한 대규모 데이터셋 수집은 상당한 도전 과제
- 연구 동기: 변수를 엄격하게 제어할 수 있고 특정 인구통계학적 요인이 채용 결정에 미치는 독립적 영향을 정확하게 분리하고 측정할 수 있는 새로운 실험 방법 개발.
- 방법론적 혁신: RAG-LLM 프레임워크를 사용하여 채용 편견 통제 실험을 위한 고도로 제어된 합성 데이터를 생성하는 것을 처음으로 시도하여, 전통적 관찰 데이터의 교란 요인 문제 극복.
- 다단계 편견 분석: 채용 전 단계(사용자 연구를 통한)와 프로젝트 후 평가 단계(실제 데이터 사용)를 포함하는 포괄적 분석 프레임워크 제시로, 프로젝트 후 데이터만 사용하는 연구보다 더 완전한 관점 제공.
- 정밀한 변수 제어: RAG-LLM 생성 프로필을 통해 정밀한 변수 격리를 실현하여, 특정 연구 변수를 제외한 거의 모든 측면에서 동일한 후보자 프로필 생성 가능.
- 실증적 발견: 성별 및 지역 편견이 다양한 단계에서 서로 다른 표현 패턴을 보임을 드러내어, 온라인 시장 차별 메커니즘 이해에 새로운 통찰력 제공.
입력: 프리랜스 플랫폼의 실제 사용자 데이터 및 특정 인구통계학적 변수 제어 요구사항
출력: 채용 결정에 대한 특정 변수의 영향을 측정하기 위한 고도로 제어된 합성 프리랜서 프로필
제약 조건: 생성된 프로필은 기술, 경험, 평점 등의 측면에서 고도로 유사해야 하며, 연구 변수(예: 성별, 지역)에서만 차이 존재.
- 데이터 소스: Freelancer.com에서 12,799개의 프리랜서 프로필 수집
- 데이터 전처리:
- Huggingface 사전 학습 얼굴 인식 모델을 사용한 성별 분류(신뢰도 임계값 0.75)
- 인도 및 미국 프리랜서에 초점(데이터셋에서 가장 대표성 있는 두 국가)
- 사용자명, 사용자 ID, 검증 배지, 전체 평점, 프로필 태그라인 등 속성 추출
- 벡터화: Huggingface 임베딩 모델을 사용하여 처리된 데이터를 벡터화하고 지식 기반 구축
- 핵심 모델: Qwen/QwQ-32B 대규모 언어 모델 채택
- 생성 프로세스:
- 검색: 지식 기반에서 가장 유사한 프로필을 참고로 검색
- 증강: 검색된 문서를 LLM 컨텍스트에 추가
- 생성: 증강된 프롬프트를 기반으로 일관되고 실제 데이터와 일치하는 프로필 생성
- 기술 스택: Flask를 사용한 대화형 웹페이지 구축
- 작업 설계:
- 프리랜서 비교 작업: 두 프로필을 나란히 표시하고 사용자가 선호하는 채용 후보자 선택 요청
- 평론 비교 작업: 관련 평론 정보 표시 및 질문에 답변
- 데이터 수집: 사용자 선택 및 상호작용 데이터 기록
- 플랫폼: Amazon Mechanical Turk (MTurk)를 통한 참여자 모집
- 품질 관리: 주의력 검사 질문 포함으로 검사 미통과 제출물 필터링
- 정밀한 변수 제어: 전통적 방법과 비교하여, RAG-LLM 프레임워크는 모든 속성에서 고도로 유사한 프로필 쌍을 생성할 수 있으며, 연구 변수에서만 차이가 존재하여 전례 없는 실험 제어 정밀도 달성.
- 현실성 보장: RAG 메커니즘을 통해 생성된 프로필은 실제 데이터를 기반으로 하여 순수 인공 작성으로 인한 비현실성 및 일관성 문제 회피.
- 효율성 향상: 각 프로필 수동 작성에 10-15분이 소요되는 것과 비교하여, RAG-LLM 방법은 생성 효율을 크게 향상시키면서 품질 보장.
- 규모: 12,799개의 실제 프리랜서 프로필
- 소스: Freelancer.com 플랫폼
- 특징: 사용자명, ID, 검증 상태, 평점, 평론 수, 국가, AI 추론 성별
- 합성 데이터: 사용자 연구용 1,980개의 고도로 제어된 프로필 쌍 생성
- 채용 선호도: 프로필 선택 확률 및 승률
- 리더십 인식: 더 리더십이 있다고 선택될 확률
- 평점 편견: 5성 이외의 평가를 받을 확률(로지스틱 회귀 사용)
- 평론 수량: 받은 평론 수(음이항 회귀 사용)
- 전통적 관찰 데이터 분석 방법
- 통계 회귀 분석(상호작용항 포함 여부)
- 신뢰도 임계값: 성별 분류 모델 신뢰도 > 0.75
- 통계 방법: 로지스틱 회귀, 음이항 회귀, 카이제곱 검정
- 유의성 수준: p<0.05, p<0.01, p<0.001
- 지역 편견: 미국 프리랜서는 인도 프리랜서에 비해 유의미한 우위
- 미국 남성 승률: 1.212 (95% CI: 1.066, 1.375, p=0.003)
- 미국 여성 승률: 1.158 (95% CI: 1.020, 1.315, p=0.025)
- 인도 남성 승률: 0.767 (95% CI: 0.678, 0.869, p<0.001)
- 성별 편견: 동일 국가 내에서 성별 차이는 유의하지 않음(p>0.3)
- 강한 지역 편견:
- 미국 남성 vs 인도 남성: OR=2.014 (p<0.001)
- 미국 여성 vs 인도 여성: OR=1.934 (p<0.001)
- 미국 후보자 전체 우위: 양 성별의 미국 후보자가 리더로 선택될 가능성이 유의미하게 높음
- 성별 편견: 여성 프리랜서가 불완전한 평가를 받을 확률이 51.2% 높음 (OR=1.512, p<0.001)
- 지역 편견: 미국 프리랜서가 불완전한 평가를 받을 확률이 37.9% 낮음 (OR=0.621, p=0.019)
- 상호작용 효과 유의: 성별이 평론 수량에 미치는 영향은 국가에 따라 달라짐(p=0.031)
- 인도 여성은 인도 남성보다 24% 더 많은 평론 수신(IRR=1.237)
- 미국 여성은 미국 남성보다 22% 적은 평론 수신
논문은 상호작용항을 포함하고 포함하지 않은 모델을 비교하여 지역 및 성별 요인의 독립적 작용 및 상호작용 효과를 검증.
- 단계별 차이: 성별 편견은 채용 단계에서는 유의하지 않지만 평가 단계에서는 유의미함. 지역 편견은 두 단계 모두에서 유의미하고 일관됨.
- 지역 편견의 보편성: 미국 프리랜서는 선택, 리더십 인식, 평점 측면에서 모두 체계적 우위 향유.
- 성별 편견의 복잡성: 여성은 업무 기회 획득 측면에서 불리하지 않지만, 업무 평가에서는 더 엄격한 기준에 직면.
- Hannak 등(2017): TaskRabbit 및 Fiverr에서 인종 및 성별 편견 발견
- Edelman 등(2017): Airbnb 등 공유 경제 플랫폼에서 소비자 차별의 지속성 발견
- Chan & Wang(2018): 특정 상황에서 여성 지원자에 대한 채용 선호도 발견
- 전통적 방법의 한계: 데이터 수집 및 계량경제학 분석은 모든 잠재적 교란 변수를 제어하기 어려움
- LLM의 플랫폼 연구 응용: Stack Overflow, 온라인 평론, 검색 행동 등 분야의 사용자 활동 이해
- RAG 기술: 표준 LLM의 사실 오류 및 전문 정보 처리 능력 부족 문제 극복
- 방법론적 돌파: RAG-LLM 프레임워크는 높은 정밀도의 변수 제어를 성공적으로 실현하여, 온라인 편견 연구에 새로운 방법론적 도구 제공.
- 성별 편견의 단계별 특성: 여성은 채용 단계에서 유의미한 불리함에 직면하지 않지만, 프로젝트 완료 후 평가에서는 더 엄격한 판단 기준에 직면.
- 지역 편견의 체계성: 미국 프리랜서는 채용 선택에서 최종 평가까지 전 과정에서 우위를 향유하며, 이는 심층적 문화 편견 및 고정관념을 반영.
- 지리적 범위 제한: 연구는 주로 미국 및 인도 프리랜서에 집중하여 전 세계 상황을 완전히 대표하지 못할 수 있음.
- 플랫폼 특이성: Freelancer.com 데이터만 기반하여 서로 다른 플랫폼은 다양한 편견 패턴을 가질 수 있음.
- 시간적 한계: 연구는 특정 시점의 편견 상황을 반영하며, 시간에 따라 변할 수 있음.
- 참여자 대표성: MTurk 참여자는 실제 고용주 집단을 완전히 대표하지 못할 수 있음.
- 교차 플랫폼 검증: 여러 프리랜스 플랫폼에서 연구 발견의 보편성 검증.
- 종단 연구: 시간에 따른 편견 변화 추세 추적.
- 개입 조치: 연구 발견을 기반으로 편견 감소 플랫폼 설계 개입 조치 설계 및 테스트.
- 인구통계학적 확장: 연령, 교육 배경 등 추가 인구통계학적 차원 포함.
- 방법론 혁신성 강함: RAG-LLM을 사용한 통제 실험 데이터 생성 방법은 개척적이며, 사회과학 실험 연구에 새로운 도구 제공.
- 실험 설계 엄밀함: 다단계 분석 설계가 포괄적이며, 채용 전 결정과 프로젝트 후 평가 모두 고려.
- 통계 분석 충분함: 상호작용 효과 분석을 포함한 적절한 통계 방법 사용으로 결과의 통계적 유의성 보유.
- 실제 의의 중대함: 연구 발견은 온라인 노동 시장 공정성 이해에 중요한 정책 함의 제공.
- 기술 구현 완전함: 데이터 수집에서 실험 플랫폼 구축까지 기술 경로가 명확하고 완전함.
- 표본 규모 상대적 제한: 12,799개 프로필 포함하지만, 사용자 연구의 참여자 규모는 추가 확대 필요 가능.
- 문화 요인 분석 부족: 지역 편견에 대한 설명은 주로 추측에 기반하며, 심층적 문화 및 심리 메커니즘 분석 부족.
- 장기 효과 미지수: 연구는 횡단면적이어서 편견의 동적 변화 드러낼 수 없음.
- 생성 품질 검증: 생성된 프로필의 수동 검토를 언급하지만, 체계적 품질 평가 지표 부족.
- 학술 기여: HCI 및 사회 계산 분야에 새로운 연구 패러다임 제공으로 광범위한 인용 및 응용 예상.
- 실용 가치: 연구 발견은 플랫폼 설계 개선 지도 가능하여 더 공정한 온라인 노동 시장 촉진.
- 재현성: 방법론이 명확하고 기술 구현이 재현 가능하여 후속 연구 검증 및 확장 용이.
- 학제간 영향: AI 기술과 사회과학 연구 결합으로 학제간 연구의 가치 체현.
- 온라인 플랫폼 편견 연구: 다른 유형의 온라인 시장 및 플랫폼으로 확장 가능.
- 알고리즘 공정성 평가: AI 시스템의 공정성 테스트를 위한 새로운 데이터 생성 방법 제공.
- 정책 수립 지원: 노동 시장 공정성 정책 수립을 위한 실증적 근거 제공.
- 플랫폼 설계 최적화: 온라인 플랫폼의 사용자 인터페이스 및 추천 알고리즘 설계 지도.
논문은 온라인 마켓플레이스 차별, 기계학습 응용, 인간-컴퓨터 상호작용 등 여러 분야의 중요 연구를 포함한 35편의 관련 문헌을 인용하여, 본 연구에 견고한 이론적 기초 및 방법론적 지원 제공.
종합 평가: 이는 방법론에서 중요한 혁신을 이루는 높은 품질의 연구 논문이다. RAG-LLM 기술을 통해 정밀한 변수 제어를 실현하여 온라인 편견 연구에 새로운 경로를 개척했다. 연구 발견은 중요한 이론적 및 실제적 의의를 가지며, 온라인 노동 시장 공정성 촉진에 긍정적 작용을 한다. 일부 한계가 있지만, 전체적으로 해당 분야의 중요한 기여이다.