2025-11-25T20:16:18.201421

The Initial Screening Order Problem

Alvarez, Mastropietro, Ruggieri

We investigate the role of the initial screening order (ISO) in candidate screening. The ISO refers to the order in which the screener searches the candidate pool when selecting $k$ candidates. Today, it is common for the ISO to be the product of an information access system, such as an online platform or a database query. The ISO has been largely overlooked in the literature, despite its impact on the optimality and fairness of the selected $k$ candidates, especially under a human screener. We define two problem formulations describing the search behavior of the screener given an ISO: the best-$k$, where it selects the top $k$ candidates; and the good-$k$, where it selects the first good-enough $k$ candidates. To study the impact of the ISO, we introduce a human-like screener and compare it to its algorithmic counterpart, where the human-like screener is conceived to be inconsistent over time. Our analysis, in particular, shows that the ISO, under a human-like screener solving for the good-$k$ problem, hinders individual fairness despite meeting group fairness, and hampers the optimality of the selected $k$ candidates. This is due to position bias, where a candidate's evaluation is affected by its position within the ISO. We report extensive simulated experiments exploring the parameters of the best-$k$ and good-$k$ problems for both screeners. Our simulation framework is flexible enough to account for multiple candidate screening tasks, being an alternative to running real-world procedures.

academic

초기 스크리닝 순서 문제

기본 정보

논문 ID: 2307.15398
제목: The Initial Screening Order Problem
저자: Jose M. Alvarez (KU Leuven), Antonio Mastropietro (University of Pisa), Salvatore Ruggieri (University of Pisa)
분류: cs.LG cs.CY
발표 시간: 2023년 7월 (arXiv 사전인쇄본, 2025년 1월 업데이트)
논문 링크: https://arxiv.org/abs/2307.15398

요약

본 논문은 후보자 스크리닝에서 초기 스크리닝 순서(Initial Screening Order, ISO)의 역할을 연구한다. ISO는 스크리닝 담당자가 k명의 후보자를 선택할 때 후보자 풀을 검색하는 순서를 의미한다. 현재 ISO는 일반적으로 정보 접근 시스템(온라인 플랫폼 또는 데이터베이스 쿼리 등)에 의해 생성된다. ISO가 선택된 k명의 후보자의 최적성과 공정성에 중요한 영향을 미치지만(특히 인간 스크리닝 담당자의 경우), 문헌에서는 이를 크게 간과하고 있다. 저자들은 주어진 ISO 하에서 스크리닝 담당자의 검색 행동을 설명하기 위해 두 가지 문제 표현을 정의한다: best-k 문제(상위 k명의 최고 후보자 선택)와 good-k 문제(상위 k명의 충분히 좋은 후보자 선택). ISO의 영향을 연구하기 위해 저자들은 인간형 스크리닝 담당자를 도입하고 알고리즘 스크리닝 담당자와 비교하며, 인간형 스크리닝 담당자는 시간에 따라 변하는 불일관성을 갖도록 설계되었다. 분석 결과, 인간형 스크리닝 담당자가 good-k 문제를 해결할 때 ISO는 개인 공정성을 방해하지만(집단 공정성은 만족), 선택된 k명의 후보자의 최적성을 손상시킨다. 이는 위치 편향으로 인한 것이며, 즉 후보자의 평가가 ISO에서의 위치에 영향을 받는다.

연구 배경 및 동기

문제 배경

후보자 스크리닝은 복잡하고 인간에 의존하는 작업으로, 이력서 스크리닝, 대학 입시 등 광범위한 시나리오에 존재한다. 머신러닝의 발전에 따라 LinkedIn, Taleo 등의 정보 접근 시스템(IAS)이 후보자 스크리닝에서 핵심 역할을 하며, 일반적으로 추정된 관련성이나 특정 특성에 따라 후보자를 제시한다.

연구 동기

실무적 필요성: 유럽 포춘 글로벌 500대 기업 G와의 협력 경험을 바탕으로 저자들은 다섯 가지 핵심 실무 패턴을 발견했다:
- G1: 스크리닝 담당자가 서로 다른 ISO를 선택
- G2: 완전 검색과 부분 검색 두 가지 방식 존재
- G3: 최소 기본 요구사항을 충족하는 후보자에 초점
- G4: 다양성 표현 할당량에 대한 공정성 목표 존재
- G5: 각 후보자 평가 시간 약 1분
이론적 격차: 기존 문헌은 주로 ISO 생성(공정한 집합 선택 또는 순위 문제로서)에 초점을 맞추지만, 스크리닝 담당자가 ISO를 어떻게 사용하는지, 특히 인간 스크리닝 담당자의 행동을 거의 연구하지 않는다.
공정성 우려: 위치 편향으로 인해 유사한 후보자가 ISO에서의 위치가 다르기 때문에 다르게 대우받을 수 있으며, 이는 개인 공정성 원칙을 위반한다.

핵심 기여

ISO 문제의 첫 형식화: ISO를 집합 선택 문제의 핵심 매개변수로 설정하고, best-k와 good-k 두 가지 검색 행동의 문제 표현을 정의한다.
인간형 스크리닝 담당자 모델 도입: 피로 효과를 고려한 인간형 스크리닝 담당자를 제안하고 알고리즘 스크리닝 담당자와 이론 및 실험적으로 비교한다.
유연한 시뮬레이션 도구 제공: ISO 문제를 연구할 수 있는 시뮬레이션 프레임워크를 개발하여 실제 스크리닝 시나리오를 실행할 필요 없이 실무자에게 지침을 제공한다.
위치 편향의 공정성 영향 규명: ISO가 인간형 스크리닝 담당자 하에서 개인 공정성 위반을 초래하면서도 집단 공정성 제약을 만족함을 증명한다.

방법론 상세 설명

작업 정의

n명의 후보자를 포함하는 후보자 풀 C가 주어지며, 각 후보자 c는 특성 벡터 X_c ∈ R^d와 보호 속성 w_c로 설명된다. 스크리닝 담당자 h는 ISO θ를 기반으로 k명의 후보자 집합 S^k를 선택해야 하며, 표현 할당량 q(보호 집단이 S^k에서의 최소 비율)를 만족해야 한다.

두 가지 문제 표현

Best-k 문제

스크리닝 담당자는 전체 후보자 풀 C를 평가하고 점수가 가장 높은 k명의 후보자를 선택해야 한다:

argmax_{S^k ∈ [C]^k} U^k_add(S^k, θ) s.t. f(S^k) ≥ q

여기서 효용 함수는 다음과 같이 정의된다:

U^k_add(S^k, θ) = Σ_{c∈S^k} s(X_c)

Good-k 문제

스크리닝 담당자는 최소 요구사항 ψ를 충족하는 처음 k명의 후보자를 찾으며, 부분 검색을 허용한다:

argmax_{S^k ∈ [C]^k} U^k_ψ(S^k, θ) s.t. f(S^k) ≥ q

여기서 효용 함수는 다음과 같이 정의된다:

U^k_ψ(S^k, θ) = {
  k - Σ_{c∈S^k} p(c, S^k, θ)  if ∀c ∈ S^k, s(X_c) ≥ ψ
  0                            otherwise
}

페널티 함수 p(c, S^k, θ)는 후보자 c 선택의 "낭비된 노력"을 측정한다.

스크리닝 담당자 모델

알고리즘 스크리닝 담당자 h_a

후보자를 일관되게 평가하며, 피로 효과가 없고 결정론적 알고리즘을 따른다.

인간형 스크리닝 담당자 h_h

피로 성분 Φ(t) = λ·t를 도입하여 후보자 평가에 영향을 미친다:

s_h_h(X_c) + ε

여기서 ε는 누적 피로에 따라 달라지는 확률 변수이며, 두 가지 모델링 선택을 고려한다:

ε₁ ~ N(0, v(Φ(t-1))): 분산이 피로에 따라 증가
ε₂ ~ N(μ(Φ(t-1)), v(Φ(t-1))): 평균이 피로에 따라 감소

검색 알고리즘

ExaminationSearch(알고리즘 1): best-k 문제 해결, 점수 내림차순으로 검색
CascadeSearch(알고리즘 2): good-k 문제 해결, ISO 순서대로 검색
해당 인간형 버전(알고리즘 3-4): 피로 효과 추가

실험 설정

시뮬레이션 프레임워크

R 언어로 개발된 몬테카를로 시뮬레이션 프레임워크를 사용하며, 각 매개변수 조합에 대해 10,000회 실험을 실행한다.

후보자 점수 분포

세 가지 절단 정규분포 t_N(μ, σ)를 고려한다:

대칭 분포: μ=0.5, σ=0.02 (최고 후보자 확률 매우 낮음)
비대칭 분포: μ=0.8, σ=0.05 (최고 후보자 확률 중간)
증가 분포: μ=1, σ=0.05 (최고 후보자 확률 최고)

ISO 설정

θ ⊥⊥ s: ISO가 개인 점수와 독립 (무작위 또는 알파벳 순서)
θ ⊥̸⊥ s: ISO가 점수와 상관, 상관계수 ρ ∈ {-1, -0.8, -0.5}

실험 매개변수

후보자 풀 크기: n = 120, 400, 30
선택 수량: k = 6, 20
할당량: q = 0.5
보호 집단 비율: pr = 0.2
최소 요구사항: ψ ∈ 0.3, 0.8

평가 지표

기준 비율(RtB): 기준 솔루션 대비 효용 비율
Jaccard 유사도(JdS): 후보자 중복 비율

실험 결과

피로 없음 (알고리즘 스크리닝 담당자)

Good-k vs Best-k 성능

점수 분포 영향:
- 대칭 분포에서 ψ 증가에 따라 good-k가 점진적으로 best-k에 접근
- 비대칭 및 증가 분포에서 ψ가 크더라도 good-k가 best-k 성능에 미치지 못함
ISO 상관성 영향:
- ρ = -1일 때 (완전 음의 상관), good-k와 best-k 성능 동일
- ρ = -0.5일 때, good-k가 이미 best-k를 잘 근사
규모 효과:
- 더 큰 k/n 비율이 good-k가 best-k를 더 잘 근사하도록 함
- ISO 영향이 k/n 증가에 따라 약화

피로 있음 (인간형 스크리닝 담당자)

피로가 Good-k에 미치는 영향

분산형 피로(ε₁):
- 대칭 분포에서 높은 ψ 값에서 성능 현저히 저하
- 비대칭 및 증가 분포에서 상대적으로 안정적
편향형 피로(ε₂):
- 표준편차가 작아 대칭 분포 영향 적음
- 후보자 질이 낮은 경우 편향의 영향 미미

피로가 있는 Best-k vs Good-k

피로 상황에서 good-k 솔루션이 때때로 best-k 솔루션보다 우수
긴 검색이 인간형 스크리닝 담당자에게 해로움을 시사
특정 설정에서 good-k 전략을 우선해야 함

ISO 상관성의 보호 효과

후보자 질 정보를 포함하는 ISO 제공이 피로 영향 감소
IAS의 ISO 문제에서의 중요성 강조

결론 및 논의

주요 결론

위치 편향의 공정성 영향: ISO는 인간형 스크리닝 담당자 하에서 개인 공정성 위반을 초래하며, 집단 공정성 제약을 만족하더라도 그러하다.
문제 표현의 중요성: 올바른 문제 표현 정의가 ISO가 후보자 선택에 미치는 영향을 이해하는 데 중요하다.
스크리닝 담당자 행동의 복잡성: Best-k와 good-k 문제 간에 복잡한 관계가 존재하며, 이는 후보자 질 분포, ISO 상관성 및 피로 효과에 따라 달라진다.