2025-11-25T20:16:18.201421

The Initial Screening Order Problem

Alvarez, Mastropietro, Ruggieri
We investigate the role of the initial screening order (ISO) in candidate screening. The ISO refers to the order in which the screener searches the candidate pool when selecting $k$ candidates. Today, it is common for the ISO to be the product of an information access system, such as an online platform or a database query. The ISO has been largely overlooked in the literature, despite its impact on the optimality and fairness of the selected $k$ candidates, especially under a human screener. We define two problem formulations describing the search behavior of the screener given an ISO: the best-$k$, where it selects the top $k$ candidates; and the good-$k$, where it selects the first good-enough $k$ candidates. To study the impact of the ISO, we introduce a human-like screener and compare it to its algorithmic counterpart, where the human-like screener is conceived to be inconsistent over time. Our analysis, in particular, shows that the ISO, under a human-like screener solving for the good-$k$ problem, hinders individual fairness despite meeting group fairness, and hampers the optimality of the selected $k$ candidates. This is due to position bias, where a candidate's evaluation is affected by its position within the ISO. We report extensive simulated experiments exploring the parameters of the best-$k$ and good-$k$ problems for both screeners. Our simulation framework is flexible enough to account for multiple candidate screening tasks, being an alternative to running real-world procedures.
academic

초기 스크리닝 순서 문제

기본 정보

  • 논문 ID: 2307.15398
  • 제목: The Initial Screening Order Problem
  • 저자: Jose M. Alvarez (KU Leuven), Antonio Mastropietro (University of Pisa), Salvatore Ruggieri (University of Pisa)
  • 분류: cs.LG cs.CY
  • 발표 시간: 2023년 7월 (arXiv 사전인쇄본, 2025년 1월 업데이트)
  • 논문 링크: https://arxiv.org/abs/2307.15398

요약

본 논문은 후보자 스크리닝에서 초기 스크리닝 순서(Initial Screening Order, ISO)의 역할을 연구한다. ISO는 스크리닝 담당자가 k명의 후보자를 선택할 때 후보자 풀을 검색하는 순서를 의미한다. 현재 ISO는 일반적으로 정보 접근 시스템(온라인 플랫폼 또는 데이터베이스 쿼리 등)에 의해 생성된다. ISO가 선택된 k명의 후보자의 최적성과 공정성에 중요한 영향을 미치지만(특히 인간 스크리닝 담당자의 경우), 문헌에서는 이를 크게 간과하고 있다. 저자들은 주어진 ISO 하에서 스크리닝 담당자의 검색 행동을 설명하기 위해 두 가지 문제 표현을 정의한다: best-k 문제(상위 k명의 최고 후보자 선택)와 good-k 문제(상위 k명의 충분히 좋은 후보자 선택). ISO의 영향을 연구하기 위해 저자들은 인간형 스크리닝 담당자를 도입하고 알고리즘 스크리닝 담당자와 비교하며, 인간형 스크리닝 담당자는 시간에 따라 변하는 불일관성을 갖도록 설계되었다. 분석 결과, 인간형 스크리닝 담당자가 good-k 문제를 해결할 때 ISO는 개인 공정성을 방해하지만(집단 공정성은 만족), 선택된 k명의 후보자의 최적성을 손상시킨다. 이는 위치 편향으로 인한 것이며, 즉 후보자의 평가가 ISO에서의 위치에 영향을 받는다.

연구 배경 및 동기

문제 배경

후보자 스크리닝은 복잡하고 인간에 의존하는 작업으로, 이력서 스크리닝, 대학 입시 등 광범위한 시나리오에 존재한다. 머신러닝의 발전에 따라 LinkedIn, Taleo 등의 정보 접근 시스템(IAS)이 후보자 스크리닝에서 핵심 역할을 하며, 일반적으로 추정된 관련성이나 특정 특성에 따라 후보자를 제시한다.

연구 동기

  1. 실무적 필요성: 유럽 포춘 글로벌 500대 기업 G와의 협력 경험을 바탕으로 저자들은 다섯 가지 핵심 실무 패턴을 발견했다:
    • G1: 스크리닝 담당자가 서로 다른 ISO를 선택
    • G2: 완전 검색과 부분 검색 두 가지 방식 존재
    • G3: 최소 기본 요구사항을 충족하는 후보자에 초점
    • G4: 다양성 표현 할당량에 대한 공정성 목표 존재
    • G5: 각 후보자 평가 시간 약 1분
  2. 이론적 격차: 기존 문헌은 주로 ISO 생성(공정한 집합 선택 또는 순위 문제로서)에 초점을 맞추지만, 스크리닝 담당자가 ISO를 어떻게 사용하는지, 특히 인간 스크리닝 담당자의 행동을 거의 연구하지 않는다.
  3. 공정성 우려: 위치 편향으로 인해 유사한 후보자가 ISO에서의 위치가 다르기 때문에 다르게 대우받을 수 있으며, 이는 개인 공정성 원칙을 위반한다.

핵심 기여

  1. ISO 문제의 첫 형식화: ISO를 집합 선택 문제의 핵심 매개변수로 설정하고, best-k와 good-k 두 가지 검색 행동의 문제 표현을 정의한다.
  2. 인간형 스크리닝 담당자 모델 도입: 피로 효과를 고려한 인간형 스크리닝 담당자를 제안하고 알고리즘 스크리닝 담당자와 이론 및 실험적으로 비교한다.
  3. 유연한 시뮬레이션 도구 제공: ISO 문제를 연구할 수 있는 시뮬레이션 프레임워크를 개발하여 실제 스크리닝 시나리오를 실행할 필요 없이 실무자에게 지침을 제공한다.
  4. 위치 편향의 공정성 영향 규명: ISO가 인간형 스크리닝 담당자 하에서 개인 공정성 위반을 초래하면서도 집단 공정성 제약을 만족함을 증명한다.

방법론 상세 설명

작업 정의

n명의 후보자를 포함하는 후보자 풀 C가 주어지며, 각 후보자 c는 특성 벡터 X_c ∈ R^d와 보호 속성 w_c로 설명된다. 스크리닝 담당자 h는 ISO θ를 기반으로 k명의 후보자 집합 S^k를 선택해야 하며, 표현 할당량 q(보호 집단이 S^k에서의 최소 비율)를 만족해야 한다.

두 가지 문제 표현

Best-k 문제

스크리닝 담당자는 전체 후보자 풀 C를 평가하고 점수가 가장 높은 k명의 후보자를 선택해야 한다:

argmax_{S^k ∈ [C]^k} U^k_add(S^k, θ) s.t. f(S^k) ≥ q

여기서 효용 함수는 다음과 같이 정의된다:

U^k_add(S^k, θ) = Σ_{c∈S^k} s(X_c)

Good-k 문제

스크리닝 담당자는 최소 요구사항 ψ를 충족하는 처음 k명의 후보자를 찾으며, 부분 검색을 허용한다:

argmax_{S^k ∈ [C]^k} U^k_ψ(S^k, θ) s.t. f(S^k) ≥ q

여기서 효용 함수는 다음과 같이 정의된다:

U^k_ψ(S^k, θ) = {
  k - Σ_{c∈S^k} p(c, S^k, θ)  if ∀c ∈ S^k, s(X_c) ≥ ψ
  0                            otherwise
}

페널티 함수 p(c, S^k, θ)는 후보자 c 선택의 "낭비된 노력"을 측정한다.

스크리닝 담당자 모델

알고리즘 스크리닝 담당자 h_a

후보자를 일관되게 평가하며, 피로 효과가 없고 결정론적 알고리즘을 따른다.

인간형 스크리닝 담당자 h_h

피로 성분 Φ(t) = λ·t를 도입하여 후보자 평가에 영향을 미친다:

s_h_h(X_c) + ε

여기서 ε는 누적 피로에 따라 달라지는 확률 변수이며, 두 가지 모델링 선택을 고려한다:

  • ε₁ ~ N(0, v(Φ(t-1))): 분산이 피로에 따라 증가
  • ε₂ ~ N(μ(Φ(t-1)), v(Φ(t-1))): 평균이 피로에 따라 감소

검색 알고리즘

  • ExaminationSearch(알고리즘 1): best-k 문제 해결, 점수 내림차순으로 검색
  • CascadeSearch(알고리즘 2): good-k 문제 해결, ISO 순서대로 검색
  • 해당 인간형 버전(알고리즘 3-4): 피로 효과 추가

실험 설정

시뮬레이션 프레임워크

R 언어로 개발된 몬테카를로 시뮬레이션 프레임워크를 사용하며, 각 매개변수 조합에 대해 10,000회 실험을 실행한다.

후보자 점수 분포

세 가지 절단 정규분포 t_N(μ, σ)를 고려한다:

  • 대칭 분포: μ=0.5, σ=0.02 (최고 후보자 확률 매우 낮음)
  • 비대칭 분포: μ=0.8, σ=0.05 (최고 후보자 확률 중간)
  • 증가 분포: μ=1, σ=0.05 (최고 후보자 확률 최고)

ISO 설정

  • θ ⊥⊥ s: ISO가 개인 점수와 독립 (무작위 또는 알파벳 순서)
  • θ ⊥̸⊥ s: ISO가 점수와 상관, 상관계수 ρ ∈ {-1, -0.8, -0.5}

실험 매개변수

  • 후보자 풀 크기: n = 120, 400, 30
  • 선택 수량: k = 6, 20
  • 할당량: q = 0.5
  • 보호 집단 비율: pr = 0.2
  • 최소 요구사항: ψ ∈ 0.3, 0.8

평가 지표

  • 기준 비율(RtB): 기준 솔루션 대비 효용 비율
  • Jaccard 유사도(JdS): 후보자 중복 비율

실험 결과

피로 없음 (알고리즘 스크리닝 담당자)

Good-k vs Best-k 성능

  1. 점수 분포 영향:
    • 대칭 분포에서 ψ 증가에 따라 good-k가 점진적으로 best-k에 접근
    • 비대칭 및 증가 분포에서 ψ가 크더라도 good-k가 best-k 성능에 미치지 못함
  2. ISO 상관성 영향:
    • ρ = -1일 때 (완전 음의 상관), good-k와 best-k 성능 동일
    • ρ = -0.5일 때, good-k가 이미 best-k를 잘 근사
  3. 규모 효과:
    • 더 큰 k/n 비율이 good-k가 best-k를 더 잘 근사하도록 함
    • ISO 영향이 k/n 증가에 따라 약화

피로 있음 (인간형 스크리닝 담당자)

피로가 Good-k에 미치는 영향

  1. 분산형 피로(ε₁):
    • 대칭 분포에서 높은 ψ 값에서 성능 현저히 저하
    • 비대칭 및 증가 분포에서 상대적으로 안정적
  2. 편향형 피로(ε₂):
    • 표준편차가 작아 대칭 분포 영향 적음
    • 후보자 질이 낮은 경우 편향의 영향 미미

피로가 있는 Best-k vs Good-k

  • 피로 상황에서 good-k 솔루션이 때때로 best-k 솔루션보다 우수
  • 긴 검색이 인간형 스크리닝 담당자에게 해로움을 시사
  • 특정 설정에서 good-k 전략을 우선해야 함

ISO 상관성의 보호 효과

  • 후보자 질 정보를 포함하는 ISO 제공이 피로 영향 감소
  • IAS의 ISO 문제에서의 중요성 강조

관련 연구

공정한 집합 선택

본 논문은 공정한 집합 선택 문헌에 속하며, 비서 문제(Secretary Problem)와 관련이 있지만, 면접 단계가 아닌 스크리닝 프로세스에 초점을 맞추고 오프라인 집합 선택 설정을 채택한다.

위치 편향 연구

  • 클릭 모델: 사용자가 ISO를 검색하는 방식을 형식화하고 테스트한 최초 형태
  • 실증 연구: Echterhoff 등과 Wang 등이 후보자 스크리닝에서 위치 편향의 실증적 증거 제공
  • 본 논문의 기여: ISO를 문제 표현의 매개변수로 정의하고, 시뮬레이션을 사용하여 다양한 스크리닝 시나리오 포착

정보 접근 시스템

기존 연구는 주로 ISO 생성(공정한 순위)에 초점을 맞추지만, 본 논문은 스크리닝 담당자가 ISO를 어떻게 사용하는지, 특히 인간 사용자의 행동에 초점을 맞춘다.

결론 및 논의

주요 결론

  1. 위치 편향의 공정성 영향: ISO는 인간형 스크리닝 담당자 하에서 개인 공정성 위반을 초래하며, 집단 공정성 제약을 만족하더라도 그러하다.
  2. 문제 표현의 중요성: 올바른 문제 표현 정의가 ISO가 후보자 선택에 미치는 영향을 이해하는 데 중요하다.
  3. 스크리닝 담당자 행동의 복잡성: Best-k와 good-k 문제 간에 복잡한 관계가 존재하며, 이는 후보자 질 분포, ISO 상관성 및 피로 효과에 따라 달라진다.

제한사항

  1. 함수 가정 제한: 효용 모델과 피로항의 함수 가정이 과도하게 단순화될 수 있음
  2. 피로 모델링: 선형 피로 누적이 현실적이지 않을 수 있음
  3. 시뮬레이션 vs 현실: 시뮬레이션 결과는 실제 시나리오에서 검증 필요

향후 방향

  1. 대체 효용 모델: 노출 할인(exposure discounting) 등 다른 효용 모델 탐색
  2. 고급 피로 모델: 스크리닝 담당자 휴식을 고려한 순환 생존 모델
  3. 인간 의사결정 이론: 더 많은 인간 의사결정 이론 통합
  4. 매개변수 최적화: 시뮬레이션 프레임워크를 사용하여 최적 매개변수 테스트

심층 평가

장점

  1. 문제의 중요성: 간과되었지만 중요한 ISO 문제를 처음으로 체계적으로 연구
  2. 이론적 기여: 엄격한 수학적 프레임워크 및 알고리즘 구현 제공
  3. 실무 관련성: 실제 기업 협력을 바탕으로 한 통찰로 실제 적용 가치 있음
  4. 방법론 혁신: 인간형 스크리닝 담당자 모델 도입, 피로 효과 고려
  5. 실험의 포괄성: 대규모 시뮬레이션을 통해 다양한 매개변수 조합 탐색
  6. 도구 기여: 오픈소스 시뮬레이션 프레임워크 제공

부족한 점

  1. 모델 단순화: 피로 모델이 상대적으로 단순하여 복잡한 인간 행동을 포착하지 못할 수 있음
  2. 검증 부족: 주로 시뮬레이션 기반이며 대규모 실제 데이터 검증 부족
  3. 가정 제한: 독립성 가정(A1, A2)이 현실에서 성립하지 않을 수 있음
  4. 평가 지표 단일성: 주로 효용과 중복도에 초점을 맞추며 다른 공정성 지표 부족

영향력

  1. 학술적 가치: 공정한 머신러닝 및 인간-컴퓨터 상호작용 분야에 새로운 관점 제공
  2. 실용적 가치: 채용 플랫폼 및 HR 시스템 설계에 지침 제공
  3. 방법론 기여: 시뮬레이션 프레임워크를 다른 의사결정 시나리오로 확장 가능
  4. 정책적 의의: 알고리즘 감시 및 공정성 규제에 도구 제공

적용 시나리오

  1. 채용 스크리닝: 이력서 스크리닝, 후보자 평가
  2. 교육 평가: 지원서 검토, 과제 채점
  3. 추천 시스템: 사용자 검색 행동을 고려한 공정한 추천
  4. 의사결정 지원: 순차적 평가를 포함하는 모든 의사결정 시나리오

기술 혁신점

핵심 혁신

  1. ISO 매개변수화: 초기 스크리닝 순서를 문제의 명시적 매개변수로 설정
  2. 이중 문제 표현: best-k(전역 최적)와 good-k(조건 만족) 두 가지 목표 구분
  3. 피로 모델링: 시간 의존적 평가 오류 모델 도입
  4. 공정성 분석: 집단 공정성과 개인 공정성의 서로 다른 표현 구분

알고리즘 설계

ExaminationSearch와 CascadeSearch 알고리즘 설계가 정교하다:

  • 순차 처리가 ISO의 영향을 보장
  • 할당량 관리가 공정성 제약을 보장
  • 인간형 버전이 자연스럽게 피로 효과를 통합

실험 설계

시뮬레이션 프레임워크 설계가 주의 깊다:

  • 다양한 점수 분포가 서로 다른 후보자 질 시나리오를 모의
  • ISO 상관성 매개변수가 정보 시스템의 질을 제어
  • 대규모 반복 실험이 결과 안정성을 보장

본 논문은 후보자 스크리닝 시스템을 이해하고 개선하기 위한 중요한 이론적 기초와 실용적 도구를 제공하며, 더 공정하고 효과적인 인공지능 보조 의사결정 시스템 구축에 중요한 의의를 갖는다.