2025-11-25T20:16:18.201421

The Initial Screening Order Problem

Alvarez, Mastropietro, Ruggieri

We investigate the role of the initial screening order (ISO) in candidate screening. The ISO refers to the order in which the screener searches the candidate pool when selecting $k$ candidates. Today, it is common for the ISO to be the product of an information access system, such as an online platform or a database query. The ISO has been largely overlooked in the literature, despite its impact on the optimality and fairness of the selected $k$ candidates, especially under a human screener. We define two problem formulations describing the search behavior of the screener given an ISO: the best-$k$, where it selects the top $k$ candidates; and the good-$k$, where it selects the first good-enough $k$ candidates. To study the impact of the ISO, we introduce a human-like screener and compare it to its algorithmic counterpart, where the human-like screener is conceived to be inconsistent over time. Our analysis, in particular, shows that the ISO, under a human-like screener solving for the good-$k$ problem, hinders individual fairness despite meeting group fairness, and hampers the optimality of the selected $k$ candidates. This is due to position bias, where a candidate's evaluation is affected by its position within the ISO. We report extensive simulated experiments exploring the parameters of the best-$k$ and good-$k$ problems for both screeners. Our simulation framework is flexible enough to account for multiple candidate screening tasks, being an alternative to running real-world procedures.

academic

初期スクリーニング順序問題

基本情報

論文ID: 2307.15398
タイトル: The Initial Screening Order Problem
著者: Jose M. Alvarez (KU Leuven)、Antonio Mastropietro (University of Pisa)、Salvatore Ruggieri (University of Pisa)
分類: cs.LG cs.CY
発表時期: 2023年7月（arXiv プレプリント、2025年1月更新）
論文リンク: https://arxiv.org/abs/2307.15398

要約

本論文は、候補者スクリーニングにおける初期スクリーニング順序（Initial Screening Order, ISO）の役割を研究している。ISOとは、スクリーニング担当者がk人の候補者を選択する際に候補者プールを検索する順序を指す。現在、ISOは通常、情報アクセスシステム（オンラインプラットフォームやデータベースクエリなど）によって生成される。ISOは選択されたk人の候補者の最適性と公平性に重要な影響を与えるにもかかわらず（特に人間のスクリーニング担当者の場合）、文献では大部分が無視されている。著者らは、与えられたISO下でのスクリーニング担当者の検索行動を記述するために、2つの問題定式化を定義している：best-k問題（上位k人の最良候補者を選択）とgood-k問題（上位k人の十分に良い候補者を選択）。ISOの影響を研究するため、著者らは人間型スクリーニング担当者を導入し、アルゴリズム型スクリーニング担当者と比較している。人間型スクリーニング担当者は時間とともに変動する不一貫性を示すように設計されている。分析により、人間型スクリーニング担当者がgood-k問題を解く場合、ISOは個人的公平性を阻害する（集団的公平性は満たすが）ことが示され、選択されたk人の候補者の最適性が損なわれる。これは位置バイアスによるもので、候補者の評価がISO内での位置の影響を受けるためである。

研究背景と動機

問題背景

候補者スクリーニングは複雑で人間に依存するタスクであり、履歴書スクリーニング、大学入試など多くの場面で広く存在している。機械学習の発展に伴い、LinkedInやTaleoなどのプラットフォームのような情報アクセスシステム（IAS）は候補者スクリーニングにおいて中核的な役割を果たしており、通常、推定される関連性または特定の特性に基づいて候補者を提示する。

研究動機

実践的必要性：ヨーロッパのフォーチュン・グローバル500企業Gとの協力経験に基づき、著者らは5つの重要な実践パターンを発見した：
- G1: スクリーニング担当者は異なるISOを選択する
- G2: 完全検索と部分検索の2つの方法が存在する
- G3: 最低限の基本要件を満たす候補者に焦点を当てる
- G4: 多様性表現クォータの公平性目標が存在する
- G5: 各候補者の評価時間は約1分である
理論的ギャップ：既存文献はISO作成（公平集合選択または順序付け問題として）に主に焦点を当てているが、スクリーニング担当者がISOをどのように使用するか、特に人間のスクリーニング担当者の行動についてはほとんど研究されていない。
公平性への懸念：位置バイアスは、ISO内の位置が異なるため、類似の候補者が異なる扱いを受ける可能性があり、個人的公平性の原則に違反する。

核心的貢献

ISO問題の初めての形式化：ISOを集合選択問題における重要なパラメータとして位置づけ、best-kおよびgood-kという2つの検索行動の問題定式化を定義した。
人間型スクリーニング担当者モデルの導入：疲労効果を考慮した人間型スクリーニング担当者を提案し、アルゴリズム型スクリーニング担当者と理論的および実験的に比較した。
柔軟なシミュレーションツールの提供：ISO問題を研究できるシミュレーションフレームワークを開発し、実際のスクリーニングシナリオを実行することなく実務家に指導を提供できる。
位置バイアスの公平性への影響の解明：ISOが人間型スクリーニング担当者の下で個人的公平性違反をもたらすことを証明しながら、集団的公平性制約を満たしていることを示した。

argmax_{S^k ∈ [C]^k} U^k_add(S^k, θ) s.t. f(S^k) ≥ q

ここで効用関数は以下のように定義される：

U^k_add(S^k, θ) = Σ_{c∈S^k} s(X_c)

Good-k問題

スクリーニング担当者は最低要件ψを満たす最初のk人の候補者を探し、部分検索を許可する：

argmax_{S^k ∈ [C]^k} U^k_ψ(S^k, θ) s.t. f(S^k) ≥ q

ここで効用関数は以下のように定義される：

U^k_ψ(S^k, θ) = {
  k - Σ_{c∈S^k} p(c, S^k, θ)  if ∀c ∈ S^k, s(X_c) ≥ ψ
  0                            otherwise
}

ペナルティ関数p(c, S^k, θ)は候補者cを選択する「無駄な努力」を測定する。

s_h_h(X_c) + ε

ここでεは累積疲労に依存する確率変数であり、2つのモデリング選択肢を考慮する：

ε₁ ~ N(0, v(Φ(t-1)))：分散が疲労とともに増加
ε₂ ~ N(μ(Φ(t-1)), v(Φ(t-1)))：平均が疲労とともに低下

検索アルゴリズム

ExaminationSearch（アルゴリズム1）：best-k問題を解く、スコアの降順で検索
CascadeSearch（アルゴリズム2）：good-k問題を解く、ISO順序で検索
対応する人間型版（アルゴリズム3-4）：疲労効果を組み込む

対称分布：μ=0.5, σ=0.02（トップ候補者の確率が非常に低い）
非対称分布：μ=0.8, σ=0.05（トップ候補者の確率が比較的高い）
増加分布：μ=1, σ=0.05（トップ候補者の確率が最も高い）

ISO設定

θ ⊥⊥ s：ISOが個人スコアと独立（ランダムまたはアルファベット順）
θ ⊥̸⊥ s：ISOがスコアと相関、相関係数ρ ∈ {-1, -0.8, -0.5}

実験パラメータ

候補者プールサイズ：n = 120, 400, 30
選択数：k = 6, 20
クォータ：q = 0.5
保護グループの比率：pr = 0.2
最低要件：ψ ∈ 0.3, 0.8

評価指標

ベースラインに対する比率（RtB）：ベースラインソリューションに対する効用比率
Jaccard類似度（JdS）：候補者の重複比率

スコア分布の影響：
- 対称分布では、ψが増加するにつれてgood-kは徐々にbest-kに接近する
- 非対称および増加分布では、ψが大きい場合でも、good-kはbest-kのパフォーマンスに達することが難しい
ISO相関性の影響：
- ρ = -1の場合（完全負相関）、good-kとbest-kのパフォーマンスは同じである
- ρ = -0.5の場合、good-kはすでにbest-kをよく近似している
スケール効果：
- より大きいk/n比率により、good-kはbest-kをより良く近似する
- ISO影響はk/nの増加とともに減弱する