2025-11-19T20:13:14.047070

Regression discontinuity aggregation, with an application to the union effects on inequality

Borusyak, Kolerman-Shemer
We extend the regression discontinuity (RD) design to settings where each unit's treatment status is an average or aggregate across multiple discontinuity events. Such situations arise in many studies where the outcome is measured at a higher level of spatial or temporal aggregation (e.g., by state with district-level discontinuities) or when spillovers from discontinuity events are of interest. We propose two novel estimation procedures - one at the level at which the outcome is measured and the other in the sample of discontinuities - and show that both identify a local average causal effect under continuity assumptions similar to those of standard RD designs. We apply these ideas to study the effect of unionization on inequality in the United States. Using credible variation from close unionization elections at the establishment level, we show that a higher rate of newly unionized workers in a state-by-industry cell reduces wage inequality within the cell.
academic

Regression discontinuity aggregation, with an application to the union effects on inequality

基本信息

  • 论文ID: 2501.00428
  • 标题: Regression discontinuity aggregation, with an application to the union effects on inequality
  • 作者: Kirill Borusyak (UC Berkeley), Matan Kolerman-Shemer (The Hebrew University of Jerusalem)
  • 分类: econ.EM (Econometrics)
  • 发表时间: December 2024
  • 论文链接: https://arxiv.org/abs/2501.00428

摘要

本文将回归断点设计(RD)扩展到每个单位的处理状态是多个断点事件的平均值或聚合的情况。这种情况在许多研究中出现,其中结果在更高层次的空间或时间聚合水平上测量(例如,按州与地区级断点),或当断点事件的溢出效应引起关注时。作者提出了两种新的估计程序——一种在测量结果的层次上,另一种在断点样本中——并表明两者都在与标准RD设计相似的连续性假设下识别局部平均因果效应。通过应用这些思想研究美国工会化对不平等的影响,利用机构层面接近的工会化选举的可信变化,作者表明州-行业单元中新工会化工人比率的提高降低了单元内的工资不平等。

研究背景与动机

问题的核心

传统的回归断点设计(RD)要求每个单位只暴露于一个断点事件。然而,在许多实证研究中,结果变量是在比断点事件更高的聚合层次上定义的。例如:

  1. 立法机构研究:州级结果取决于多个单议席选区的选举结果
  2. 时间聚合:单位在多个时期暴露于多个RD事件
  3. 溢出效应:每个单位暴露于邻居的多个选举

问题的重要性

这类设置在实证研究中极为常见,涵盖了政治经济学、劳动经济学、公共财政等多个领域。现有文献通常采用ad hoc的方法处理这种情况,缺乏统一的理论框架和最优估计方法。

现有方法的局限性

  1. 上层规范:通常不包括所有必要的局部线性控制变量,失去了RD设计的偏差减少优势
  2. 下层规范:多数使用简化形式估计,未定义连贯的因果模型
  3. 样本限制:一些研究不必要地限制样本,降低了统计功效

核心贡献

  1. 理论创新:提出了回归断点聚合(RDA)框架,将RD设计扩展到聚合设置
  2. 方法论贡献:开发了两种估计器——上层IV估计器和下层堆叠估计器
  3. 理论证明:证明两种估计器在相似的连续性假设下识别相同的局部平均处理效应
  4. 实证应用:将RDA方法应用于研究美国工会化对不平等的影响
  5. 政策意义:发现工会化显著降低州-行业单元内的工资不平等

方法详解

任务定义

考虑N个上层单位i,每个单位包含Ji个下层子单位j。子单位j的特征是运行变量rj和处理zj = 1rj ≥ 0。目标是估计因果模型:

Yi = βXi + εi

其中Xi是上层处理变量,通常定义为:

Xi = Σj∈Ji sj zj

模型架构

1. 上层IV估计器

使用接近截点的子单位构造工具变量:

Zi = Σj∈Ci sj zj

其中Ci = {j ∈ Ji : |rj| ≤ h}是接近截点的子单位集合。

关键创新是聚合RDA控制变量:

Qi = (Σj∈Ci sj, Σj∈Ci sj rj, Σj∈Ci sj r+j)'

估计规范:

Yi = βXi + γ0 Σj∈Ci sj + γ1 Σj∈Ci sj rj + γ2 Σj∈Ci sj r+j + γ̃'W̃i + errori

2. 下层堆叠估计器

在接近截点的选举样本中估计模糊RD规范:

Yi(j) = βXi(j) + γ̃'W̃i(j) + λ'qj + errorj

其中Xi(j)由zj工具化,qj = (1, rj, r+j)是标准RD控制变量。

技术创新点

1. 理论等价性

命题1证明了上层和下层估计器的数值等价性:上层IV估计器等于特定的子单位层面模糊RD估计器。

2. 识别结果

命题2表明,在标准连续性假设下,两种估计器识别相同的局部平均处理效应:

β0 = E[sj · (Yi(j)(Xi(j)(1, zi(j)−j)) − Yi(j)(Xi(j)(0, zi(j)−j))) | rj = 0] / 
     E[sj · (Xi(j)(1, zi(j)−j) − Xi(j)(0, zi(j)−j)) | rj = 0]

3. 偏差减少性质

蒙特卡洛模拟显示,包含聚合局部线性控制变量的估计器继承了传统RD方法的偏差减少特性。

实验设置

数据集

  1. 工会选举数据:来自NLRB的1961-2009年机构层面工会选举数据
  2. 劳动力市场结果:基于1960-2010年十年人口普查样本
  3. 补充数据:当前人口调查(CPS)的工会密度和福利数据

处理变量和工具变量

  • 处理变量:NewUnionssit,州-行业单元中新工会化工人的份额
  • 工具变量:Zsit,通过接近选举(投票份额50±10%)工会化的工人份额
  • RDA控制变量:涉及接近选举的工人份额、平均投票差额等

评价指标

五个不平等指标:

  1. 大学工资溢价的对数
  2. 90-10工资比率的对数
  3. 基尼系数
  4. 前10%收入份额
  5. 对数工资方差

实验结果

主要结果

不平等影响

新工会化率每增加1个百分点:

  • 基尼系数降低0.018 (上层估计器) / 0.013 (下层估计器)
  • 90-10比率降低0.46 / 0.27对数点
  • 前10%份额降低0.14 / 0.12个百分点
  • 对数工资方差降低0.025 / 0.021

工资分布效应

工会化主要通过降低高收入者工资而非提高低收入者工资来减少不平等:

  • 平均工资下降0.35对数点
  • 管理人员工资显著下降0.92对数点
  • 第10百分位工资略有上升但不显著

福利机制

工会化显著提高养老金覆盖率:每个新工会成员对应1.48个养老金持有者的增加,表明存在显著的机构间溢出效应。

历史贡献分析

反事实分析表明,如果新工会化率保持在1960年代水平:

  • 基尼系数:工会衰落解释了1970-2010年增长的34.5%
  • 90-10比率:解释了33.7%的增长
  • 前10%份额:解释了38.3%的增长
  • 大学溢价:解释了60.5%的增长

稳健性检验

结果在多种规范下保持稳健:

  • 不同带宽选择(10%和15%)
  • 排除工会解散选举
  • 不同固定效应设定
  • 加权和非加权估计

相关工作

RD文献

本文扩展了标准RD设计,与多分数RD设计区别在于:多分数RD处理单一边界的多个运行变量,而RDA处理聚合的RD冲击。

Shift-Share文献

理论分析基于shift-share工具变量文献,特别是Borusyak et al. (2022)的数值等价性结果。

工会与不平等文献

为工会对不平等影响提供了新的因果识别策略,补充了Farber et al. (2021)等基于选择可观测性的研究。

结论与讨论

主要结论

  1. 方法论:RDA框架为处理聚合RD设置提供了统一的理论基础和最优估计方法
  2. 实证发现:工会化显著降低工资不平等,主要通过压缩高端工资分布实现
  3. 政策意义:工会衰落是美国不平等上升的重要因素

局限性

  1. 外推性:基于接近选举的局部变化外推到长期效应
  2. 聚合层次:仅考虑州-行业单元内不平等,未涵盖单元间不平等
  3. 机制识别:对工会影响不平等的具体机制需要进一步研究

未来方向

  1. 扩展到其他聚合设置和溢出效应研究
  2. 开发处理内生聚合结构的方法
  3. 探索动态RD聚合的理论性质

深度评价

优点

  1. 理论贡献:填补了RD文献在聚合设置下的空白,提供了严格的理论基础
  2. 方法创新:两种估计器设计巧妙,继承了传统RD的优良性质
  3. 实证价值:为重要的政策问题提供了新的因果证据
  4. 实用性强:方法适用于广泛的经济学研究领域

不足

  1. 复杂性:相比标准RD,RDA方法实施更为复杂
  2. 假设条件:需要更强的连续性假设来处理多个运行变量
  3. 计算负担:特别是下层估计器需要处理大量重复观测

影响力

  1. 学术贡献:为计量经济学方法论做出重要贡献
  2. 政策相关性:为劳动政策和不平等研究提供新工具
  3. 可复现性:提供了详细的实施指导和代码

适用场景

  1. 政治经济学中的立法机构研究
  2. 教育经济学中的学校债券研究
  3. 劳动经济学中的溢出效应研究
  4. 任何涉及聚合RD设置的经济学研究

参考文献

本文引用了计量经济学、劳动经济学和政治经济学的重要文献,特别是:

  • Borusyak et al. (2022) 关于shift-share工具变量的研究
  • Frandsen (2021) 关于工会选举RD设计的研究
  • Farber et al. (2021) 关于工会与不平等的研究

总体评价:这是一篇高质量的计量经济学方法论论文,不仅提供了重要的理论贡献,还通过有意义的实证应用展示了方法的价值。RDA框架填补了文献空白,为许多经济学研究提供了更合适的识别策略。