2025-11-19T20:13:14.047070

Regression discontinuity aggregation, with an application to the union effects on inequality

Borusyak, Kolerman-Shemer
We extend the regression discontinuity (RD) design to settings where each unit's treatment status is an average or aggregate across multiple discontinuity events. Such situations arise in many studies where the outcome is measured at a higher level of spatial or temporal aggregation (e.g., by state with district-level discontinuities) or when spillovers from discontinuity events are of interest. We propose two novel estimation procedures - one at the level at which the outcome is measured and the other in the sample of discontinuities - and show that both identify a local average causal effect under continuity assumptions similar to those of standard RD designs. We apply these ideas to study the effect of unionization on inequality in the United States. Using credible variation from close unionization elections at the establishment level, we show that a higher rate of newly unionized workers in a state-by-industry cell reduces wage inequality within the cell.
academic

Agrégation par discontinuité de régression, avec une application aux effets des syndicats sur les inégalités

Informations de base

  • ID de l'article: 2501.00428
  • Titre: Regression discontinuity aggregation, with an application to the union effects on inequality
  • Auteurs: Kirill Borusyak (UC Berkeley), Matan Kolerman-Shemer (The Hebrew University of Jerusalem)
  • Classification: econ.EM (Économétrie)
  • Date de publication: Décembre 2024
  • Lien de l'article: https://arxiv.org/abs/2501.00428

Résumé

Cet article étend le plan de discontinuité de régression (RD) aux cas où l'état du traitement pour chaque unité est une moyenne ou une agrégation de multiples événements de discontinuité. Cette situation se présente dans de nombreuses études où les résultats sont mesurés à des niveaux d'agrégation spatiale ou temporelle plus élevés (par exemple, discontinuités au niveau des États par rapport aux régions), ou lorsque les effets de débordement des événements de discontinuité suscitent des préoccupations. Les auteurs proposent deux nouvelles procédures d'estimation — l'une au niveau où les résultats sont mesurés, l'autre dans l'échantillon de discontinuité — et montrent que les deux identifient l'effet causal moyen local dans des hypothèses de continuité similaires aux plans RD standard. En appliquant ces idées à l'étude de l'impact de la syndicalisation américaine sur les inégalités, en exploitant les variations crédibles des élections de syndicalisation proches au niveau des établissements, les auteurs montrent que l'augmentation de la proportion de travailleurs nouvellement syndiqués dans les unités État-industrie réduit les inégalités salariales au sein de ces unités.

Contexte et motivation de la recherche

Cœur du problème

Le plan de discontinuité de régression traditionnel (RD) exige que chaque unité soit exposée à un seul événement de discontinuité. Cependant, dans de nombreuses études empiriques, la variable de résultat est définie à un niveau d'agrégation plus élevé que les événements de discontinuité. Par exemple:

  1. Études législatives: Les résultats au niveau de l'État dépendent des résultats électoraux de plusieurs circonscriptions uninominales
  2. Agrégation temporelle: Les unités sont exposées à plusieurs événements RD sur plusieurs périodes
  3. Effets de débordement: Chaque unité est exposée à plusieurs élections de ses voisins

Importance du problème

Ces configurations sont extrêmement courantes dans la recherche empirique, couvrant plusieurs domaines tels que l'économie politique, l'économie du travail et les finances publiques. La littérature existante adopte généralement des approches ad hoc pour traiter cette situation, manquant d'un cadre théorique unifié et de méthodes d'estimation optimales.

Limitations des méthodes existantes

  1. Spécification supérieure: Généralement n'inclut pas toutes les variables de contrôle de linéarité locale nécessaires, perdant les avantages de réduction des biais du plan RD
  2. Spécification inférieure: La plupart utilisent l'estimation de forme réduite, sans définir un modèle causal cohérent
  3. Restriction d'échantillon: Certaines études limitent inutilement l'échantillon, réduisant la puissance statistique

Contributions principales

  1. Innovation théorique: Propose le cadre d'agrégation par discontinuité de régression (RDA), étendant le plan RD aux paramètres d'agrégation
  2. Contributions méthodologiques: Développe deux estimateurs — l'estimateur IV supérieur et l'estimateur empilé inférieur
  3. Preuves théoriques: Démontre que les deux estimateurs identifient le même effet causal moyen local dans des hypothèses de continuité similaires
  4. Application empirique: Applique la méthode RDA à l'étude de l'impact de la syndicalisation américaine sur les inégalités
  5. Signification politique: Constate que la syndicalisation réduit significativement les inégalités salariales au sein des unités État-industrie

Détails méthodologiques

Définition de la tâche

Considérez N unités supérieures i, chacune contenant Ji sous-unités j. La sous-unité j est caractérisée par la variable de seuil rj et le traitement zj = 1rj ≥ 0. L'objectif est d'estimer le modèle causal:

Yi = βXi + εi

où Xi est la variable de traitement supérieure, généralement définie comme:

Xi = Σj∈Ji sj zj

Architecture du modèle

1. Estimateur IV supérieur

Construit des variables instrumentales en utilisant les sous-unités proches du seuil:

Zi = Σj∈Ci sj zj

où Ci = {j ∈ Ji : |rj| ≤ h} est l'ensemble des sous-unités proches du seuil.

L'innovation clé est l'agrégation des variables de contrôle RDA:

Qi = (Σj∈Ci sj, Σj∈Ci sj rj, Σj∈Ci sj r+j)'

Spécification d'estimation:

Yi = βXi + γ0 Σj∈Ci sj + γ1 Σj∈Ci sj rj + γ2 Σj∈Ci sj r+j + γ̃'W̃i + errori

2. Estimateur empilé inférieur

Estime la spécification RD floue dans l'échantillon des élections proches du seuil:

Yi(j) = βXi(j) + γ̃'W̃i(j) + λ'qj + errorj

où Xi(j) est instrumentalisé par zj, et qj = (1, rj, r+j) sont les variables de contrôle RD standard.

Points d'innovation technique

1. Équivalence théorique

La Proposition 1 prouve l'équivalence numérique des estimateurs supérieur et inférieur: l'estimateur IV supérieur est égal à un estimateur RD flou spécifique au niveau des sous-unités.

2. Résultats d'identification

La Proposition 2 indique que, dans des hypothèses de continuité standard, les deux estimateurs identifient le même effet causal moyen local:

β0 = E[sj · (Yi(j)(Xi(j)(1, zi(j)−j)) − Yi(j)(Xi(j)(0, zi(j)−j))) | rj = 0] / 
     E[sj · (Xi(j)(1, zi(j)−j) − Xi(j)(0, zi(j)−j)) | rj = 0]

3. Propriétés de réduction des biais

Les simulations de Monte-Carlo montrent que l'estimateur incluant les variables de contrôle de linéarité locale agrégées hérite des propriétés de réduction des biais des méthodes RD traditionnelles.

Configuration expérimentale

Ensemble de données

  1. Données sur les élections syndicales: Données au niveau des établissements de 1961-2009 du NLRB
  2. Résultats du marché du travail: Basés sur les échantillons de recensement décennal de 1960-2010
  3. Données supplémentaires: Données de densité syndicale et d'avantages sociaux de l'Enquête sur la population actuelle (CPS)

Variables de traitement et variables instrumentales

  • Variable de traitement: NewUnionssit, part des travailleurs nouvellement syndiqués dans l'unité État-industrie
  • Variable instrumentale: Zsit, part des travailleurs syndiqués par les élections proches du seuil (marge de vote 50±10%)
  • Variables de contrôle RDA: Impliquent la part des travailleurs dans les élections proches du seuil, l'écart de vote moyen, etc.

Indicateurs d'évaluation

Cinq indicateurs d'inégalité:

  1. Prime salariale universitaire en logarithme
  2. Ratio salarial 90-10 en logarithme
  3. Coefficient de Gini
  4. Part des revenus des 10% supérieurs
  5. Variance du salaire en logarithme

Résultats expérimentaux

Résultats principaux

Impacts sur les inégalités

Pour chaque augmentation d'un point de pourcentage du taux de syndicalisation:

  • Coefficient de Gini réduit de 0,018 (estimateur supérieur) / 0,013 (estimateur inférieur)
  • Ratio 90-10 réduit de 0,46 / 0,27 points logarithmiques
  • Part des 10% supérieurs réduite de 0,14 / 0,12 points de pourcentage
  • Variance du salaire en logarithme réduite de 0,025 / 0,021

Effets sur la distribution des salaires

La syndicalisation réduit les inégalités principalement en baissant les salaires des hauts revenus plutôt qu'en augmentant ceux des bas revenus:

  • Baisse du salaire moyen de 0,35 point logarithmique
  • Baisse significative des salaires des cadres de 0,92 point logarithmique
  • Légère augmentation non significative du salaire au 10e percentile

Mécanismes d'avantages sociaux

La syndicalisation augmente significativement la couverture des régimes de retraite: chaque nouveau membre syndiqué correspond à une augmentation de 1,48 bénéficiaires de retraite, indiquant des effets de débordement importants entre établissements.

Analyse des contributions historiques

L'analyse contrefactuelle montre que si le taux de syndicalisation était resté au niveau des années 1960:

  • Coefficient de Gini: La décroissance syndicale explique 34,5% de la croissance de 1970-2010
  • Ratio 90-10: Explique 33,7% de la croissance
  • Part des 10% supérieurs: Explique 38,3% de la croissance
  • Prime universitaire: Explique 60,5% de la croissance

Tests de robustesse

Les résultats restent robustes dans plusieurs spécifications:

  • Différents choix de largeur de bande (10% et 15%)
  • Exclusion des élections de dissolution syndicale
  • Différentes spécifications d'effets fixes
  • Estimations pondérées et non pondérées

Travaux connexes

Littérature RD

Cet article étend le plan RD standard, se distinguant des plans RD multifractionnés en ce que les plans RD multifractionnés traitent plusieurs variables de seuil à une seule limite, tandis que RDA traite les chocs RD agrégés.

Littérature Shift-Share

L'analyse théorique s'appuie sur la littérature des variables instrumentales shift-share, en particulier les résultats d'équivalence numérique de Borusyak et al. (2022).

Littérature sur les syndicats et les inégalités

Fournit une nouvelle stratégie d'identification causale pour l'impact des syndicats sur les inégalités, complétant les recherches basées sur l'observabilité des sélections comme Farber et al. (2021).

Conclusions et discussion

Conclusions principales

  1. Méthodologie: Le cadre RDA fournit une base théorique uniforme et des méthodes d'estimation optimales pour traiter les paramètres RD agrégés
  2. Résultats empiriques: La syndicalisation réduit significativement les inégalités salariales, principalement en comprimant la distribution des salaires supérieurs
  3. Signification politique: La décroissance syndicale est un facteur important de l'augmentation des inégalités aux États-Unis

Limitations

  1. Extrapolabilité: Basée sur les changements locaux près des élections, extrapolation aux effets à long terme
  2. Niveau d'agrégation: Considère uniquement les inégalités au sein des unités État-industrie, ne couvrant pas les inégalités entre unités
  3. Identification des mécanismes: Les mécanismes spécifiques par lesquels les syndicats affectent les inégalités nécessitent une recherche plus approfondie

Directions futures

  1. Extension à d'autres paramètres d'agrégation et études d'effets de débordement
  2. Développement de méthodes pour traiter les structures d'agrégation endogènes du traitement
  3. Exploration des propriétés théoriques de l'agrégation RD dynamique

Évaluation approfondie

Points forts

  1. Contribution théorique: Comble le vide dans la littérature RD pour les paramètres d'agrégation, fournissant une base théorique rigoureuse
  2. Innovation méthodologique: La conception des deux estimateurs est ingénieuse, héritant des bonnes propriétés du RD traditionnel
  3. Valeur empirique: Fournit de nouvelles preuves causales pour des questions politiques importantes
  4. Forte applicabilité: La méthode s'applique à un large éventail de recherches économiques

Insuffisances

  1. Complexité: Comparée au RD standard, la méthode RDA est plus complexe à mettre en œuvre
  2. Conditions d'hypothèse: Nécessite des hypothèses de continuité plus fortes pour traiter plusieurs variables de seuil
  3. Charge de calcul: Particulièrement pour l'estimateur inférieur qui doit traiter de nombreuses observations répétées

Impact

  1. Contribution académique: Apporte une contribution importante à la méthodologie économétrique
  2. Pertinence politique: Fournit de nouveaux outils pour la recherche en politique du travail et en inégalités
  3. Reproductibilité: Fournit des directives d'implémentation détaillées et du code

Scénarios d'application

  1. Études législatives en économie politique
  2. Études d'obligations scolaires en économie de l'éducation
  3. Études d'effets de débordement en économie du travail
  4. Toute recherche économique impliquant des paramètres RD agrégés

Références

Cet article cite d'importantes références en économétrie, économie du travail et économie politique, notamment:

  • Borusyak et al. (2022) sur les variables instrumentales shift-share
  • Frandsen (2021) sur le plan RD des élections syndicales
  • Farber et al. (2021) sur les syndicats et les inégalités

Évaluation générale: Ceci est un article de haute qualité en méthodologie économétrique qui non seulement fournit une contribution théorique importante, mais démontre également la valeur de la méthode par une application empirique significative. Le cadre RDA comble un vide dans la littérature et fournit une stratégie d'identification plus appropriée pour de nombreuses recherches économiques.