签到
EN

【计量经济学】基于合成控制法的双重差分(Synthetic DID)

118浏览
2022/04/27 03:30发布
经济学前沿问题研究
经济学前沿问题研究
这篇文章推荐研究——【计量经济学】基于合成控制法的双重差分(SyntheticDID)

   简介

 

 

在使用面板数据估计外部冲击或政策变化的影响时,目前常用的两种方法为:合成控制法(Synthetic Control,下称SC)与双重差分法(Difference in Differences,下称DID)。在实证中,若实验组拥有大量个体且数据满足平行趋势假设时,我们通常使用双向固定效应DID;若实验组仅含有一个个体(或非常少个体)、无法满足平行趋势假定时,我们则可以使用SC。虽然这两种方法的应用范围不同,但证明这两种方法的基本假设是密切相关的。于是Arkhangelsky et al.(2021)结合了这两种方法各自的优点,提出了一种新的方法——Synthetic Difference in Differences(SDID)。理论上,本文给出了估计量一致性和渐进正态性条件;实证上,该方法相较于DID与SC则更具有优势。

 

 

01 Horizontal and Vertical Regression

 

 

为了简化问题,我们假定一个含有 T 期、N 个个体的面板数据,记为个体 i = 1,...,N,时间 t = 1,..,T。个体 1~N-1 在整个样本期内均未受到政策冲击;个体 N 在第 T 期受到政策冲击。因此 1~T-1 期为pretreatment 期间,下称pre期,第 T 期则称为post期。

 

研究者可以观察到的结果变量数据表示为:

图片

其中,下标 t 表示实验组,c 表示控制组;括号中 1 表示在该期受到政策冲击,0 表示在该期未受到政策冲击。因此矩阵Yt,post(1)表示实验组在post期受到政策冲击时的结果变量,矩阵Yc,post(0)表示控制组在post期未受到政策冲击时的结果变量。

 

但我们感兴趣的因果效应取决于Yt,post(1)和Yt,post(0)。Yt,post(0)表示若未受到政策冲击,实验组在 post 期的结果变量,是不可观测的。因此则需要通过对Yc,post(0)、Yc,pre(0) 和Yt,pre(0)进行建模并估计出反事实Yt,post(0)。估计方法主要分为“Horizontal Regression”和“Vertical Regression”,下面将分别介绍这两种估计方法的思路。

 

1、“Vertical Regression”:对Yc,pre(0)和Yt,pre(0)进行建模,并假设Yt,post(0)和Yc,post(0)之间的关系与之前一样,进而可以估计出反事实Yt,post(0)。该方法适用于T远远大于N的情况。

 

Doudchenko & Imbens(2016)指出SC中的个体权重可以视为Vertical Regression的估计参数:

图片

 

图片

 

该回归中包含 N-1 个自变量和 T-1 个观测个体。其中 图片 表示估计出的因果效应;图片 表示根据个体权重 图片 计出的合成控制组的结果变量;个体权重  图片 使得实验组与合成控制组的结果变量在pre期尽可能相等,以解决DID方法无法满足平行趋势假设的问题。 Abadia et al.(2010)最初提出的SC没有加入截距项,也就是说该方法没有考虑到实验组与控制组的结果变量可能存在系统性差异。实验组的结果变量是异常值(比如样本最大值或最小值),那么该方法可能就无法估计出合成控制组而在最初的SC中,加入截距项是没有意义的。因为在估计时,还需要使得实验组与合成控制组的协变量差异尽可能相等,不同协变量的度量方法与单位不尽相同,因此对于不同协变量采用同一截距项是没有意义的。包括本文在内的许多改进SC的文献,在估计时均加入了截距项

 

 

2、“Horizontal Regression”:对Yc,post(0)和Yc,pre(0)进行建模,并假设Yt,post(0)和Yt,pre(0)之间存在一样的关系,进而估计出反事实Yt,post(0)。当 N远远大于T或结果变量存在自相关时,这种估计方法则更合理。Unconfoundedness type regression则体现了这种思想:

 

图片

 

图片

 

图片

 

该回归中包含 T-1 个自变量和 N-1 个观测个体图片 表示根据时间权重图片 与截距项 图片 估计出的实验组反事实的结果变量。

 

总的来说,Vertical Regression关注的是个体之间在时间维度上的稳定的关系;Horizontal Regression关注的则是结果变量在时间路径上的相关性,也就是结果变量与其滞后期的关系。这两个方法要么仅关注时间维度(over time),要么仅关注个体纬度(across units)。而双向固定效应模型就是一个很好的综合方法,它可以捕捉时间和个体之间的差异。但双向固定效应did中个体权重均为控制组个体的倒数,时间权重均为pre期数的倒数,当政策不是随机分布时,平行趋势假设则可能无法得到满足。

 

以往,研究者往往需要从这三个方法中选出最合适的方法进行估计。而SDID则结合了这三种方法的优势,也可以使研究者不再纠结于方法的选择。

 

 

02  SDID估计方法、过程与应用

 

 

1、SDID估计方法与过程

 

在下文,我们对于包含 T 期和 N 个个体的面板数据的设定稍有改变。假定第1~Nco 个个体从未受到冲击;第 Nco+1~N 个个体在第 Tpre+1~T 期受到政策冲击。Nco+Ntr=N,Tpre+Tpost=T。哑变量Wit 表示是否遭受政策冲击。

 

如上文所述,SC可表示为仅包含时间固定效应的加权线性回归(加入截距项):

图片

 

DID为包含个体固定效应和时间固定效应的未加权回归:

图片

 

SDID则是包含时间固定效应和个体固定效应的加权回归:

图片

 

其中,个体权重可以给与实验组更相似的控制组个体赋予更高的权重,其通过以下最优化问题得到:

图片

 

相较于Abadia et al.(2010)的SC,2.1式在估计个体权重时不仅加了截距项,还加了惩罚项图片以解决过拟合问题,提高选择出的控制组的分散性ζ 为正则化参数,计算方法如下:

图片

 

 

时间权重可以给与post期更相似的pre期赋予更高的权重,其由以下最优化问题得到:

图片

 

与个体权重不同的是,计算时间权重的最优化问题中没有加入惩罚项,这反映了该估计方法允许相同个体在不同时间的观测值具有很强的相关性。

 

综上,SDID的估计过程可以简述为以下四步:(1)由2.2式计算出正则化参数ζ;(2)由2.1式计算出个体权重;(3)由2.3式计算出时间权重;(4)由下式计算出SDID估计参数:

图片

 

 

2、应用

 

将以上三种方法应用在估计加州禁烟法对人均香烟消费量影响的案例里(具体政策背景参考Abadia et al.(2010)或【论文推荐】合成控制法介绍及其应用,结果对比如下图所示:

图片

 

 

红线表示加州人均香烟消费量的现实数据;蓝线在 DID 中表示控制组人均香烟消费量的平均数,在 SC 和 SDID 中表示控制组人均吸烟量的加权数。在下面的三幅图中,圆圈的大小则表明了控制组中不同洲的权重大小。可以看出 DID 控制组中不同个体的权重相等;SC 控制组中权重大于 0 的个体较少且正权重的数值差异较大;SDID 控制组中权重大于 0 的个体较多且个体之间的权重也具有一定的差异

 

上面三幅图的底端表示 pre 期不同年份的时间权重大小。DID中各年份的时间权重相等;SC中各年份的时间权重为 0;SDID中,1986-1988年的时间权重为正,其余为0

 

另外,下面三幅图的纵轴可以理解为将最终估计出的因果效应按照个体权重分配到每个控制组个体上的大小情况,具体表示在 post 期,经过调整后的state-by-state人均香烟消费量差异图片,计算方法如下:

图片

图片

 

从图中可以看出在SC和DID中,控制组中某些洲对估计结果影响较大(New Hampshire),而SDID加入时间权重后,则不存在这种情况

 

本文作者在以下地址给出了R包和范例data:https://github.com/synth-inference/synthdid/tree/sdid-paper

 

 

03  安慰剂研究

 

Bertrand et al.(2004)通过随机分配一个控制组的子集作为安慰剂实验组,其余的作为控制组,以此来研究不同的 DID 估计量的表现,即估计参数对0的覆盖程度。结果发现当数据存在序列相关时,不考虑它的DID估计量会过度拒绝零假设。

 

本文在参考该方法的同时进行了改动。作者认为现实世界中,政策的颁布并不都是随机分布的,它在不同地区间、不同时间上实行的概率可能不尽相同。在做安慰剂检验时,设置的安慰剂实验组分布应该尽可能地与现实相符,而非仅仅随机分配。若政策在地区间的分布与地区间的系统性差异有关,那么不考虑这点的估计量将是有偏的,但基于随机分布规则的安慰剂研究得出的估计量表现却可能是良好的。

 

于是本文根据美国CPS数据库生成了一套数据进行安慰剂研究。数据生成过程较为复杂,这里不进行赘述。最终生成的数据具有以下特征:(1)数据生成的过程基于latent factor model(也被称为交互固定效应模型);(2)结果变量是基于现实数据计算出的平均工资;(3)政策在地区上的分布服从于伯努力分布,概率是由现实中的实际政策与个体固定效应和交互固定效应的关系决定的,比如最低工资政策、堕胎法与枪支法,用该方法模拟的安慰剂实验组分配情况可以反映各州的实际差异;(4)误差项的分布是通过将残差项进行AR(2)拟合得到的;(5)政策分布不取决于误差项,满足外生性。

 

安慰剂研究的结果如图所示:

图片

由图可见,若安慰剂实验组是随机分配的,那三种方法估计出的参数都是无偏的,但SDID的均方根最小,即更精确。但若安慰剂实验组并非随机分配,而是基于最低工资政策,SDID在减小偏差和精确度方面的表现都是最好的

 

 

04  小结

 

研究者常用SC与DID去评估外部冲击或政策变化的影响。虽然这两种方法的应用范围不同,但证明这两种方法的基本假设是密切相关的。于是本文结合了这两种方法各自的优点,提出了一种新的方法——Synthetic Difference in Difference(SDID)。

 

现实中的政策分布在地区之间与时间上往往不是随机的,SDID不仅通过个体权重找到与实验组相近的控制组个体并赋予其较大的个体权重,还通过时间权重找到与post期相似的pre期并赋予其相对较大的时间权重。实证应用上,该方法相较于DID与SC则更具有优势;理论上,本文还提出了该估计量一致性和渐进正态性的条件,本推送不做赘述,可参考原文。

 

 

 

 

Abstract

 

 

We present a new estimator for causal effects with panel data that builds on insights behind the widely used difference-in-differences and synthetic control methods. Relative to these methods we find, both theoretically and empirically, that this "synthetic difference-in-differences" estimator has desirable robustness properties, and that it performs well in settings where the conventional estimators are commonly used in practice. We study the asymptotic behavior of the estimator when the systematic part of the outcome model includes latent unit factors interacted with latent time factors, and we present conditions for consistency and asymptotic normality.

 

 

 

 

 

*文章来源:劳动经济学与社保研究

*侵权必删

 

经济学前沿问题研究
经济学前沿问题研究
文章181
·
总浏览量17920
最新文章
更多
【IEEE Communications Society主办】第三届智能计算与下一代网络国际会议(ICNGN 2024)
杜金桐
4
浏览
【征稿-EI检索】第五届新型功能材料国际会议(ICNFM 2024)
杜金桐
14
浏览
智领未来 元启新篇|南京江宁AIGC与元宇宙产业发展论坛暨元宇宙供需对接大会成功举办
杨展
2238
浏览
前沿科技盛会:南京AIGC与元宇宙论坛引爆行业新风向!
杨展
33355
浏览
顶刊JDE | 外资冲击波下的质量危机!中国出口产品质量下滑是为哪般?
经济学前沿问题研究
48
浏览
【EI检索】2024年第一届先进能源材料、能源器件与能源系统国际会议(AEMDS 2024)
杜金桐
15
浏览
热门用户
学术前沿速递
学术前沿速递
文章
300
学说观点
学说观点
文章
300
AIGC交流社区
学说官方
文章
240
未央网
未央网
文章
233
毕宣
中央财经大学
文章
185
王凯
T. Rowe Price
文章
181
热门文章
更多
经济学入门必读书籍有哪些值得推荐?
楚健
·
1185
浏览
绿色信贷能否提高商业银行的核心竞争力?基于中国的准自然实验
创新研究
·
879
浏览
最新综述!AIGC到底是什么?都有哪些应用?一文尽览!
AIGC交流社区
·
766
浏览
研究方法 | 文献资料分析方法大全!收藏
周舟
·
762
浏览
数电票的26个问题,税局统一回复!
张俊熙
·
759
浏览
如果经济学家连股都不炒,那他们都在干什么呢?
李博
·
682
浏览
“特斯拉”打败了“星巴克”
张子瑞
·
670
浏览
研究方法:文献资料分析方法
周舟
·
660
浏览
银行纷纷入局数字藏品赛道,什么信号?
李杨杨
·
629
浏览
会议预告|清华五道口绿色金融讲座第一期,邀您探讨“碳达峰碳中和——中国发展转型的机遇和挑战”
学术会议动态
·
3320
浏览