
【计量经济学】疫情会降低胎儿未来的教育水平吗?

疫情的冲击会对人类社会产生一系列的重要影响。本文利用1918-1919年西班牙大流感时期的胎儿及其成年后的有关数据,估计胎儿在子宫内暴露于大流感(胎儿宫内流感暴露)对成年后的高中毕业率的影响。
西班牙大流感在1918~1919年曾经造成全世界约5亿人感染,造成约2500万到4000万人死亡(当时世界人口约17亿人),使其成为人类历史上最致命的大流行病之一。Almond(2006)提出胎儿宫内流感暴露会影响其在成年后的教育水平、收入等社会经济特征,而Brown&Thomas(2018) 发现这一作用会在控制了样本的父母特征后消失。本文利用新的数据和方法对这一问题再次进行了研究,并肯定了Almond的结论:胎儿宫内流感暴露会使成年后的高中毕业率显著降低。
01
独特的数据使用是这篇文章的一大亮点。作者使用了1920和1930年的人口普查数据和第二次世界大战的征兵记录,利用姓名、种族、出生州等数据将人口普查数据的观测值与征兵记录进行匹配,可以同时得到每个人的出生地、父母特征以及参军入伍时的社会经济特征等数据,形成了一套连接数据集。使用这种连接数据集有许多优点,第一,可以观测并控制父母的特征;第二,可以利用流感强度的地理空间变化作为额外的识别来源,提高识别策略的可信度;第三,这些完整的记录允许组织关于兄弟的大样本,将家庭的固定效应包含在识别策略中。
02
本文使用了城市的超额流感死亡率作为测定胎儿宫内流感暴露强度的指标。首先,将1900年到1917年该城市流感致死人数的对数值对时间进行线性拟合,然后利用估计结果对1917年之后各城市的流感致死人数进行预测,得到预测值为如果没有大流感发生各地应有的流感致死人数;然后将实际流感死亡人数与预计流感致死人数的差值作为超额流感死亡人数。超额流感死亡率即为某城市的超额流感死亡人数与预计流感死亡人数的比值。考虑到各城市的空气、水等自然条件有差异,这些差异会对流感死亡人数造成影响,使用超额值与预测值的比值作为指标可以消除这些影响。
本文使用了DID模型对1918大流感的影响进行了估计。以各城市超额流感死亡率的中值为界,将城市分为高暴露城市和低暴露城市两类,然后将高暴露城市作为干预组,低暴露城市作为控制组。低暴露城市的死亡数据可以作为反事实趋势,即如果高暴露城市没有发生大流感的情况。因为低暴露城市也会受到大流感影响,本文的估计可以认为是一个下限。具体使用了如下两个模型:


模型1中解释变量为虚拟二元变量,城市的超额流感死亡率高于中位数时为1;否则为0。模型2则直接使用该超额流感死亡率为解释变量。两个模型中的βb和γc分别为出生年份和出生地点的固定效应,Xi'为父母特征、家庭背景等其他控制变量。
03

上图描绘了高、低暴露城市1909-1921年出生人群的高中毕业率变化趋势。1909-1916年出生的人群,高、低暴露的城市的高中毕业率有接近相同的趋势,从1917年开始,两类城市出生人群的高中毕业率开始下降,高暴露城市出生人群的高中毕业率下降更严重,1919年出生人群的高中毕业率偏离趋势最多,1920毕业率恢复正常。这表明DID策略满足平行趋势假设。

实证结果发现模型1(左图)和模型2(右图)的各组结果(从左至右分别为基础模型、加入父母特征作控制变量、加入父母特征和城市固定时间线性趋势、去除1920年数据)都一致显示个体在子宫内暴露于大流感,会显著降低高中毕业率1-1.5个百分点左右。
此外,作者还使用了1909-1922年更为广泛的数据,包含了同一家庭的不同个体样本,加入了家庭的固定效应,结果仍然是胎儿宫内流感暴露对高中毕业率有显著的负作用。
04
本文讨论了Brown&Thomas的研究与Almond得出不一致结论的可能原因:使用样本不同、测定流感强度的指标不同、对父母特征数据测量有误。在对Almond(2006)和Brown&Thomas(2018)使用的1940、1960年人口普查数据重新估计以及使用孕产妇流感感染率指标后,发现结果仍然保持一致,这说明样本和流感强度指标的差异对结果没有影响。因此可以推测偏误来源于Brown&Thomas使用的父母特征数据存在系统性测量偏误。
假设真实模型为:

儿子的教育程度受父亲的教育程度影响,如果直接使用个体的父亲教育程度数据可以得到一致估计。本文使用的数据包括个体父母特征数据,但是Brown&Thomas的研究没有详细的个体父母特征数据,只能使用各州的父母特征均值水平作为代理变量:

,其中 ϑi 与
无关,如果使用的均值被正确衡量,则模型误差μi=ϵi-γϑi仍然与解释变量无关,可以得到一致估计。但如果使用了错误衡量的均值作代理变量:

,其中与教育程度内生相关,教育程度低的父母可能会四舍五入地报自己孩子的年龄,教育程度较高的父母更可能准确地报自己孩子的年龄。这使得模型误差
与解释变量
内生相关,因此产生的估计结果也是不准确的。
05
本文对数据的处理方式和实证策略的选择很值得学习。将征兵记录与人口普查数据连接起来,可以获得除了个人基本情况以外的家庭情况,进而控制家庭因素的固定效应,还可以对长期因素的影响进行分析;测量胎儿宫内流感暴露时创造性地使用超额流感死亡数与预期流感死亡数的比值作为测量指标,很好地规避了与城市相关的环境因素对回归的混杂影响;在流感爆发之前,高、低暴露城市的出生人群的高中毕业率的趋势几乎一致,能够很好地满足DID的关键假设;模型对流感强度采用离散和连续两种刻画,保证了解释变量的解释力。
本文理论上最大的贡献在于发现了胎儿宫内流感暴露会对其成年后的人力资本积累产生负面影响。在新冠肺炎疫情影响下,我们可以推断暴露于本次疫情中的胎儿的最终受教育情况可能较差,政策建议是希望学校和家长能够关注这些人的教育情况,为他们将来的学习提供更多的帮助。
本文研究也有不足的地方。第一,样本删减太大,由于无法做到流感数据与出生城市的比对,作者删除了597486个样本,最后剩下218662个样本,有可能会造成样本选择偏误。第二,胎儿宫内流感暴露对受教育程度影响的作用机制没有很好地阐释,只是发现二者在统计上存在的因果关系,作用机制就像是黑箱一样,这还需要进一步的研究。
参考文献:
Beach B, Ferrie J P, Saavedra M H. Fetal shock or selection? The 1918 influenza pandemic and human capital development[R]. National Bureau of Economic Research, 2018.
Almond D. Is the 1918 influenza pandemic over? Long-term effects of in utero influenza exposure in the post-1940 US population[J]. Journal of political Economy, 2006, 114(4): 672-712.
Brown R, Thomas D. On the long term effects of the 1918 US influenza pandemic[J]. Unpublished Manuscript, 2011.
*文章来源:NSD高级计量经济学
*侵权必删








学说观点

学术前沿速递

AIGC交流社区

未央网

毕宣

王凯
- 1
- 2
- 3