RFS | 公司金融研究中的实证方法差异
本文发现在金融学顶刊发表的公司金融研究中,回归的实证方法存在巨大差异。虽然允许根据不同的理论设定合适的实证方法,但设定选择也可能导致高报具有统计意义的结果。例如,在10个常见实证选择中,研究者可以对随机生成的变量,报出70%都在5%的水平下显著。对统计显著性影响最大的实证选择是因变量选择、变量转换和异常值处理。本文讨论了可以减轻因方法不同而导致负面影响的补救措施。
(一)作者和出版物对显著性结果的追求
在实证公司金融中,作者会常规性地对影响结果大小和统计意义的许多方法进行选择。理想情况是以理论为指导来选择方法;但当理论不要求使用一种特定方法,通常须从文献广泛使用和接受的多种方法中选择。当作者对方法有自由裁量权时,发表的论文可能是从多种方法中选出的,有统计意义的结果。作者和出版物两个环节都可能导致对统计显著性结果的选择性。
首先,作者会选择使结果有统计意义的方法——也称“P值操纵”(p-hacking)。Harvey (2017)在美国金融学年会的主席发言中概述了金融经济学文献中p-hacking带来的挑战。近期许多研究讨论了资产定价研究中的p-hacking问题,主要是横截面收益异常以及结果如何受复制、样本外检验或多重假设检验的影响。本文主要关注公司金融领域的文献,该领域的这个问题鲜见研究。
其次,出版物偏向于选择有统计意义的结果发表。即使作者没有p-hacking,出版物这种偏向也会导致偏差。例如不同的作者独立研究同一个问题,但使用方法不同,由于出版物偏向,只有产生显著结果的那种方法能够发表,而用其他方法的不能见刊。事实上,作者甚至不会提交统计结果不显著的文章,因为不太可能发表或引用——被称为“文件抽屉问题”(file drawer problem, (Rosenthal, 1979))。当读者不知道在研究中因p-hacking或出版偏见而被丢弃的替代发现时,研究结果的重要性和稳健性可能会被高度扭曲。
(二)实证方法的差异
本文评估了方法选择对公司金融研究的影响。首先,考察文献中采用和接受的方法有多大程度的不同。样本为2000-2018年的三大金融学顶刊文章,因变量选公司金融研究中最常用的:盈利能力、公司价值、杠杆、投资、支付、现金持有,604篇文章中共有954个回归(一篇文章中同一类别的所有回归视为一次回归)。同期三大刊中的回归类别大幅增加,从2000年的8类回归增加到2018年的89类回归。本文研究这些回归中的常见方法选择:样本选择、变量转换和模型设定。
1.因变量选择差异
本文发现,实证公司金融研究中的方法差异很大。方法差异的一个关键来源是因变量选择缺乏标准。例如,作者们用了61个代表盈利能力的指标作为因变量,其中包括26种方法来定义总资产收益率(ROA)。其他类别的回归也有类似情况,其中杠杆的回归因变量最多(96个),现金的回归最少(9个)。此外,备择的因变量之间的相关性通常不是很高——10个最常见类别中,每个类别内相关性中位数为0.33——这表明因变量的选择通常会对回归结果产生很大影响。
2.控制变量选择差异
方法差异的另一个来源是控制变量选择。例如,在价值的回归中(例如,以托宾q作为因变量),公司规模是唯一一致使用的控制变量,出现在样本中84%的价值回归中。即便如此,公司规模的度量也差异很大,有用资产的、有用销售额的还有用其他来度量的。一些控制变量——投资、杠杆和盈利能力——出现大约一半,其他控制变量偶尔出现。总的来说,在任何类别的回归中,控制变量的使用几乎都没有一致性。
3.其他选择差异
方法选择的其他不一致性。例如,有一半的回归包括所有行业,另一半剔除了某些行业(例如金融业)。样本内,保留异常值的频率与进行Winsorize处理的频率差不多,且处理异常值时使用了各种截断值。此外,滞后变量、将连续变量转为虚拟变量、记录变量和行业定义上都有差异。有些方法的选择,例如异常值处理,随着时间的推移,似乎在方法上达成了共识;但对于大多数方法的选择,文献中没有达成共识的趋势。
综上所述,作者在进行实证检验时有多种方法可供选择。一方面,这种方法上的变化可能有好处,能根据理论来选择合适的实证方法。例如,Compustat等数据库的丰富性使学者能够探索公司财务和运营绩效的复杂细节,因此方法上的变化可能是完全合适的。另一方面,若学者在选择方法时没有以理论为指导——如果方法是随机选择的(甚至是策略性的)——那么方法上的变化就会导致结果的p-hacking和发表偏差。为了了解方法在多大程度上受理论的指导,考察604篇样本文章是怎么选择方法的。研究发现,作者经常不解释关键选择。例如,仅在22%的情况下解释了因变量的选择,仅在6%的情况下解释了异常值处理方法,19%的情况下解释了为什么将连续变量转换为虚拟变量。尽管作者有些选择可能考虑了理论动机,但现有证据表明,大多数方法选择都是在没有理论指导下做出的。
(三)方法的差异对统计显著性的影响
接下来,考察方法差异如何影响盈利能力、公司价值、杠杆、投资、支出或现金持有量的假设中决定因素系数的统计显著性。首先,用最常用的方法对假设决定因素中的上述一个结果变量进行回归。然后,改变某一个方法的二元选择——同时其他最常用方法保持不变——并重复回归。对14个不同的方法选择执行此操作,并观察假设中决定因素的 t 统计量随着方法变化的情况。通过对大量假设的决定因素重复这个过程,可以估计出方法选择对解释变量的统计显著性的平均影响。
1.用随机生成的解释变量测试t统计量变化
在第一组测试中,“假设的”决定因素是纯随机正态分布变量。对于每个回归类别,随机生成1,000个解释变量,并测试每种方法选择对每个变量的t统计量的影响。本文报告了对于每种方法选择,1,000个变量的t统计量的平均变化。需要注意的是,t统计量的平均变化取决于每种方法变化对回归基础数据的破坏性程度。本文表明,理论上,使用随机生成的解释变量,t统计量的预期变化可以高达1.13(对于破坏性改变)或低至0.00(对于无害改变)。例如,若原解释变量被一个全新的随机生成的变量替换(而不是一般的方法变化),则t统计量预计平均变化约1.13。相比之下,对于非常小的变化,例如将解释变量四舍五入到小数点后二位,预计t统计量平均变化约0.00。在本文测试中,实际的方法选择在这个范围内有不同的影响。例如,异常值处理是一个非常具有破坏性的选择。在盈利能力回归中,对异常值进行修正或保留的决定将t统计量平均改变了1.11,这意味着异常值处理对回归的破坏性几乎与生成一个全新的解释变量一样。因变量选择也非常具有破坏性;在盈利能力回归中,将因变量从最常见的ROA度量改为也是最常见的净资产收益率(ROE)度量,会使t统计量平均改变0.93。对于行业尺度,使用两位数的SIC行业虚拟变量或Fama-French行业虚拟变量的选择对t统计量的影响很小,在盈利能力回归中平均为0.10。使用其他类型的随机生成变量——对数正态分布变量、虚拟变量和双重差分变量——重复这些测试,结果类似。
2.用数据库生成的解释变量测试t 统计量变化
本文还使用准随机的“假设的”决定因素重复这些测试。用实际的Compustat数据创建解释变量,但从随机选择的Compustat数据项中创建比率变量。在这些测试中,t统计量的预期变化上限不再是1.13,因为Compustat数据项之间存在潜在相关性,测试表明t统计量的变化远大于用纯随机的解释变量。例如,在盈利能力回归中,对异常值进行缩尾处理会使t统计量平均改变12.86,将因变量从ROA改为ROE,会使t统计量平均改变12.31。
3.用文献实际的解释变量测试t统计量变化
此外,还使用文献中的实际假设决定因素重复这些测试,关注因变量为杠杆的情形。从以前的研究中汇编了一组杠杆的决定因素,共65个,观察方法选择如何影响这些解释变量的统计意义。发现对t统计量的影响程度介于纯随机解释变量和准随机Compustat变量的影响之间。例如,对异常值进行微调会使t统计量平均改变3.74,将因变量从账面杠杆改为市场杠杆,会使t统计量平均改变3.91。
4.方法选择对统计显著性水平的影响
接下来,考察方法变化可以在多大程度上促成具有统计意义的结果。若作者对方法的选择有自由裁量权,那么一个作者(或一组独立研究同一问题的学者)可否证明解释变量是一个统计上显著的决定因素呢?本文首先表明,仅使用最常见的方法,纯随机解释变量的显著性仅与随机机会预期的一样多:大约10%的情况在10%的显著性水平,5%的情况在5%水平,1%的情况在1%水平。然后,逐渐允许方法的自由裁量。允许使用一个二元选择——用最常见的因变量或第二常见的因变量——可在这两种方法中选择,在这种自由度下,报告的随机生成变量的统计显著性在15%的情况下在10%的显著性水平,7%的情况下在5%的显著性水平,2%的情况下在1%的显著性水平(在所有类别的回归中)。随着允许更多的方法自由裁量权,这些百分比逐渐增加。当有10个二元选择裁量权时,至少有一种方法组合可以让94%的随机生成变量在10%水平上显著,73%的在5%水平上显著,23%的在1%水平上显著。
假设很容易显著,说明统计显著性对方法选择很敏感,而并不说明假设是可信的。防止报告虚假结果的保障措施包括:稳健性检验、期刊编辑审查过程以及论文发表后受到挑战的可能。此外,可以用多种方法检验单个假设来增加结果的可信度。尽管如此,鉴于10个二元选择只是研究者可用方法的一小部分,这些结果表明,在判断任何单一结果的统计意义时,需要非常谨慎。
(四)对因方法选择而高报结果的补救措施
最后,本文讨论了因方法变化而导致的过度报告统计显著性的补救措施。稳健性检验是最常用的防御措施,本文展示了其在多大程度上限制了虚假显著结果的报告。本文关于哪些方法选择最有影响的发现,为作者和审稿人在评估稳健性时应将注意力集中在何处提供了指导。本文还讨论了稳健性检验的可能缺点。如果不加选择地应用可能会导致假阴性结果。此外,稳健性检验的实践往往未能认识到稳健性通常是一个程度问题。为了说明这一点,本文用512种最常见的方法组合测试了65个文献中的杠杆决定因素。发现65个决定因素中,只有1个在所有512个设定中具有统计显著性(在10%水平或更高)。平均而言,每个决定因素在43%的设定中都显著。这些发现表明,学者应该较少关注捍卫结果的稳健性,而应更多地关注为什么结果在某些设定中是稳健的,而在其他设定中则不然。
传统稳健性检验的替代方法是,同时报告各种方法的结果,这种方法有时被称为“设定检验”(specification checks)。相对于稳健性检验,设定检验具有一定的优势:更加系统化、同时展示多个维度方法改变的效果、并且简洁地传达了大量信息(通常以图形形式)。为了展示这些优势,本文提供了资本结构文献中的例子,以图形方式展示了不同决定因素的不同稳健性模式。
另一个建议是,研究人员应少关注统计意义,多关注结果的经济意义。除了能更好地表明实证结果的重要性,经济意义还不太容易受到设定的置疑。本文还讨论了其他几种补救措施。总之,这些补救措施可以减轻方法选择的负面影响。
随着实证公司金融研究的大量涌现,必须确定哪些发现是真正重要的。本文的结果表明:
●统计显著性不足以证明实证结果正确。在不同维度上改变实证方法可以产生具有统计意义的系数。
●因此,尽管方法的多样性使研究者能够灵活地定制实证检验以紧密匹配被测试的理论,但也可能导致P值操纵和发表偏见。P值操纵有多严重尚不确定,但发表偏见有据可查,仅此一项就足以使方法的灵活性为统计推断带来问题。
本文的分析指出了几种减轻方法变化负面影响的补救措施。遵循这些建议,可以避免因方法变化而产生的错误推论:
●应采用稳健性检验,在彻底但不过度应用之间取得平衡。应该认识到,很少有结果在所有维度上都是稳健的,应花更多的时间来理解为什么结果在某些维度上不显著,而不是简单地捍卫结果的稳健性。
●应该使用设定检验作为评估结果稳健性的更全面和系统的方法。
●此外,应该更多地关注结果的经济意义,而不是统计意义。
原文:
Mitton, Todd, 2022, Methodological Variation in Empirical Corporate Finance, The Review of Financial Studies 35(2), 527-575.
*文章来源:金融学前沿论文速递
*侵权必删
学术前沿速递
学说观点
AIGC交流社区
未央网
毕宣
王凯
- 1
- 2
- 3