RFS｜实证公司金融研究中的数据操纵（p-hacking）-学说文章

RFS｜实证公司金融研究中的数据操纵（p-hacking）

41浏览

2022/03/04 03:29发布

经典论文回顾

邀您一起回顾经典论文——RFS｜实证公司金融研究中的数据操纵（p-hacking）

编译｜西元编辑｜Via

在公司金融领域，有很多实证方法供以选择，例如是否对解释变量取对数，是否缩尾，采用连续变量还是离散变量等等。

不同的方法会导致不同的研究结果（体现在回归系数的大小和统计显著性上），那么研究人员应该如何进行选择呢？

一般情况下，采用何种方法需要以“理论”为指导。然而，当“理论”不能或并未明确规定使用哪一种方法时，研究人员可以从以往文献普遍应用的方法中进行选择。

来自杨百翰大学（BYU）的教授Todd Mitton于2021年3月在金融学顶级期刊《The Review of Financial Studies》上发表论文“Methodological Variation in Empirical Corporate Finance”。文章回顾了顶级金融期刊上公司金融领域诸多的实证方法。针对方法上的多样性可能带来的p值操纵问题，文章展开详细讨论并提出一些应对措施供以参考。

Todd Mitton

杨百翰大学（BYU）教授

研究背景

研究过程中，有统计意义的结果通常具有发表优势，这体现在两个方面：研究人员和出版商。

第一个方面，研究人员更希望得到统计上显著的结果，并宣称自己的“重大发现”——这种做法被Harvey（2017）称为“p-hacking”。

P-hacking 最早由美国宾夕法尼亚大学的Simmons和他的团队提出来的：

P-hacking refers to the practice of reanalyzing data in many different ways to yield a target result. They, and more recently Motulsky, have described the variations on P-hacking, and the hazards, notably the likelihood of false positives—findings that statistics suggest are meaningful when they are no.

P-hacking 指统计分析数据时采用不同的方法直到P<0.05，很容易引起假阳性结果。最近的许多论文都提醒人们注意资产定价文献中p-hacking的可能性。本文关注的是公司金融文献，这些问题还有待探索。

第二个方面，出版商可能会对统计上显著的结果，即具有“重大发现”的论文存在偏好。多篇文献都记录并讨论了金融期刊如何倾向于发表有统计意义的结果。当出版商有偏见时，统计上显著的结果更可能被公布。当文章的读者不知道在研究过程中由于发表偏见而被丢弃的其他研究成果时，他们对结果的重要性或稳健性的认识可能会有偏差。

通过回顾公司金融领域中各种实证方法的使用，本文对方法多样化与p值操纵之间的关系展开讨论，主要解释三个问题：

1）实证设定的多样化体现在哪里？

2）这种多样化对统计显著性有何影响？

3）应该如何避免实证设定对p值的操控问题？

本文研究发现，公司金融文献在实证设定上存在很大差异，但对于大多数设定方式，文献中没有达成共识的趋势。统计显著性通常可以通过在不同维度上变更方法来产生，即所谓的“调结果”。

对于这个问题，研究人员应该全面而不过度地采用稳健性检查，并花更多的时间理解为什么结果在某些维度上不成立。同时，可以使用规范检查作为一种更全面、更系统的方法来评估结果的稳健性。此外，研究人员应该更多地关注结果的经济意义，而不仅仅是统计意义。

实证方法上的多样性

通过对2000年至2018年间Top3金融期刊（Journal of Finance, Journal of Financial Economics和Review of Financial Studies）上604篇文章、954个回归进行调查，本文发现，被解释变量是最常见的公司财务指标：盈利能力、公司价值、杠杆率、投资、支出或现金持有。

这六类回归在2000年到2018年期间大幅增加，数量从8个增加到89个，即使按照期刊发表论文总数进行调整，这些回归出现的概率也增加了7倍多。作者以这六类回归作为调查样本，发现公司金融文献在实证方法上存在很大差异，关键来源为：

1）被解释变量的选择缺乏共识。例如，在以盈利能力（profitability）为被解释变量的回归中，共有61种盈利能力指标。最常用的被解释变量是EBITDA/总资产，但只在14%的回归中使用，列出的其他9个被解释变量也仅用于2%-10%的回归。此外，同类被解释变量之间的相关性通常不是很高，这表明被解释变量的选择通常会对回归结果产生很大影响。

2）控制变量的选择。例如，在以公司价值（value）为被解释变量的回归中，企业规模（firm size）是唯一一致使用的控制变量，出现的概率为84%。其他一些控制变量出现的概率大约有50%甚至更少。总的来说，在任何一类回归中，控制变量的使用几乎没有一致性。

3）其他。本文发现，对于大多数实证设定，文献中没有达成共识的趋势。例如，研究人员有时会在样本中排除金融行业，有时纳入在内；有时会保留异常值，有时会剔除异常值。此外，文献对滞后变量、连续/离散变量等方面也没有一致的看法。

本文进一步调查了这些论文选择某一特定方式的原因，发现绝大多数文章都没有给出理由。例如，当选择被解释变量时，仅有10%的论文陈述了具体原因，13%说是遵循了之前的文献，78%没有提供任何原因。

方法多样性与统计显著性的关系

第二部分研究了不同设定方式的选择会如何影响回归系数的显著性。检验过程是：

1）按照一定规则生成解释变量

2）使用“最常规的方法（most common method）”作为基准方法进行六类回归，观察解释变量的t统计量，基准方法如下表第1列

3）改变基准方法中的一项，其他不变，重复回归并记录t统计量的变化

4）通过重复（1）-（3），估计不同改变对统计显著性的平均影响。在理论上， t-统计量的预期变化可能高达1.13（下表第1行：破坏性基准）或低至0.00（下表第16行：无害基准）

第一组检验中，解释变量是1000个随机生成的正态分布解释变量。上表报告了包含行业固定效应的结果，行中的数字表示变更方法后t统计量的绝对值变化。

例如，第3列第2行的数字表明，在以盈利能力（profitability）为被解释变量的回归中，平均而言，从“缩尾”改变到“保留异常值”时，t统计量的绝对值变化为1.11。

第9列报告了所有六类回归的平均值，代表每项变更后的影响程度，按其排序后可以发现对t统计量影响最大的是“是否将异常值进行筛选”，异常值处理的影响几乎与破坏性基准一样大，除了以现金持有（cash）为被解释变量的回归（第8列）。

本文还分别使用其他方式生成解释变量重复这些检验，发现t统计量的变化都大于第一组检验。

此外，本文评估了方法变更的累积影响。同样，对每类回归生成1000个随机变量，然后报告在不同的阶段（0-10）显著性结果的百分比。下表报告了六类回归的模拟结果。表中None意味着0阶段，即使用基准方法；Second most common dependent variable意味着1阶段，即替换被解释变量，使用第二常见的代理变量。Add next common control variable意味着2阶段，即增加第二常见的控制变量。

例如，在以盈利能力（profitability）为被解释变量的回归中，当仅使用基准方法（0阶段）时，分别有8%、4%、1%的可能性在10%、5%、1%水平下显著；当允许使用一种替代方法——替换被解释变量（1阶段），显著的可能性几乎翻倍；当允许更多改变（10阶段）时，累积影响已经允许在10%的水平上100%显著。

其他类的回归结果相似。

这些结果意味着，显著性可以通过变化方法来实现，至少有很大可能得到1颗星。以上表为例，这些变化可以来自：

1）寻找更多被解释变量的代理变量

2）替换或增减控制变量

3）剔除部分行业，如金融业

4）（被）解释变量用对数值

5）解释变量从连续型转成离散型

6）解释变量使用滞后值

7）缩尾、截尾或保留异常值

8）从1%缩尾改变成5%缩尾

9）比例型被解释变量换分子或分母

补救措施

针对实证设定的多样性可能带来的p-hacking问题，本文从三个方面提出了补救措施：

稳健性检验

稳健性检验指使用其他设定方式重新检查（这里具体指上面提到的10个阶段），如果显著，则说明结果具有一定的稳健性。下图显示，当稳健性检验数量适度（3-5个）时，仍有很大可能得到显著结果。但随着数量增加，可能性迅速降低，最终趋向于零（低于10%/5%/1%的基线）。

稳健性检验不足之处是，它可能会出现Harvey（2019）警告的“反向p-hacking”问题。而且稳健性检验也不能完全解决选择性报告问题。一方面，目前文献中报告的p值呈现双峰分布，在0.10-0.25之间的相对较少，刚好低于0.05却很多；另一方面，即使被要求检验，文章也只会报告那些可以增强稳健性的检验结果。

规范检查

规范检查由Brodeur、Cook和Heyes（2020b）提出，指对所有可能的设定方式进行回归，以图形形式报告获得的结果分布。例如，以杠杆（leverage）作为被解释变量的回归中，图A中t统计量均为正值，只有约1%低于1.96的临界值，说明股票流动性不足是杠杆率的一个非常稳健的决定因素；分析师分歧通常被认为与杠杆率正相关，尽管图B中有相当大比例的t统计量（超过30%）低于1.96，但仍有很多t统计量从1.96到超过30，因此分析师分歧也相对稳健；失业保险慷慨度通常被认为与杠杆率正相关，但是t统计量呈双峰分布，具有正显著性的可能与具有负显著性的大致相同，因此这个因素值得商榷。

规范检查的一个优点是，它以图形方式显示了多个方法变更对统计显著性的影响，而稳健性检验只报告一个更改的结果。规范检查的一个缺点是，测试集由研究人员自行决定，可能只会包括支持原结果的设定。总体来说，与稳健性检验相比，规范检查是评估结果有效性的更系统、更全面的方法。

经济意义

一个重要补救方法是减少对统计意义的强调，而更多地强调经济意义。经济意义是更相关的衡量标准：我们不仅想知道一种效应在统计学上是有效，而且想知道它对现实世界的影响有多大。此外，Mitton（2021）表明，具有经济意义的指标比具有统计意义的指标更不受方法变化的影响。

其他补救措施其他建议

1）研究人员应该透明地报告研究过程中进行的所有检验，而不仅仅是那些支持原结果的检验；

2）研究人员应该在查看数据之前概述研究框架（包括选择该方法的原因）；

3）研究人员应公开用于生成结果的数据（如果可能）和代码；

4）研究人员应努力尝试多种检验。

结论

统计显著性不足以证明实证结果是重要的，而且统计显著性通常可以通过在不同维度上改变实证设定来产生。

本文的分析指出了几种应对p-hacking的补救措施：包括稳健性检查，规范检查和关注经济意义。研究人员应该认识到，很少有研究结果在所有维度上都是可靠的，我们花更多的时间理解为什么结果在某些维度上是脆弱的，而不是简单地捍卫结果的可靠性。

经典论文回顾

文章131

总浏览量10267

学术前沿速递

文章

300

学说观点

文章

300

AIGC交流社区

学说官方

文章

240

未央网

文章

233

毕宣

中央财经大学

文章

185

王凯

T. Rowe Price

文章

181

经济学入门必读书籍有哪些值得推荐？

楚健

1185

浏览

绿色信贷能否提高商业银行的核心竞争力？基于中国的准自然实验

创新研究

878

浏览

最新综述！AIGC到底是什么？都有哪些应用？一文尽览！

AIGC交流社区

765

浏览

研究方法 | 文献资料分析方法大全！收藏

周舟

762

浏览

数电票的26个问题，税局统一回复！

张俊熙

758

浏览

如果经济学家连股都不炒，那他们都在干什么呢?

李博

682

浏览

“特斯拉”打败了“星巴克”

张子瑞

669

浏览

研究方法：文献资料分析方法

周舟

659

浏览

银行纷纷入局数字藏品赛道，什么信号？

李杨杨

629

浏览

会议预告｜清华五道口绿色金融讲座第一期，邀您探讨“碳达峰碳中和——中国发展转型的机遇和挑战”

学术会议动态

3320

浏览