摘要:
统计显著通常由p值或t值衡量,反映估计结果在统计意义上是否由抽样误差引起; 经济显著通常由估计系数的大小衡量,反映估计结果对科学研究、个人决策或政策制定的重要性。二者共同决定一项研究的价值。理论上,统计显著不一定经济显著,统计不显著也可能经济显著;但实际研究中,经济学家往往重统计显著而轻经济显著。Deirdre McCloskey和Steve Ziliak两位学者自20世纪80年代至今不断发表相关文章,试图揭示和纠正经济学家在这一方法论上的重大错误。本文以此两位学者的研究为基础,系统讨论了三个问题:
(1)统计显著和经济显著的定义以及二者的区别和联系。
(2)经济学家误用统计显著和经济显著的情况有多严重。
(3)是否存在一些方法可以让经济学家更关注经济显著。
引言
假如你身患癌症,医生告诉你有一种新药能治你的病,药效在99%置信区间上统计显著,你会用这种药吗?想必你不会轻易做出决定,你可能要追问医生,这种药究竟能多大程度治疗你的癌症,只能短暂延续生命还是根治?这种药有什么副作用?药价多少?只有综合考虑这些问题之后,你才会选择是否用药以及用多少药。
病人不仅关心药是否有用,更重视有多大作用。经济政策制定者同样如此,例如他们不仅想知道提高最低工资是否导致失业,更想弄清楚有多少人、哪些人会失业。再如,他们还想知道最低工资带来的福利增加是否超过失业者的福利损失。对于这些问题,经济学家很少能给出准确答案,因为他们大多数时候止步于检验最低工资对失业的影响是否在统计上显著。与病人和政策制定者不一样,部分学术工作者们似乎只在意统计上是否显著,而不管实际效果有多大。不仅仅经济学如此,凡使用统计学工具的领域,包括医药学、物理学、农学、地质学等自然学科,管理学、社会学、政治学、历史学、心理学、教育学等社会学科,或多或少都存在这一问题。
仅重视统计显著而忽视经济显著的代价是巨大的。在循证医学(evidence-based medicine)领域,研究人员寻找统计显著结果的激励可能导致很多人的生命健康受到威胁。在日常生活中,我们经常听到一些健康贴士,比如某种食物能减少某种疾病发生的风险,某种行为能控制体重,等等。这些贴士的相当一部分来自学术研究,而相当一部分研究的立论基础是实验组和控制组在统计上存在显著差别。很多人将这些贴士奉若良方,但并不知道统计上显著的差别只表明统计意义上的,而在临床上可能非常小。经济学中类似的贴士不会比医学中少,宏观经济学中已经出现过数以百计的影响经济增长的变量,包括资本、劳动、制度、文化、宗教等,劳动经济学中也已出现过很多影响收入的变量,包括性别、教育、家庭、年龄等。同样,相当一部分研究也只根据统计上是否显著来判断一个变量是否影响经济增长或收入。经济学研究结果可能不会像医学一样给社会带来直接损失,但其间接影响不容忽视。如果经济学家能搞清楚哪一个变量的实际重要程度更大,就可以提供更有针对性的政策建议。如果更重视实际重要性,经济学家就能更早地在经济增长这一问题上达成共识,转向另一个研究问题,而不是没完没了地进行回归。
混淆统计显著与经济显著并非新现象,White(1967)、Mayer(1980)很早就对此有过讨论,但让这个问题引起广泛注意的是经济史学家Deirdre McCloskey (原名Donald McCloskey)。McCloskey在其所发表的《经济学的修辞学》 (McCloskey, 1983)名篇中,批评“显著”一词的误用在经济学研究中非常普遍。此后,McCloskey与其合作者Steve Ziliak (以下简称M-Z)陆续发表了一系列相关文章(McCloskey, 1985等),包括对发表在《美国经济评论》(American Economic Review)中文章的实证调查。2008年,M-Z出版了专著《统计显著性崇拜》(Ziliak & McCloskey, 2008a),继续批评经济学家对经济显著的忽视。《科学》(Science)、《自然》(Nature)、《美国数学协会通告》 (Notices of the American Mathematical Society)等知名期刊先后对这本书发表相关书评。M-Z的研究得到了一些学者的认同,但也受到争议。2004年,《社会经济学》 (Journal of Socio-Economics) 。第33卷第5期为统计显著和经济显著问题开辟了专题讨论,M-Z和E.Leamer、J.Wooldridge等著名学者都参与了讨论。2008年前后,M-Z与T.Mayer、A.Spanos、K.Hoover、M.Siegler等学者展开了一系列针锋相对的辩论 (Hoover & Siegler, 2008等)。
本文的主要目的是回顾M-Z及其支持者和批评者关于统计显著和经济显著的主要观点,并在此基础上提出一些具备可操作性的建议,以提高研究人员对经济显著的重视程度。要强调的是,由于统计显著和经济显著与许多其他争议性问题联系紧密,稍有不慎我们就可能偏离主题。例如,对统计显著的讨论可能很容易转向对整套假设检验方法或计量经济学方法论的质疑,对经济显著的讨论则很容易转向对“黑板经济学”的批判。鉴于此,我们将力求始终紧扣统计显著和经济显著两个关键词。
统计显著和经济显著的区别
在如今的经济学经验研究论文中,“显著”(significant)一词极其常见。常见的表述包括:“两个变量的均值差异是显著的”“……变量的估计系数是显著的”“……变量的估计系数在1%水平上显著区别于0”。这些“显著”大多仅表示统计意义上的显著,而非经济显著。本部分首先说明统计显著和经济显著的含义,然后分析二者的区别。
(一)统计显著的含义
要搞清楚统计显著的含义,先要了解假设检验。假设检验和参数估计是统计分析的两个主要步骤,后者是利用样本信息估计总体特征,前者是检验估计结果能否真实反映总体情况,或者估计结果在多大的概率上不由抽样误差造成。一般认为,现代意义上的假设检验的雏形最早由Ronald Fisher在其《研究工作者的统计方法》(1925)一文中提出。Fisher为了搞清楚庄稼产量的差异是由人为因素(例如施肥)还是随机差异造成的,先假设施肥不会影响庄稼产量,也就是所谓的“原假设”或“零假设”,然后计算施肥没有效果的条件下被施肥庄稼的产量等于观测产量的概率。他进一步提出,只要这一概率小于0.05,就可以拒绝原假设,认为施肥对庄稼产量有影响。Fisher的方法遭到Neyman & Pearson (1928)的猛烈批评,后者提出Neyman-Pearson假设检验。后来的学者为了调和二者矛盾,将两种方法整合为原假设显著性检验(NHST),NHST成为学术界的主流检验方法(参见Christensen, 2005)。
在NHST框架下,如果某个研究结果(例如根据样本计算的均值或回归方程中某个自变量的估计系数)在原假设成立的情况下发生概率极低,就认为该结果异于原假设是统计显著的。用统计学术语来说,定义显著性水平α为:原假设为真而拒绝原假设的概率,通常事先设定为10%、5%或1%;定义p值为:原假设为真时能得到样本观察(估计)结果或更极端结果的概率。如果p<α,就认为研究结果是统计显著的(Gujarati, 2009)。
(二)被忽略的经济显著
一项研究结果在统计上显著只能说明该结果不太可能因为统计误差因素偶然得到,但统计显著的研究并不一定具有实际价值,实际价值也就是经济学家所说的经济显著。不同学科对经济显著有不同的称呼,除了经济显著,常见的其他说法包括临床显著、科学显著、实际显著、政策显著等。
经济显著并没有明确的定义。从字面意思来说,经济显著程度就是回归分析中估计系数的大小。例如,教育经历每增加1年导致收入增加多少,男性相对女性平均收入高多少,外商直接投资比例每增加1%企业生产率提高多少。统计上是否显著有固定的临界值作为判断依据,但经济上是否显著则无标准可依,要具体研究问题具体分析。一些研究结果的经济显著程度非常直观,例如 “男女年平均工资差额为1元人民币”这一结果说明男女之间并不存在明显的收入差异;一些研究结果的经济显著程度则不容易直接判断,例如对于“市场竞争指数提高1%导致生产率提高1%”这一发现,就很难说市场竞争究竟是否对生产率的提高有明显的作用。
经济学家对经济显著的忽视表现在以下几个方面:(1)统计显著而经济不显著往往比统计不显著而经济显著的研究结果更容易发表(Sterling, 1959等)。(2)一篇论文往往用大量的篇幅来说明统计显著,但对经济重要程度一笔带过。(3)在建立实证模型时,统计显著的变量通常比经济显著的变量更容易被选择,例如逐步回归方法仍然在很多领域被应用 (Ziliak & McCloskey, 2008a)。(4)一个统计不显著的变量,即便出现在模型或论文中,也很少被进一步讨论。
之所以经济显著被忽视,有两个可能原因:(1)统计显著可以通过NHST这一标准的流程来判断,而经济显著往往要依具体研究问题具体讨论。(2)论文发表和职业晋升逐渐成为学术研究的主要动力,解决实际经济问题退居其次,以至于经济学家热衷于寻找变量之间的统计显著关系,漠视解决现实问题(Gill, 1999)。
(三)统计显著不一定经济显著
统计显著不是经济显著的充分条件。首先,统计显著可能只反映相关关系,而非因果关系。就经济意义而言,因果比相关更重要。例如,一项公开发表的研究发现人均巧克力消费越多的国家获得诺贝尔奖的概率越大(Messerli et al, 2012)。暂且不说吃巧克力能在多大程度上提高获诺贝尔奖的概率,仅从因果关系来看,这项研究在经济上就是不显著的。经济学家非常清楚相关与因果的区别,并且在因果关系识别上投入了巨大精力,这无须本文赘述。本文要重点讨论的是,即便是稳健地反映因果关系的统计显著,在经济上也不一定显著。原因如下:
1. 统计显著的系数实际上可能很小。例如,如果一项研究发现,受教育年数每增加1年全年总收入增加10元人民币,在经济上这一研究结果显然是不重要的,因为理性人不会为了增加10元人民币选择再接受1年教育。
问题是估计系数10元人民币离0如此近,这项研究还能通过统计显著检验吗?答案是能。
理论上,在NHST框架下几乎任何原假设都可能被拒绝(Cohen, 1990; Goldberger, 1991)。
以最常用的t检验为例,根据,由于随着样本规模的增大而减小,当样本规模足够大时,se(β)足够小,此时β与之间的细微差异都可能导致|t|非常大,从而原假设被拒绝。
也就是说,在原假设下,只要估计得到的不绝对等于0,“认为x对y没有影响”的假设都会被拒绝。
随着数据规模逐渐变大,t值给出的信息正在逐渐微弱。
2. 即便变量的估计系数统计显著且很大,在实际应用中也可能没有意义。Goldberger (1991)给出了这样一个例子:
假设因变量是体重,自变量是身高和锻炼,假设身高的估计系数更大,并且两个变量的标准误相同,对于一个想减肥的人来说,医生显然不能依此建议他“你不是太重,只是不够高”。
虽然身高和锻炼的估计系数一样大,但后者的可控制性更强。
假设因变量是经济增长,自变量是各国的制度、地理位置及其他控制变量,如果控制其他变量后,地理位置比制度的估计系数更大且标准误相同。
我们显然不能根据这一研究结果建议地理位置不好的国家搬到更好的地方。
3. 从全局均衡的角度来看,经济显著性还取决于成本和收益。在经济增长的例子中,仍然假设因变量是经济增长,但关键自变量换成教育、制度及其他控制变量,如果控制其他变量后,教育和制度的估计系数相同,且标准误相同,那是否可以认为教育和制度的经济显著程度相同呢?在政策建议层面是不一定的,如果政府面临预算约束,那么在选择将有限资金投入到教育还是制度建设中时,政府还要考虑哪一种投入的成本更低。
在这个例子中,改善教育和制度可能不会有其他负面影响。
但在另一些情境下,还要同时考虑变量的负面影响。
例如,反倾销一方面可以保护本国企业,另一方面会使消费者受损。
要搞清楚反倾销的作用是否在经济上显著,必须从全局均衡角度进行成本—收益分析。
同样的道理,统计不显著但可能经济显著。得到一个统计不显著的结果,除了因为原假设确实为真,即自变量对因变量确实没有影响,还可能因为模型设定错误、变量度量误差、检验功效不够等。假设检验只能判断得到某一个估计结果是否由抽样误差造成,对其他因素几乎没有鉴别能力。一个训练有素的经济学家一般不会忽略模型设定和度量误差,但对检验功效的重视明显不够。Leamer(2004)指出,“有意义的假设检验必须考虑到显著性水平是样本规模的减函数”。言下之意,我们必须注意到检验功效与样本规模有关,对于一项样本规模较小的研究,如果仍用传统的5%或10%显著水平来判断统计显著,显然是不合适的。
如果一项研究控制了模型设定、变量误差、样本规模等问题之后,估计结果仍然统计不显著,是否可能经济显著呢?M-Z举了一个实例:Matrixx案件。Matrixx是美国一家制药公司,生产一种名为 Zicam 的感冒药,潜在副作用是药物中的锌化合物成分可能导致患者永久失去嗅觉。Matrixx坚持认为,副作用在统计上不显著,因此并未对外界披露这一重大事实,导致公司股价大跌。
2004年,投资者以Matrixx违反联邦证券法隐瞒重要事件为由,在亚利桑那州地方法院对Matrixx提起集体诉讼,地区法院驳回上诉,理由是副作用在统计上不显著,确实不构成重大事件。经过多年诉讼,最高法院于2011年以9:0的投票结果认定Matrixx隐瞒了重大事件,理由是虽然副作用在统计上不显著,但对患者造成的损失巨大。言下之意,如果潜在经济损失非常严重,就不应该再以统计显著为主要标准来下结论(Ziliak & McCloskey, 2016)。
M-Z还设计了另一个极端的思想实验:假设一个人用非常微弱的声音在喊“Help,help”(救命),假设在1%的显著性水平上我们无法拒绝原假设“这个人在喊‘Kelp,kelp’(海带)”,那么,难道我们应该放弃救援这个人吗(McCloskey, 2002)。M-Z旨在用这两个例子说明,统计显著并不是决定研究重要性的唯一标准。在一些情况下,考虑到潜在收益和成本时,统计不显著也可能经济显著。
那么,在实际研究中,究竟应该更重视统计显著还是经济显著呢?M-Z显然认为后者更重要。其理由是,统计显著至多只能回答“是否存在”这一问题,而“是否存在”属哲学问题,经济学家要解决的是“影响究竟有多大”这一科学问题。M-Z给出了一个思想实验来说明经济显著的重要性:假设你是一个统计学家,你的母亲希望你帮她找一种减肥药。经研究,你找到两种价格和副作用都相同的药,一种叫“强大”(Oomph),一种叫“准确”(precision)。“强大”能让母亲减20磅,但效果不稳定,误差为±10磅;“准确”能减5磅,但效果稳定,误差只有±0.5磅。按照假设检验的思路,可以设定原假设为“减肥药没有任何效果”,然后计算出“强大”的“t值”为(20-0)/10=2;“准确”的t值为(5-0)/0.5=10。作为一个统计学家,由于“准确”的t值更大,因此你建议母亲选择“准确”,而不是“强大”。很明显,你的建议是错误的,因为“强大”的效果是10-30磅,而“准确”的效果只有4.5~5.5磅,后者的最大效果还不如前者的最小效果。在这个例子中,常识告诉我们应该选择“强大”,但只注意显著性检验的学者建议我们选择“准确”(Ziliak & McCloskey, 2008a)。
Wooldridge(2004) 举了一个反例:为了估计上大学对收入的影响,第一个研究人员随机抽取10个大学毕业生,得到的估计结果是上大学使收入增加30%,但t值是1;第二个研究人员随机抽取5000个大学毕业生,得到的估计结果是12%,t值是20。以经济显著性来看,第一个研究的估计系数显然更大,那我们应该以其估计结果作为政策制定依据吗?显然不应该,因为第二个研究的估计结果在统计上明显更可靠。这一案例说明,在对同一个问题的多次重复研究中,如果已经确定经济效果显著,那么统计显著应该是研究人员需要更重视的问题。
事实上,M-Z的主张和其他学者的观点并不存在冲突,统计显著和经济显著的相对重要性取决于具体研究的问题。
Thorbecke(2004)指出,每一项研究都可能得到如下4种结果:统计不显著经济不显著;统计不显著经济显著;统计显著经济不显著;统计显著经济显著。
统计不显著经济不显著和统计显著经济显著是两种没有争议的结果,前者说明x对y确实没有影响,后者说明x对y确实有重要影响。对于其他两种结果,需要依研究问题而定。例如,在一些简约模型(通常指没有理论基础的计量模型)回归中,x可能以正反两种机制来影响y,由于正反影响相互抵消,x对y的净影响可能相对较小(经济不显著),但只要能搞清楚两种机制,也能提出针对性的建议。
为了搞清楚误用统计显著和经济显著在经济学领域是否普遍,McCloskey & Ziliak (1996)进行了一些调查。他们首先研究了20世纪的主要计量经济学教材,包括《计量经济学基础》、《计量经济学方法》、《计量经济学导论》、《计量经济学课本》等,发现这些教材对经济显著的关注少之又少。接着,他们统计了经济学顶级期刊《美国经济评论》的实证论文,发现经济学家对统计显著和经济显著的误用情况非常严重。
McCloskey & Ziliak (1996) 围绕统计显著和经济显著设计了19个标准(见表1),包括:文章报告了解释变量的单位和描述统计结果、在科学共识下讨论了估计系数的大小等。他们认为,满足这些标准的文章规范使用了统计显著和经济显著。他们调查了20世纪80年代发表在《美国经济评论》的182篇文章,主要发现包括:
(1)70%没有区分统计显著和经济显著(问题18)。
(2)53%第一次使用统计显著时,只关注了t值或F值的大小,根本没有考虑统计显著之外的其他指标(问题7)。
(3)80%表面上讨论了系数的大小,但72%的文章并未讲清楚究竟有多大。这些文章没有与其他学者的估计结果比较,也没有考虑其他学者是如何说明经济显著性的(问题12和问题13)。
(4)59%模糊地使用了显著,有时用来表示统计显著,有时用来表示经济显著(问题19)。
(5)68%没有报告描述统计结果(如关键变量的均值和方差等),以供读者来评判研究结果的经济显著程度(问题2)。
(6)32%公开承认按照统计显著程度来选择解释变量(问题14)。
(7)仅4%讨论了检验功效(问题8)。
也许是因为这篇文章的研究结果未被足够重视,Ziliak & McCloskey (2004)用相同的方法统计了20世纪90年代发表在《美国经济评论》的137篇文章,发现问题并未改善,在某些方面甚至恶化。虽然更多的文章更小心地解释估计系数、报告描述统计结果、在科学共识下讨论估计系数的大小、注意检验的功效、在结论部分将统计显著与经济显著区别对待,但“符号计量经济学”和“星星计量经济学”的趋势更严重了。20世纪80年代有53%的文章只强调符号而不关心系数大小,90年代这一比例上升到81%。80年代25%的文章按统计显著性来排列解释变量,90年代这一比例上升到67%。
表1 McCloskey 和 Ziliak对《美国经济评论》1980-1999年文章的调查结果:
数据来源:McCloskey & Ziliak (1996)表1,Ziliak & McCloskey (2004)表1。
注:20世纪80年代共有182篇文章,20世纪90年代共有137篇文章。以80年代“是的比例”从小到大排列。
在对80年代论文的调查中,McCloskey & Ziliak (1996)没有公开作者姓名,但Ziliak & McCloskey (2004) 直接将90年代的所有文章分为很好、好、一般、差、很差5个等级,并公开每篇文章所属等级。在全部137篇文章中,近58%被归入“差”或“很差”组别(只满足8个或不到8个标准),其中甚至包括P.Krugman、G.Becker、B.Bernanke、D.Card、A.B.Krueger、J.Frankel、D.Romer等著名经济学家的文章。例如,Card & Krueger (1994)这篇文章就被归入“差”组别。该文以美国新泽西州提高最低工资这一自然实验为例,通过新泽西州和宾夕法尼亚州的快餐业在最低工资提高前后的就业和工资数据,使用倍差法评估了最低工资的就业效应。该文一直被视为劳动经济学和微观计量经济学的经典之作。M-Z批评他们本应检验“新泽西的就业变化与宾夕法尼亚的就业变化是否存在显著差异”,但实际上检验的是“新泽西的就业发生显著变化”和“宾夕法尼亚的就业发生显著变化”,也就是他们错误地设定了原假设。
M-Z关于经济显著未被足够重视的观点赢得了广泛支持,但他们对《美国经济评论》的调查遭到一些质疑和批评:(1)M-Z的19条标准过于严格。例如,标准2要求作者报告解释变量的单位,Mayer (2012)认为,只要报告了关键变量都是可接受的,某些单位很明显的变量无须再报告。(2)M-Z的标准不够客观,例如,标准16中的“终止”、标准4中的“恰当”、标准5中的“小心”,都是非常主观的词语(Hoover & Siegler, 2008b)。(3)M-Z的标准存在重复。例如标准7、15、18,要求作者在文章的不同地方区别对待统计显著和经济显著。为什么作者一定要在不同地方反复强调统计显著和经济显著的差异呢?许多作者在第一次报告基本估计结果时并不急于讨论经济显著程度,而是在完成各种稳健性检验以确保估计结果足够可信之后才开始讨论估计系数的大小(Hoover & Siegler, 2008b)。(4)M-Z的标准不具有普适性。例如,标准17要求作者进行模拟分析以确保估计结果是否合理,但Wooldridge (2004) 指出,很多模拟并不具有可操作性,很难要求一项关于相貌对收入影响的研究找到可行的模拟方法来进一步分析相貌之于收入的经济重要程度。
大多数质疑者主张,不能因为某篇文章违反了其中某一条或某几条标准,就断章取义地认为这篇文章没有规范使用统计显著和经济显著,更可取的方法是联系上下文从整体上来判断一篇文章是否足够规范。例如,Wooldridge(2004) 指出,如果单独把一篇文章的某些句子摘出来看,很容易认为它们不符合M-Z标准,但通读全文就会发现这篇文章并未混淆统计显著和经济显著。O’Brien (2004)认为,另一个可取的标准是看“如果一篇文章没有区别统计显著和经济显著,其关键结论是否受到影响”。例如,Card & Krueger(1994)的论证虽然在某些细节上不够规范,但其关键结论并不因此受到影响。O’brien (2004)研究了1992-1996年发表在《经济史期刊》和《经济史研究》上的118篇文章,发现其中23篇(19%)没有规范使用显著性检验,但只有8篇(7%)的主要结论因此受到影响。
Kr-mer (2011) 对《德国经济评论》自2000年创刊以来的110篇文章进行了统计,发现56%的文章混淆了统计显著和经济显著,28%的文章忽视了那些经济显著但统计不显著的估计结果。与《美国经济评论》相比,《德国经济评论》看起来表现得更好。Mayer (2012)也使用了相同标准选取了50篇文章,其中,35篇来自M-Z的样本,15篇是2010年的新文章,研究发现没有1篇文章本应讨论经济显著但将其完全忽略,仅4篇文章需要增加对经济显著的说明,也没有1篇文章的关键结论因为作者混淆了统计显著和经济显著而错误。Hoover & Siegler (2008b) 同样使用这一标准,重新分析了M-Z“很差”组别的5篇文章,发现这些文章的结论并未因违背M-Z标准而出现错误。
根据本文作者的搜索,经济学领域很少有学者继续采用M-Z的方法或类似的方法来调查其他经济学期刊的情况,但他们的方法被非经济学学科的一些学者用来调查其他领域的情况。例如,Bushway et al(2006)借鉴M-Z的方法对《犯罪学》(Criminology)、《司法季刊》(Justice Quarterly)等犯罪学和司法正义学领域顶级期刊的82篇实证文章进行了统计,研究发现,只有31%提到了统计功效,不到10%说明了估计系数大小划分的标准,只有30%清楚区分了统计显著和经济显著。Fidler et al (2006)对《保护生态学》和《生态保护》(Biological Conservation)的调查发现,在那些使用NHST的文献中,不到8%报告了检验功效,63%将统计不显著解读为零效应。Bernardi et al (2017)考察了《欧洲社会学评论》的356篇文章,发现近一半的文章将统计不显著等同于零效应,仅1/3的文章估计了结果的实际重要性,并且2010-2014年比2000-2004年的情况更糟。
对这些质疑,M-Z的主要回应包括:(1)这19条标准并非最严格的标准,他们本可以增加一些标准,例如,“文章报告了置信区间,并使用它们来阐释经济显著性,而不只把它们当作统计显著的另一种呈现方式”“文章没有犯条件概率倒置的错误”。他们推测,这些被调查的文章中,报告置信区间的文章数量不会超过5%,犯条件概率倒置错误的文章比例则接近100%。(2)他们没有讨论期刊是否选择性发表了统计显著的结果,也没有检查作者在研究对象为总体时是否仍然用抽样理论。(3)他们调查的是公认顶级期刊《美国经济评论》,其他期刊大概率不会表现更好(Ziliak & McCloskey,2008a)。
那么,M-Z与其质疑者究竟孰对孰错?笔者认为,M-Z在为其观点寻找证据时,的确过于苛刻,如果以论文是否符合这19条标准来看,很多经济学文章都会被划入不规范组,但这并不意味着经济学家对统计显著和经济显著的使用不存在问题。M-Z与其批评者的争论不在于问题是否存在,而是问题究竟有多严重。即便是顶级期刊《美国经济评论》发表的文章也不能说完全规范地使用了统计显著和经济显著,要搞清楚经济学领域的平均状况,还要对其他期刊进行更全面的调查。除了在期刊发表的论文,更能揭示真相的也许是那些未能发表的工作论文,被研究人员丢进垃圾桶的初步结果以及研究人员得到估计结果时的第一反应。如果问题严重到需要做出一些改进,那么经济学家如何做得更好?
如何改进当前的行业规则呢?在M-Z看来,最直接的解决方法是弃用计量经济学工具,因为他们认为,不考虑经济显著的NHST是空洞和危险的游戏,采用计量经济学工具的研究对经济科学没有太大的贡献,20世纪以来那些重大的改变人们认知的经济学发现与计量经济学关系不大。当然,这是极端的方法,更理性的解决之道是提高经济显著在现有实证分析范式中的重要程度。Ziliak & McCloskey (2008a)为此提出了两点建议:(1)以教育促进观念的改变,包括老师对学生的教育、审稿人对作者的教育、研究人员之间的教育。(2)呼吁期刊和科研机构做出改变。他们提出了“关于实际重要性问题的声明”(SpSS),并呼吁编辑、杰出科研人员、管理人员和学术界其他人共同签署,并将其刊登在经济学期刊中。
这份声明的主要内容为:(1)抽样误差很有趣,但经济显著才是经济科学的主要问题。(2)与Fisher报告p值或标准误的方法相比,Neyman的置信区间、Rothman的p值函数、Zellner的随机先验概率、Rossi的实际I型错误、Leamer的极值边界分析方法、Gosset的实际误差条更好。期刊、政府和科学机构不应该统一规定最低I型错误概率。(3)研究人员不能只是模糊地、空洞地讨论备择假设,而应该注意检验功效。如果检验功效过低(例如中等规模样本功效低于65%,大样本功效低于85%),就应该明确说明。(4)需要提出明确的竞争性假设。(5)应该严格区分假设检验和Fisher的显著性检验,前者的目的是检验原假设相对于备择假设更可能发生的概率,后者是先假定原假设正确,然后看数据在多大程度上符合原假设,也就是要避免条件概率倒置错误。(6)研究人员应该估计,而不是“检验估计”(testimate),Jeffreys’s d、Wald 的损失函数、Savage的可容许性、 Wald 和 Savage 的最小最大、Neyman-Pearson的决策、Gosset 的净经济收益应该重回统计学的中心。(7)拟合不是判断科学发现正确与否的最优方法,研究人员应该全面考虑衡量误差和重要性的其他指标。
M-Z的7条声明对于改变学术界轻经济显著重统计显著的现状很有价值,但其中一些声明要求现有计量研究范式做出较大调整,实施难度过大,如声明(4)、(5)、(6)。更现实的做法是在保留现有范式的前提下进行微调,例如用置信区间替代标准误、停止固定临界显著水平、发表统计不显著的研究、考虑损失函数、鼓励复制研究和元分析等。接下来,本文结合现有研究,进一步讨论这些方法的有效性和可行性。
呈现估计结果统计显著性的常用方法包括标准误、t值、p值和置信区间,大多经济学期刊使用前三种。一些学者认为,与其他三种方法相比,置信区间能更好地反映经济显著程度(Ziliak & McCloskey, 2008a)。这主要是因为:(1)置信区间包含了其他三种统计量所能传递的信息,置信区间的长短可反映估计精度,同一置信水平的置信区间越长,估计精度越低。一个1-α的置信区间不包含0,说明估计结果在α水平上显著(Gill, 1999)。(2)置信区间与其他三种统计量带来的心理效应有本质区别,置信区间能让作者和读者更关注真实效应。假设估计的p值等于0.06,通常会认为效应为0;但如果转化为置信区间,作者和读者在看到置信区间上限后,可能不再非常肯定效应为0(Fidler, 2005;Mayer, 2012)。(3)由于某些估计结果会被用于进一步研究(如元分析)或政策模拟分析(如国际贸易中的替代弹性),若作者仅报告标准误、t值或p值,其他研究者可能只使用点估计结果;如果作者报告了置信区间,其他研究者至少会使用置信区间进行稳健分析(Mayer, 2012)。(4)时间有限或统计知识有限的读者通常不愿意进行转换。(5)标准误、t值或p值会激励作者进行数据挖掘,以便使估计结果在统计上显著,但置信区间可能不会(Mayer, 2012)。然而,也有部分学者认为报告置信区间与报告其他三个统计量没有本质区别,因为给定四个中的任意一个都可以推算其他三个(Hoover & Siegler, 2008b;Spanos, 2008)。
其他领域的部分期刊已经在这个问题上进行了一些尝试。例如,《美国公共卫生杂志》从1984年开始鼓励作者减少使用p值,《流行病学》(Epidemiology)在1990年创刊时公开声明:“如果作者放弃显著性检验,其文章被接受的可能性更大。”美国心理学会(APA)1994年的出版手册开始建议作者不要停留在统计显著检验,2001年的出版手册进一步明确指出“置信区间是最好的报告方式”,公开声明取得了一定效果。Fidler et al(2004) 对《美国公共卫生杂志》1982-2000年发表的594篇文章和《流行病学》1990-2000年期间发表的110篇文章进行了统计,发现《美国公共卫生杂志》只使用p值的文章从63%降低到5%,报告置信区间的文章从10%增加到54%,而《流行病学》86%的文章报告了置信区间。然而,变化只流于表面,因为仅极少数作者在讨论估计结果时关注了置信区间。Fidler et al(2004) 认为,“编辑可以强制作者使用置信区间,但不能让他们思考为什么用置信区间”。Cumming et al(2007) 对心理学主要期刊的调查同样发现,使用置信区间的文章在增加,但真正以置信区间为准进一步说明实际重要程度的文章还非常少。
在经济学领域,几乎没有期刊强制作者报告置信区间,但少数规定使用标准误而非t值或p值。例如,《计量经济学报》(Econometrica)要求作者报告标准误而非t值或p值。《女权经济学》(Feminist Economics)禁止作者用t值或p值作为标准误的替代,以方便读者计算置信区间。该杂志还明确规定,作者必须讨论经济显著程度。
与使用置信区间相似的一个改进方向是停止固定临界显著水平。统一临界值能减少作者与编辑、审稿人和读者之间的交流成本,提高科研效率,但也造成假设检验机械化、经济显著被忽视。(1)这导致恰好显著的估计结果比恰好不显著的估计结果更容易被期刊接受,例如p=0.051和p=0.049本质上没有太大区别,但前者被认定为统计不显著,后者被认定为统计显著。(2)面对统一临界值,研究人员可能会通过调整模型设定、改变样本等方法搜寻统计显著的结果,使得恰好不显著变成恰好显著。(3)统一临界值的目的是让犯第Ⅰ类错误的概率尽可能小,在样本规模够大检验功效够强时,这样做问题不大;但在样本规模较小检验功效不够强时,就有必要同时考虑犯第Ⅱ类错误的概率。
Brodeur et al(2016)对2005-2011年间发表在《美国经济评论》、《政治经济学期刊》(Journal of Political Economy)和《经济学季刊》(Quarterly Journal of Economics)中的5万多个统计检验结果的分析发现,这些统计检验的p值呈现明显的双峰驼状分布,即p值很大时检验结果出现第一个驼峰,随着p值逐渐减小检验结果数量逐渐减少,在p=0.25附近检验结果数量减少至谷底,此后又开始增加,直至p=0.05时出现第二个驼峰。作者认为,这很可能是因为作者在搜寻边际显著的结果,而不是因为期刊更偏好统计显著。Baker (2016)对1576位研究人员进行了在线调查,其中60%认为选择性发表和发表压力是造成文章不可复制的原因。2016年,美国统计学联合会(ASA)就p值有关问题发布了一项声明,强调“用统计显著(一般是p≤0.05)作为科学发现依据这一普遍现象严重扭曲了科学研究过程”。
也有部分学者认为,问题不在于是否应该固定临界值,而是采用哪一个临界值。2018年,来自医学、经济学、心理学等不同学科的72位作者在《自然人类行为》上发表了一篇名为《重新定义显著性》的文章,建议将临界p值从传统的0.05降低到0.005:若p值在0.005到0.05之间,只能用“启示性”(suggestive);若p值小于0.005,才能用“显著”。这一倡议有助于减少“假阳性”研究结果,但实际上进一步降低了经济显著的重要性。Amrhein & Greenland(2018)也指出,采纳这一建议可能使选择性报告结果和p值操控问题加剧。
导致经济学家更重视统计显著的一个原因是大多数学术期刊更愿意发表统计显著的文章。如果期刊能够调整发表偏好,增加统计不显著结果的发表数量,经济学家可能会更关注经济显著。
自然科学对发表偏误问题的反应比社会科学更迅速。2002年,生物学领域推出了一本专门发表不成功实验或负面结果(在一定程度上可以理解为统计显著)的期刊:《生物医学负面结果期刊》。此后,陆续有其他类似期刊创刊,包括《负面结果期刊》《药学负面结果期刊》《错误学期刊》《全结果期刊》《植物科学新负面结果》《BMC研究重点》《偶然和出乎意料的结果期刊》等。
在社会科学领域,类似期刊相对较少。心理学科在2002年创建了《支持原假设期刊》。经济学至今还没有类似的期刊,但2015年健康经济学领域的8本领军期刊联合发布了关于负面研究结果的主编声明,强调“那些旨在解决健康经济领域有趣和重大问题的、设计和执行良好的、数据和方法创新的、符合期刊主题和理念的实证研究,无论是否显著拒绝原假设,都具有潜在的科学价值和发表价值”。Brodeur et al (2017) 以其中的《健康经济学期刊》和《健康经济学》(Health Economics)为例,研究了这一声明的实际效果,发现声明之后拒绝原假设的检验在所有假设中的比例有所下降。另外,《发展经济学期刊》于2018年开始试行“结果前评审”计划,也就是研究在得到任何实证结果之前即参与评审。具体而言,作者在第一阶段向编辑部提交一份包括引言、方法和数据分析计划的研究提案,如果通过外审,编辑部就承诺发表这些研究。在第二阶段,作者收集和分析数据,提交实证结果和全文,待外审确认实证研究符合初始研究提案即可发表。这种评审方式一方面使得统计不显著的研究结果也能得到发表,另一方面使得经济重要程度在第一阶段的审稿中成为主要考量指标之一。
M-Z认为NHST范式的最大缺陷在于,依循这套范式得到的研究结果只给出原假设成立或不成立的概率,并不能明确地告诉政策制定者如何决策。要提出明确的决策建议,就必须充分考虑潜在的收益和损失。在Matrixx案件中,对患者来说,使用Zicam的潜在收益是治愈感冒,潜在损失是失去嗅觉,即便治愈感冒的概率远高于失去嗅觉的概率,理性的患者也不会使用Zicam,因为失去嗅觉的损失太大。在“Help”案例中,施援求助者的潜在收益是一条生命,潜在损失是救助费用,即便求助者喊“Help”的概率极低,最终决策仍然是施援。在M-Z看来,不进行成本-收益分析的统计检验是不科学、不道德的。
Hoover & Siegler (2008b) 批评M-Z的建议欠缺可行性。首先,经济学家与政策制定者不一样,前者的任务是实证分析(positive analysis),也就是回答是什么及为什么;后者的任务是规范分析(normative analysis),也就是回答怎么做。二者各自发挥比较优势,经济学家善于分析,专注解释事实,政策制定者了解现实问题,可以结合其损失函数和经济学家的研究结果选择政策工具。其次,一项经济学研究成果可能有很多不同应用,研究者不可能结合每一种应用设定损失函数,并给出具体决策。最后,一些研究只是满足了研究者的求知欲和好奇心,而并没有明确的应用价值。在这种情况下,研究者可能无法进行损失分析。
对此,Mayer (2012)的观点是,如果进行收益-成本分析是考虑到政策制定者不清楚成本函数,那么解决方法应是教育政策制定者,而不是由经济学家越俎代庖。另一个需要解决的困难是如何在全局均衡中计算收益和成本。与理论研究不一样,相当一部分实证研究都是局部均衡分析。例如,虽然我们知道FDI促进经济增长,同时可能导致环境污染和收入不平等,但我们在一篇论文中通常只研究其中一个变量。在评价FDI对经济增长影响重要程度时,我们是否需要同时权衡FDI带来的环境污染和收入不平等?如果需要,我们应该怎样统一收益和损失的度量单位呢?
另一个值得考虑的方法是鼓励复制研究和元分析。狭义复制是用完全相同的数据和模型甚至相同的软件来查验原研究结果,广义复制是用任意其他数据和方法来验证原文的主要观点(吴小康, 2014)。自然科学领域向来强调实验结果的可复制性,但经济学相对更看重创新,即论文在问题、方法和结论上与其他研究的差别。创新导向的发表体制激励研究者用更多的精力“搜寻”差异化的研究,而非复制已有研究。如果学术界肯定复制研究的贡献,研究者可能不再只关心两个变量之间的关系是否统计显著,也会增加对研究结果实际重要程度的关注。
元分析是一种量化的文献研究方法。与复制研究不一样,元分析不需要原始数据。在实证研究中,通常会有不同的学者采用不同的数据或方法来研究同一个问题,元分析主要是通过对这些研究结果进行二次统计分析,来搞清楚真实效应以及影响估计结果差异的主要因素,例如样本、模型、变量测度等。此外,元分析还能通过对比已发表论文和工作论文的研究结果来检测是否存在发表偏误。应该说,元分析是一种比较适合寻找真实效应进而搞清楚经济重要程度的工具,但其缺陷也很明显:首先,由于经济学领域不太鼓励重复研究,可用于元分析的数据通常有限;其次,元分析所依赖的假设比较严格,例如它要求不同研究是独立的,并且使用相似的变量测度方法,但这些假设通常不太容易满足,尤其是在社会科学领域(Gill, 1999)。与医学等学科相比,经济学领域的元分析明显少得多。
本文以M-Z的研究为基础,系统讨论了三个问题。(1)统计显著和经济显著的定义,以及二者的区别和联系。M-Z及其批评者在这一问题上没有本质冲突。他们都认为,统计显著和经济显著是两回事;其一,统计显著不一定经济显著;其二,统计不显著仍然可能经济显著;其三,忽视经济显著可能会让实证研究脱离经济现实问题,沦为无聊的回归游戏。(2)经济学家是否过度重视统计显著,忽略经济显著。在这个问题上,M-Z通过调查《美国经济评论》上发表的文章断定,忽略经济显著在经济学领域非常普遍。但其批评者认为M-Z衡量经济学家是否规范使用经济显著的标准过于严苛,如果通读全文而非断章取义就会发现,大多数文章并未忽略经济显著或者因忽略而使文章结论发生本质改变。(3)如何提高研究者对经济显著的重视程度。本文详细讨论了目前一些方法的可行性,包括用置信区间取代标准误,停止固定临界显著水平,减少发表偏误,考虑损失函数、鼓励开展复制研究和元分析等。这些方法可能有一定作用,但各自都存在缺陷。例如,置信区间只是改变研究结果的呈现方式,可能并不会让研究者关注经济显著。
总而言之,在McCloskey和Ziliak等学者的努力下,经济显著已经得到越来越多的重视,但与统计显著相比,其在实证研究中的地位仍相对次要。要彻底改变这一现状难度不小,主要是因为NHST范式为评估统计显著提供了一套标准化的易操作的流程,但经济显著的衡量既主观又难以操作。本文没有对中文期刊进行系统调查(这是接下来的研究重点),因此,不确定中文文章与英文文章相比使用显著的规范性如何,但可以推测中文文章的情况不会比《美国经济评论》上的文章更好。因此,McCloskey和Ziliak等学者的研究同样给中国学者和中文期刊敲响了警钟:首先,实证研究不能唯统计显著论,不能搞符号计量经济学,也不能搞星号计量经济学;其次,在当前的论文发表和职业晋升体系下,不能靠研究者的自觉性来纠正当前重统计显著而轻经济显著的研究风气。最后,经济学期刊有责任督促研究者提高对经济显著的关注,增加对研究结果实际重要性的说明。