结果无法复制说明论文质量差?其实这些论文的引用量更高!
当前,社会科学研究中面临着严重的“可重复性危机”,其主要表现为很多已发表论文中的实验结果不能重复,或者论文对实验结果进行了选择性发表。
来自美国加利福尼亚大学圣地亚哥分校Marta Serra-Garcia和Uri Gneezy于2021年5月在《Science Advances》发表论文“Nonreplicable publications are cited more than replicable ones”,研究发现,在心理学、经济学顶级期刊和《科学》、《自然》上发表的论文中,结果不可重复的论文比可重复的论文获得了更多的引用次数。
值得注意的是,这种引用次数上的差异在无法重复的结论发表之后仍然没有发生改变。这些不可重复论文的引文中只有12%指出了原始论文结果是不能复制的。
现有证据表明,专家们能很好地预测哪些论文的结果能够重复,哪些论文的结果不能重复。那么,为什么不能重复的论文一开始就被接受发表呢?一个可能的答案是,审稿小组面临一个权衡。当结果看起来更“有趣”时,他们评审时对可重复性降低了要求。
实验的可重复性是科学研究中最基本、最核心的要素,倘若实验不能被重复,那么所有的成果和结论显然无法立足。研究结果的不可重复,不仅严重损害社会信任,而且会给后续的研究人员带来极大的时间和经济损失。
在社会科学领域有三个比较有影响的可重复性研究,研究结果发表于《科学》、《自然》等顶级刊物,分别如下:
➢ Open Science Collaboration(2015),在心理学领域,只有39%的实验在复制研究中可以重复显著的结果,而原始实验中有97%发现了显著的结果。
➢ Camerer等(2016),在经济学领域,18项研究中有61%的结果是可复制的。
➢ Camerer等(2018),在《自然》、《科学》杂志上发表论文中,21项研究中有62%是可以复制的。而且,重复实验后得出结果的效应大小仅为原始结果的75%。
地质学家John Claerbout将可重复研究定义为“其他科学家复制论文 ”的可能性。
Hamermesh (2007) 建议区分两个概念:纯复制(pure replication)和科学复制 (scientific replication)。
➢ 纯复制是指几乎完全复制手头研究的能力,主要用于验证。
➢ 科学复制是指在其他数据库上重复使用现有的研究材料,并将其视为稳健性测试或拓展原始研究工作。
简单来说,对于许多研究项目来说,如果该项目的作者为所有其他研究人员提供了用以完全重现论文结果的所有资料 (数据和程序),则该项目被认为是可重复的。
文章利用这三项重复性研究中的研究结果,将论文的可重复性与引用次数关联起来,并检验在重复性研究项目发表之前和之后,不可重复的论文是否比可重复的论文被引用的次数显著增加。
他们收集了两类指标:
第一,可重复性度量和专家预测结果,三个研究中的这两个指标都是公开的。
第二,自文章发表之日起至2019年底的谷歌引文。
另外,作者还收集了一些关于这些引文质量的指标:引文本身被引用的频率、引文是否发表、以及这些引文所发表期刊的影响因子。
引用次数是用来评估已发表作品学术影响力的基本指标,同时也用于研究知识历史和评估跨学科的科学工作质量。
例如,在晋升决策中,大多数学术机构在决定是否晋升一名教职人员时,都将论文引用次数作为一项重要指标。
引用是一篇论文影响力的代表,在其他条件相同的情况下,研究人员希望自己的论文能够获得更多的引用。同时,通过引用次数来衡量学术影响力也可能存在一些误差,因为影响论文是否被引用的因素是很多的。
文章首先考察了引用次数和可重复性之间的相关性。
其次,研究了可重复性与衡量影响其他指标之间的关系,例如发表引文的期刊影响因子。
最后,由于引用有可能是“负面的”,如引文提到了原始结果是不能重复的,作者考虑了这种可能性,将重复性研究发表后的引文类型分为阴性、阳性和中性进行了讨论。
可重复性与引用次数
图1显示了《自然》与《科学》、经济学期刊和心理学期刊上的三个重复性研究项目中涉及的论文自发布日期起至2019年底的总引文数量分布。
可重复性论文的判断标准是:在双边检验中,重复实验结果的P值低于0.05,且影响方向与原始结果相同。从图1结果发现,结果不能重复论文的被引用次数多于那些结果可重复的论文。
➤ 图1. 总引文数量的分布和可复制性
第一,如图2第(1)列所示,结果可重复的论文被引用的平均次数比不可重复的论文少153次。而且,与经济学和心理学顶级期刊上发表的论文相比,在《自然》和《科学》杂志上发表的论文中,不可重复论文的引用次数和可重复论文的引用次数差距最大。
第二,重复实验中的效应系数与原始研究中效应系数的比值反映了重复性的相对效应大小。根据图2第(2)列的结果,相对效应大小从0(无法重复)到1(原始研究的完全重复),论文的平均引用次数减少了85次。
第三,图2第(3)列显示,专家们预测重复可能性较小的研究比预测可重复的研究获得了更多的引用次数。这说明,专家能够预测哪些研究的结果可以重复。
➤ 图2. 总引文数量和可重复性的不同度量
第四,随着时间的推移,上述结果是持久的。如图3所示,可重复的论文与不可重复的论文之间的年均引用次数存在明显的差距。平均而言,不可重复的论文每年获得引用的次数要多出16次。
值得注意的是,2016年《自然》和《科学》的5年影响因子分别为44和38,两种顶级经济学期刊的影响因子在6到10之间,三种顶级心理学期刊影响因子在3到6之间。如果以这些期刊的5年影响因子为基准,每年多被引用16次的这一差异是很大的。
➤ 图3. 按可复制性列出的年度引用计数
不可重复论文的引用论文的影响
将重复性研究项目中涉及的每一篇论文的引用论文简称为“引用论文”。这三项重复性研究中,不可重复和可重复论文的“引用论文”对该领域有不同的影响吗?
为了衡量“引用论文”的影响,作者考虑了三个指标:
➢ “引用论文”的被引用次数
➢ “引用论文”本身是否发表在JCR数据库中的期刊上
➢ “引用论文”所发表期刊的影响因子如何
图4显示了“引用论文”本身的引用次数分布。平均而言,不可重复论文的“引用论文”被引用了25.6次,可重复论文的“引用论文”被引用了23.7次,这种差异并不显著。
➤ 图4. “引用论文”获得引用的次数
“引用论文”的质量也可通过发表期刊影响因子来反映。为了检验不可重复论文和可重复论文的“引用论文”质量是否不同,作者检验了不可重复论文的引用论文是否更有可能在具有JCR影响因子的期刊上发表。
一般而言,引用高质量文献的论文更有可能在JCR数据库内的期刊上发表,并且具有更高的平均影响因子。
图5显示,结果可重复论文的“引用论文”更有可能发表在JCR数据库中的期刊上,平均高出6.1个百分点。
这种差异对于《自然》、《科学》和心理学期刊上可重复论文的“引用论文”复制的论文来说尤为明显。
但是,在“引用论文”发表的基础上,可重复论文的“引用论文”并没有发表在影响因子更高的期刊上。总的来说,不可重复论文的“引用论文”和可重复论文的“引用论文”之间的影响是相似的。
负面引文不能解释引文数量差距的持续性
结果不可重复论文被引用的一个驱动因素可能是,在这三项重复性实验的研究结果发表之后某个时间撰写的论文。
作者分析了重复性研究项目发表后不可重复论文的引用情况。结果发现,在重复性项目发表后,只有12%的“引用论文”说明了原始论文的结果不能重复。
在不可重复的8篇《自然》、《科学》论文中,2019年有15%的“引用论文”说明了原始结果重复失败。在不可重复的经济学论文中,9%的新“引用论文”说明了原始结果重复失败(2017年为2%,2018年为14%,2019年为9%)。
在不可重复的心理学论文中,12%的“引用论文”说明了原始结果重复失败(2016年为10%,2017年为8%,2018年为21%,2019年为7%)。
因此,可重复和不可重复论文之间的引用次数差距并不是由指出原始结果重复失败的新引用论文造成的。
结 论
为什么不可重复的论文被引用的次数更多?
作者认为,论文评审小组可能面临权衡。尽管他们预期一些论文的结果不如其他结果可靠,但在某些情况下,他们愿意接受这种预期可靠性较低的结果。
值得注意的是,当论文的结果看起来更有趣时,评审小组可能会对其可重复性采取较低的标准。
了解这种权衡是很重要的,因为这可以解释社会科学可重复性危机的原因,并且有助于制定政策,降低不可重复论文被接收发表的可能性。
例如,如果由于编辑在有趣和可靠的结果之间进行了权衡,那么减少此类事件发生的一种方法就是增加发表有问题结果的成本,即在稿件中公布编辑的姓名。
点击“阅读原文”查看更多。
三个重复性研究项目:
[1] Open Science Collaboration, Estimating the reproducibility of psychological science. Science 349, aa4716 (2015).
[2] C. F. Camerer, A. Dreber, E. Forsell, T.-H. Ho, J. Huber, M. Johannesson, M. Kirchler, J. Almenberg, A. Altmejd, T. Chan, E. Heikensten, F. Holzmeister, T. Imai, S. Isaksson, G. Nave, T. Pfeiffer, M. Razen, H. Wu, Evaluating replicability of laboratory experiments in economics. Science 351, 1433–1436 (2016).
[3] C. F. Camerer, A. Dreber, F. Holzmeister, T.-H. Ho, J. Huber, M. Johannesson, M. Kirchler, G. Nave, B. A. Nosek, T. Pfeiffer, A. Altmejd, N. Buttrick, T. Chan, Y. Chen, E. Forsell, A. Gampa, E. Heikensten, L. Hummer, T. Imai, S. Isaksson, D. Manfredi, J. Rose, E.-J. Wagenmakers, H. Wu, Evaluating replicability of social science experiments published in Nature and Science between 2010 and 2015. Nat. Human Behav. 2, 637–644 (2018).
学术前沿速递
学说观点
AIGC交流社区
未央网
毕宣
王凯
- 1
- 2
- 3