签到
EN

怎样改进你的数据呈现方式

14浏览
2022/04/22 17:38发布
苗浩然
中南财经政法大学
学生
这篇文章来看下统计、数据、变量——怎样改进你的数据呈现方式

管理学研究的企业组织从家庭作坊到跨国公司规模大相径庭,研究的层面从个体到团队到组织到行业层次也多种多样,而且这些组织处在各种迥异的背景之下,学者们又尝试用各种各样的理论从不同的角度去观察分析这些现象——但!是!为什么学者们呈现研究数据的方式却是如此单一?报告的指标就是那几个,图表也就那几张,为什么多样的研究对象最终却只有单调的研究呈现方式?应该怎么改进?

 

管理学期刊上发表的研究可分为许多领域,源于许多理论,但在一个方面,所有研究都相似:根据所谓的专业惯例呈现数据。实证研究结果的表述在理论、研究领域和研究者背景之间达成了广泛的共识,且该共识由博士阶段的培训和学者通过阅读期刊文章学习表达惯例等因素塑造而成。通过研究其他不同学科论文,最容易发现该共识,并从而得出两个结论。首先,这些领域与管理学领域不同;其次,他们中的许多人在表述论据方面比管理学领域具有更大的内部多样性。特别是,管理学之外的实证文章除了显示模型估计外,还使用更多图形来展示数据,并且使用多种制图技术。

 

管理学研究中呈现论据方法的同质性一直是一个困扰学术界的问题。组织和管理理论研究涵盖了广泛的理论和实证背景,人们可以为每篇论文精心定制论据呈现的方法以适应理论和实证背景。鉴于不同的理论需要不同的论据支持,而且提供的证据具有不同的背景,这种“量身定制”形的研究方法应该导致证据呈现的多样性,。我们可以设想一个矩阵,该矩阵的行表示主要理论预测,列表示实证背景。这个矩阵将是巨大的,并且可能包含证据呈现的实质性变化。相比之下,大多数组织和管理学论文都采用熟悉的公式来进行实证论证,特别是如果它们是检验假设的定量研究。虽然此类研究使用多种分析技术来估计回归模型,但它们通常展示描述性的统计数据,带有模型的表格(两到三个),以及两个以内的估计效果图。

图片
图表12016年管理学会期刊(AMJ)和组织科学(OS)上图表分布
标注:每个圆圈大小与该类别当中的文献数量成正比,而+和x符号则表示该类别中存在一篇或是多篇散点图或描述性数据图 。 
考虑到我们现在处于“大数据”的时代,研究人员在数据生成过程中应用了更多形式的模型,而这些模型具有不同的生成数据流程的假设。这些类型的模型似乎需要更多地呈现用于生成和预处理数据的方法。在其他领域,分析权重的变化考虑了这些来源的本性和数据的实质(例如,Grimmer & Stewart, 2013)。确实,科学中的图形技术和如何应用它们的优秀指南有了长远的进步(例如,Tufte, 2001)。这一进步的存在是有原因的:数据的展示推进了科学,因为可以忽略重要但微弱的发现,可以分析未解释的变异,并且可以让论文的所有读者,而不仅仅是作者,从数据集中生成新的想法。管理学领域错失了这些机会,因此成为一门更加静态的科学。
对管理学中最近的期刊文章的研究说明了证据呈现的同质性。两本备受瞩目的期刊是管理学会期刊(AMJ)和组织科学(OS),2016年它们一共发表了129篇带有定量实证检验的论文。两种期刊的分析表和预测图的分类如图1所示。该展示具有双重目的,不仅显示描述性分析类型的聚类,而且还显示如何以图形方式描绘这些数据。该图表是列联表的直观表示,但是使用圆圈大小来表示数字则更加直观。
模型和预测图的分布不会过度聚集在特定单元格中(比较圆形分布和大小),但如上所述,它们确实表明一份典型的论文将有两个表格,也可能多一个或者少一个,而且没有显示预测的数字。按期刊分割(未显示)显示它们彼此相似,而主要区别在于AMJ中的预测图更多。由于许多论文没有预测图(AMJ为46.2%; OS为56.6%)或只有一个预测图(AMJ为18.9%; OS为17.1%),能够清晰展示模型的含义的论文数量占比较少。该图还展示了一些显示详细数据图(“x”符号)和散点图(“+”符号)的论文。这些论文表明了对更多信息图形显示的兴趣,但仍然很少见。只有15项研究(11.45%)显示了详细的数据图表,其中大多数没有显示个体观察,而是显示了数据的地理或分类摘要。预测图可以很容易地用显示残值的散点图覆盖,因此读者可以直观地评估结果与预测的差异程度,但是2016年在这两个期刊上发表的129篇文章中只有一篇显示了散点图
与早期期刊的比较表明,近几年来表的数量有所增加,但预测图的数量和类型并没有随之增加。表格,特别是图表,其比例在2006年卷和2011年卷的数量上低于2016年(见图2和图3),而且2006/11论文中没有预测图的比例在AMJ中为38.1%,在OS中为50.7%,只有一个预测图的比例在AMJ中为30.3%,在OS中为29.0%。在2006/11年卷的168篇展示建模结果的实证文章中,共有四篇文章有散点图,且只有一篇文章有详细的图表。2016年数量中详细图表的比例增加是一个真实的变化,并表明研究人员更加注重至少在某种程度上详细显示数据,但这些图表仍然是摘要而不是个体观察数据,就像散点图那样。
对其他期刊进行粗略检查表明,AMJ和OS具有代表性,而且至少在2016年,是比典型的管理学期刊更好的图形显示使用者。但是,《行政科学季刊》(ASQ)的研究表明,确实可能存在例外,至少在较小的期刊中是这样。尽管没有散点图,但其2016年卷中,五分之一的定量分析论文中都有详细的图表。然而,这是最近的一项发展,因为ASQ的2011年卷和2006年卷没有详细的图表,且每个都有一个散点图。最近ASQ使用的图形展示方法将持续增加,因为编辑团队已决定推广此类方法,并已更新对论文提供者的邀请,以要求更多地使用图形方法,并为手头的证据提供更多量身定制的方法选择。
图片
图表2、2011年管理学会期刊(AMJ)和组织科学(OS)图表分布
图片
图表3 、2006年管理学会期刊(AMJ)和组织科学(OS)模型和图表分布

当前证据呈现的局限性

报告经验证据的巨大相似性本身可能不是问题,但它有可能割裂了数据与理论分析,最终隔离了阅读研究的读者们与实证论据。如果不使用数据的图形显示,那么读者和实证证据的这种分离尤其明显,因为这意味着读者只能使用模型估计来评估经验主张。模型会显示系数估计值,标准误差和显著性水平,但由于以下三个原因,这是不够的。第一标准误差和显著性水平与估计的准确性和对结果的置信有关,这两者都与实质效果不同。统计上显著的影响可能实质上并不重要。众所周知,当数据集很大时,这将机械地发生,但是没有那么众所周知的是,如果对于该特定影响的噪声与误差比比较小,则对于较小的数据集也会发生这种情况。自变量可以确实具有较小的影响。
第二,重要的是,在一些模型中,实质效应可以直接从系数估计值中读取(例如,线性模型或指数模型),但在其他模型中,系数转化为实质效应则需要更复杂且决定于整个回归函数的方法。例如,除非将相关数据值(例如平均值)输入到回归函数中的所有变量的函数中,否则常用的logit模型具有不会产生预测效果量值的系数。期刊文章的读者可以使用描述性统计中给出的信息来做到这一点,但它需要付出比读者通常投入精力更多的努力。即使是具有单一系数的logit模型也很容易被错误解释。当然,logit模型只是一个例子。关键是模型的解释可以通过手工计算,或者数据中的影响可以在图表中一目了然。
第三,模型估计没有足够详细地显示未解释的方差,散点图的预测图也没有。该问题有两个方面;总未解释方差和非随机未解释方差。对于总未解释方差,只有少数模型规范产生了可以替代涉及预测的数据点的图形显示的统计数据。线性回归的R²统计量具有此功能,但用于其他模型的拟合统计量不会报告未解释的方差以及图形方法。模型似然比测量解释方差作为从零模型(通常是非常简单的模型)到被测模型的改进,因此它们表达已经解释的内容,而没有提供仍然无法解释的信息。有许多技术可以探索这种与模型假设的偏差,但在管理学领域的期刊当中较为少见。 
更广泛地说,两种形式的割裂——割裂了数据与理论/方法,以及拉大了数据与读者和论据之间的距离——会导致另外两个局限性
1.由于每项研究的理论目标和实证背景和程序不同,因此跨多样性的标准化会自动产生错配。在研究报告中,这种错配将导致研究人员错失探索和报告影响实证检验的具体条件的机会,从而不能获得从证据中获得的具体见解;
2.由于当前的报告程序的重点是展示分析结果而不是展示分析的数据,因此当前数据中的其他相关数据或子样本会被忽略。这是一个问题,因为在管理研究中数据本身的性质越来越异化。我们拥有各种形式的定性数据和混合方法数据,而不仅仅是定量数据(Edmondson & McManus, 2007)。如果隐藏这些数据,那么整合来自不同类型数据的见解的机会就会丢失。
由于这两种惯例驱动的局限性,一篇论文的读者和撰写论文的作者可能会错过另两个科学进步的重要机会第一,证据准备和呈现的标准化将每个研究项目与特定数据集(以及研究背景)可以给出的特定见解密切相关,因此从上下文差异中推导出理论扩展更加困难。其次,缺乏原始数据和预测值的残值使得读者更难以从重要影响中评测微小效应,以及来自具有显着无法解释变异的过程的完全建模过程。这两个错失的机会都以探索更少的新颖和有前景的研究机会为代价将研究人员的注意力和努力引入不那么富有成果(但更传统)的研究领域。
这些问题使得对研究结果的评估更加困难,并且两者结合可以导致对同一理论的微小变种的重复测试。如果研究人员不检查数据是否存在无法解释的方差,并且没有发布允许其他研究人员检查数据的图表以获得无法解释的方差,那么发现当前理论的缺点就变得更加困难。
这些活动甚至会导致伪科学。对于更喜欢报告建模结果多于展示数据的研究领域中的不道德的研究员来说,理想的实证背景会具有多次观察过程和许多协变量,因为这些数据可以很容易地被扭曲为传统理论或其微小变种的系数显著。这种模型调整和相关实践的结果占去被证明难以复制的发现的很大一部分(例如,Goldfarb & King, 2016)。期刊已开始实施针对伪科学的广泛对策(例如,Bettis等, 2016; Lewin等, 2016)。到目前为止,人们还没有充分认识到目前展示建模发现而非数据的惯例使伪科学行为更加容易出现,因此证据呈现的改进补充了期刊提高可复制性的努力。

改进证据呈现方式

通过改进数据展示方法来强化理论,一需要深挖实证数据,二则要求我们把更多的注意力放在数据的本质上。要达到以上两点,就需要借鉴和学习定性研究展示和阐释的数据的方法,并将之运用到定量研究中去。使理论与数据更紧密结合,我们应该做:
1、在表述模型结果、预测和未解释变量之前,清晰地展示原始理论和原始的、在很大程度上可能是离散的数据;
2、详尽地讨论数据来源的理论本身的设计;
3、如果有机会,也可以使用后验方法来验证其他的理论 ,但是应当把这些和原理论模型区分开来;
4、不必解释甚至隐瞒所有的未解释方差,相反,展示所有的未解释方差,以供后来的学者参考和发展新的理论。

Tips—后验假设方法:

通常,实证论文的结构顺序是“提出假设—搜集数据—分析数据验证假设”。但是,很多研究者事实上的研究过程是先搜集数据,通过分析数据间不同变量和构念间的关系,在相关关系的基础上倒推得到原假设。而MOR新的发表政策鼓励研究者明确区分先验与后验两种假设,鼓励作者在搜集数据前先提交研究大纲。编辑审批通过后,作者再对数据进行研究,这样即便最后数据无法验证或是得出与原假设不同的观点,文章依旧可以发表。
使数据更加透明化并且适用于特定的研究内容,我们应该做:
1、如果理论是建立在一个现象上,那么应当在理论部分阐述并在方法介绍时着重强调这种联系;
 
2、用图表来展示数据之间的联系,从而说明主自变量如何与结果共变。值得注意的是,尽可能地以最好的、分散的层面展示数据,其中也包括个体观察得到的散点图。大规模的数据量通常会使人误以为散点图比较笨拙,但实际上分散随机的样本数据不仅可行而且有时可以减轻解释的压力;
3、图表应该培养对变量分布的理解,同时标明可能影响结论的异常分布情况,甚至进一步给出对异常产生原因的猜测。当变量与结果的分布产生共鸣时,这个分布就变得尤为重要。图表还可以包括在空间或时间或特定网络位置上映射或跟踪结果。分析要仔细思考如何更好地展示数据,包括找寻最合适的坐标轴;
4、为了激励研究并且体现出理论阐述的重要,论文应尽可能早的用图表工具给出对现象的推测和待解释变量的重要性(最好在评估模型之前);
5、用多角度的方式来进行额外的分析或稳健性检测。比如,比较不同模型说明和实际结果在同一张图表的差异。与之相对,现有的管理学文章多是以一个模型预测,很少涉及模型的缺陷并为未来研究提供机会。
图片
以上建议仅仅作为提升数据展示透明性和丰富性的例子。现在有许多新兴的用小空间传达更多信息的图表展示数据的方法。作者需要用最合适的方法去展示证据从而使文章更易于理解和吸引读者。这意味着甄别内容传达信息的方式不可或缺,而不是简单地以一些固化标准来衡量。
当然,考虑到数据收集成本、研究和汇报成本、回顾成本等,定位证据陈列的缺陷(尤其是伪科学)以及更好的展示、利用数据可能会带来巨大的代价。研究现在可能还未得出“哪些费用是必要”的结论,但是起码用图表展示数据并且使模型契合数据这种做法并不昂贵而且很吸引人。它提供了一个可视的途径来展示数据之间的联系,便于分析和区分数据,同时也利于理论发展
图片

前行的路

“给我看数据”!这句口号正如展示和阐述数据之间的关系一样简洁明了。显示数据是重要性的初步测试,它说明了接下来分析的相关度。其实,如果数据展示得好,接下来的模型演示多半是为了量化理论解释的不确定性和解释例外案例的情况。图表本身就可以解释数据中发生了什么,而模型为这个答案增添了效用上的精确度和研究者自信。
“给我看数据”使读者更容易定位重要的现象同时减少了误导性模型的可信度。它同时也说明了数据和分析的不对等,为后续的研究分析提供了机会。不规则数据的透明展示也为后来的研究者指明了最有前景的研究机会,远离以特殊研究为名的借题发挥。这点十分重要,因为研究论文从来不应该是一份完整的文章。它应当是未来研究的指向标,因此读者和后来者可以从最大程度的信息化中获益。换句话说,显示数据不仅可以改善证据展示同时也能让管理学研究更进一步。
“给我看数据”!可以通过期刊的编辑和评审过程进行规范化,但这一过程非常局限。因为期刊必须建立在作者提供的资料上,即使最佳的改进建议也不可避免的出现数据展示上的遗漏。最佳的改进证据陈列的方法是转变方法和掌握技能。这个说法最初源于一个医学项目,学生被教导“数据先于模型”并且学习了有效的数据展示方式。我至今没有看到任何参与者拒绝学习更好的证据展示方式或是质疑透明性原则对科学的推动。一旦学校、协会和期刊率先采取行动,这一过程将是迅速的。
*文章来源:量化研究方法
*侵权必删
苗浩然
中南财经政法大学
学生
文章137
·
总浏览量59478
最新文章
更多
还记得自己当初为什么选计算机专业吗?
文晟
2
浏览
住房“限购令”如何影响周边城市房价和汽车消费?
学说观点
12
浏览
JFE|空气污染不仅影响身心健康,也会干扰投资者的理性决策!
学说观点
2
浏览
JFE|中国股市可以准确预测吗?来自机器学习的视角
学说观点
3
浏览
国际金融顶刊JFE最新研究:中国股市的真实价值
学说观点
1
浏览
金融学顶刊《Journal of Finance》“偏爱”哪些中国故事?
学说观点
3
浏览
热门用户
学说观点
学说观点
文章
300
学术前沿速递
学术前沿速递
文章
298
AIGC交流社区
学说官方
文章
240
未央网
未央网
文章
233
毕宣
中央财经大学
文章
185
王凯
T. Rowe Price
文章
181
热门文章
更多
经济学入门必读书籍有哪些值得推荐?
楚健
·
964
浏览
会议预告|清华五道口绿色金融讲座第一期,邀您探讨“碳达峰碳中和——中国发展转型的机遇和挑战”
学术会议动态
·
3260
浏览
如果经济学家连股都不炒,那他们都在干什么呢?
李博
·
524
浏览
荒唐!Science论文作者P上自己名字,还写进简历里?
楚健
·
275
浏览
李开复:ChatGPT引发失业恐慌?这20种工作要避开!
我和ChatGPT有个对话
·
251
浏览
Top 100 Economics Blogs of 2023
学术小秘书
·
250
浏览
2022数字经济大会议程发布,邀您参会!
学术会议动态
·
212
浏览
最新综述!AIGC到底是什么?都有哪些应用?一文尽览!
AIGC交流社区
·
203
浏览
于海龙 李成明丨乡村振兴背景下财政涉农扶贫资金政策有效衔接的关键环节和路径选择
经典论文回顾
·
183
浏览
TOP前沿: 文本分析方法必读实用指南! 基于文本即数据的机器学习!
经典论文回顾
·
174
浏览