签到
EN

中外学术前沿热点跟踪技术与方法:CiteSpace软件介绍

34浏览
2022/07/12 02:29发布
周舟
Princeton University
学生
7月最新分享,欢迎留言探讨——中外学术前沿热点跟踪技术与方法:CiteSpace软件介绍
一、“灵魂三问”:跟踪学术前沿热点的必要性

 

在进行国际前沿技术的跟踪和分享之前,我们要明确:为什么要做这样的事情?我们为什么要去追踪国际前沿?这是因为我们做研究之前,可能都会有逃不过的“灵魂三问”。

 

第一个是,你要用什么方法?我们的研究方法有很多,你用什么样的方法,是根据这个研究方法是不是时髦来判断?还是说这个研究方法它是复杂的,或是简单的?甚至有些老师或者学者,比如我,比较倾向于去用民族志的方法,为什么?因为民族志的方法可以体现我的工作量,是这样子吗?这些都是疑问。

 

第二个,我们不可避免的问题是你的研究要对话什么理论?理论是一个很重要的事情,我们要对话到什么理论,或者说我们要结合什么理论,是因为这个理论可以解释我们的现象?还是说因为这个理论它是流行的?或者说因为这个理论它是很受关注的理论?到底什么是我们选择它的标准?

 

第三个我们没有办法避免的问题,就是我们要去做的这个研究,我们要去做的这样一件事情,它有没有价值?因为我们先做一个科学性的一个预判,如果这个研究没有太大的研究价值的话,接下来即使你付出了很多的工作量,它的成果预期都不会达到一个很高的标准。我们如何来判断我们的研究是否具有价值?一个比较简单的判断,就是你的研究有没有人做过,别人做了些什么样的工作,或者说你这个研究是不是没有完全解决的问题。

 

为了能够回答这三个不可避免的问题,在科研中是需要知道我们应该采用什么样的方法,我们应该要对话什么理论,我们的研究是不是有价值。这个其实也是我们要去对国际性的前沿进行追踪和探寻的原因——大家尤其要注意,我们不仅仅要对国内的前沿研究,还要对国际性的前沿进行研究。接下来,我这边给大家分享一些方法和技术层面的一个工具,Citespace。

 

二、CiteSpace的简介及其重要调整参数

 

(一)关于CiteSpace

 

CiteSpace是我今天给大家分享的第一个针对国际前沿性研究进行追踪和分析的软件。这个软件相对而言可操作性很强,因为它里面的很多参数可以大家自己去调节。CiteSpace是用文献计量学,以文献系统和文献计量学特征为研究对象,不仅仅可以定量测量轮廓分布以及研究之间的一个关系和丛集,还可以描述和预测特定研究领域的发展,还可以分析不同国家、机构、期刊和学者的信息,并比较它们的贡献。使用CiteSpace所分析的范围可以是我们国内的研究,但是我们更多的时候要去分析国际性的,或者说是对国内和国外进行一个对比性的研究。

 

(二)CiteSpace的重要调整参数

 

1. G-index

在CiteSpace软件里面,它有几个很重要的调整参数,第一个参数是g-index,它通常被称之为g指数,g指数在CiteSpace当中属于选择标准(selection criteria)。它这个数值的作用是什么?就是说我们用CiteSpace做研究,做的分析其实是一个很断面的研究,g值其实就是选项在每个切片(slice)中使用一个修改过的g指数,然后在后面给到一个公式,它的意思就是可以通过一个自行调整比例因子k值的大小,来纳入或者说来排除更多的节点。

 

简单来讲,k值越大,图谱中出现的节点就越多,k值越小,图谱当中出现的节点就越少。我们用CiteSpace来做研究和分析,我们整个研究的导出是我们知识的图谱。这个知识图谱就是我们分析结果的可视化的结构的展现,每个图谱里面它包含“节点”和“连接”的关系,每个节点由它节点的特征来代表你某一个文献,或者说某一个研究的机构,或者说你某一个作者,他在你的研究领域内的影响以及特征。这些文献之间、作者之间或者说机构之间的这样的一个连接,代表的是什么?代表的是他们之间的关联,这个关联它其实可以包含时间的早晚以及互动的频率,这些都可以通过这样的参数来给它进行选择性的调节。

 

2.Top N与Top N%

Top N代表的是选取被引次数最高的N个引文,因为我们要去找重要的文献,重要的文献怎么去找呢?我们就可以通过这样的一个文献可计量的方式去进行分析。Top N后面加上百分比(Top N%),就是说它引文所选取的百分比。

 

3.Threshold

在CiteSpace里面有一个概念很重要,叫做Threshold。它是被引频次c(citation)、两篇文献的共被引频次cc(cocitation)和共被引系数ccv(cosinecoefficient)三个层次设置阈值。这个是它背后的一个公式(见图1),被引次数在我们进行文献分析的时候,被引次数不仅仅指的是每个文献的被引次数,它还指研究作者的被引次数,CiteSpace的一个原理性的解释,是把每个文献或者说每个作者当做是一个节点来看待,它每个节点之间的关联和它每个节点特征,主要的一个参数就是citation,它的被引次数。

 

图片

图1

 

所以说整个CiteSpace的机制是一个定量化的分析的机制,对于研究新手或者说刚进入到某个研究领域的作者来说,或者说对某一个你尚不是很熟悉的研究领域,CiteSpace就可以帮助你快速地对它们行整体性分析。为什么?因为CiteSpace是个定量化的分析,不管你是研究新手也好,还是说你在研究领域内已经耕耘了很多年的权威来讲,你们对同一个领域用CiteSpace去分析的结果都是一样的。

 

这也是为什么大家可以看到,现在有大量的文章都是用CiteSpace去进行分析,然后去写出这样的文章。而且大家可以看到很多的那些作者,他们就是研究的新手,他们并不是这个领域内的权威,对吧?为什么?因为它是一个定量化的方法,它本身定量化的研究方法的过程是可以复制的,是可以进行重复的。有很多这样的研究新手选择运用,或者说其实不仅是研究新手,很多的权威也会用到CiteSpace这个方法。

 

三、CiteSpace的重要术语

 

(一)引文空间

 

以上给大家讲了CiteSpace中重要的参数,CiteSpace它有什么重要的术语呢?CiteSpace的第一个重要术语叫做“引文的空间”,这个概念其实提得很巧妙,研究领域和研究范围在我们这普遍概念里面,它其实是一个二维性的范围。但是在CiteSpace的概念里面是三维的,虽然它最后的知识图谱是一个二维的呈现形式,但在它的原理的设计里面,CiteSpace是把我们整个研究的现状放在一个三维的引文空间里面来看待的。

 

CiteSpace是在科学的计量学数据可视化背景下,逐渐发展起来的一个引文可视化的分析软件。我们可以用CiteSpace来干什么?我们CiteSpace的工具或者这个手段是可以用来呈现科学知识的结构,结构性的东西,这是CiteSpace的一个特征。因为如果我们用一些传统的文献综述的方法,虽然也可以把我们某一研究领域的主体结构,或者说主干规律做出来,但是肯定也是要进行一个比较大量的阅读,但是我们很难把这个研究领域很细分的,或者说很细节性的结构和规律来给它分析出来。但计算机有算法的支撑,而且它可以同时处理好几千个文献,因为我们人工去做一个结构的话,我们是需要同步性要求比较强的,如果你一篇一篇地去处理的话,很难将结构生成起来。因此我们就是将通过CiteSpace这种方法得到的可视化图形,称之为是科学的知识图谱。

 

(二)中介中心性(Betweenness centrality)

 

第二个重要的术语叫做中介中心性,这个概念也是在数据可视化和科学计量学的背景下提出来的一个概念。中介中心性指的是什么?中介中心性是测度节点在网络中重要性的一个指标。以体育学为例,假如说我们是别的领域的,或者说我刚刚进入到体育学的研究领域,我要对体育学进行一个研究,我去找到体育学的重要的权威的研究者,或者说重要的文献,我们是比较容易找到的。为什么很容易?我们可以看引用量、引用量或者说下载量,这在知网上面都可以满足我们这个需求。但是被下载的最多的文献,一定是你现在这个阶段中介中心性最强的文献吗?不一定,很多文献它被下载量很多,为什么?第一个文献本身很重要,第二个文献它是一个很早之前就出现了的一个文献,对吧?这个很好理解。

 

中介中心性到底指的是什么?中介中心性指的是在特定年份内,我们这个领域的一个文献,最核心的一个文献,我们研究领域或者研究范围,最核心的文献或者说最核心的研究作者是谁,这个和被引用量与被引用的次数是不一样的概念。中介中心性是一个基于Citespace自身科学计量学的理论基础提出来的这样的概念,如果不用科学计量学,中介中心性也是很难进行测量的。

 

(三)Burst检测

 

第三个术语叫做Burst检测,这也是一个很有意思的东西,因为这是一个功能性很强的,也是一个很有效的概念。如果说大家进入某个研究领域,或者说你在该研究领域里面刚去工作了比较短的时间,你对于这个研究领域之前的研究状况的变化,是很难了解它变化的脉络的。这个和刚刚给大家讲的中介中心性相比是另外一个概念,这叫做凸显性。比如说我去研究时间的片段,在2015年到2022年语言学或者说教育学的发展时间片段中,到底是什么时候出现了什么样的文章,改变了我研究领域的方向,或改变了原来的发展方向,或者说极大地促进了接下来的研究发展,这些都是可以通过计量学的方法去做Burst检测,Burst检测能够找到这样的突变文献或作者。具体的操作步骤,这边给大家简单讲一下,我们在做Citespace关键词凸显之前,可以先进行标签的清洗,比如说合并类词或者通常在关键词出现图谱形成后,在知识突破界面会出现一个叫“Control Panel”,点击Burstness,然后点击“Refresh”,就可以进行关键词凸显的界面。

 

(四)引用年轮(Citation tree-rings)

 

下一个重要的术语是Citespace中的一个概念,叫做Citation tree-rings,它代表一个年轮,因为Citespace有两个支柱,第一个是文献的可计量分析,第二个则是可视化的表达,可视化的表达也是一个很重要的东西。我们如何在一张二维的图里面,把很多细节性的信息,比如它的特征,点之间的关系,还有整个突变的情况给它展现出来,这是需要一个很合理或者说可以令人一目了然的方法的,就是可视化的方法。

 

在知识一般的知识图谱里面,对于节点的描述并没有很多可视化的表达,一般对于节点,就是用一个点的颜色进行一个区分。但在Citespace图谱里面它是用年轮,年轮是一个很精准的表达方式,图中的每个圆圈就代表一个相应的引文的年轮(见图2)。年轮的厚度和相对应的分区与它的引文数量成正比。就是说节点的年轮越厚,就代表这个时间区内引文数量越多,这是正相关的关系。举个例子,年轮是什么?就是由不同的颜色组成,不同颜色表示该引文中包含文献发表的时间年限。果我们用Citespace原来的设定,而不去进行一个重置的话,就是黄色年轮对应的文献发表时间与时间轴上的黄色区域相对应,黄色年轮比红色年轮更厚,就证明黄色年轮对应的时间分区内的引文数量大于红色年轮。

 

图片
图2

 

其实我们去进行学术前沿的追踪和探究,有一个维度大家千万不要忘记了,也就是时间的维度。比如说,我们现在去进行的这个研究领域的前沿是什么,下个月可能就是不一样的了,未来总是发生了变化的,你不可能每个月都去进行前沿的追踪,但是,什么是确定的?是我们已经发生的事情它是确定的。过去变化的演变过程它是确定的,所以说我们千万不要一味地去追求最前沿的文献是什么,而忘记了过去这个研究领域的发展脉络。而年轮可以把你的研究领域内的过程性信息展现在这里,它有时间分析区,包括首次被引用的这样的年份,还有时间分区以及出版的年代,都是可以通过引文的年轮来进行表示的。

*文章来源科研写作研究所,侵权必删

 

 

 

科研写作 研究方法

周舟
Princeton University
学生
文章171
·
总浏览量75569
最新文章
更多
2024全球机器学习技术大会上海站圆满闭幕,共奏AGI变革新时代
杨展
5566
浏览
第七届机械工程与应用复合材料国际会议(MEACM 2024)
李思傲
7
浏览
世界读书日专题 | 新质生产力背后的管理之道
杨展
4474
浏览
【征稿】第七届水与环境可持续发展国际会议(ICSDWE 2024)
李思傲
11
浏览
【征稿】第七届水与环境可持续发展国际会议(ICSDWE 2024)
李思傲
5
浏览
【EI检索】2024年第一届先进能源材料、能源器件与能源系统国际会议(AEMDS 2024)
杜金桐
11
浏览
热门用户
学术前沿速递
学术前沿速递
文章
300
学说观点
学说观点
文章
300
AIGC交流社区
学说官方
文章
240
未央网
未央网
文章
233
毕宣
中央财经大学
文章
185
王凯
T. Rowe Price
文章
181
热门文章
更多
经济学入门必读书籍有哪些值得推荐?
楚健
·
1132
浏览
绿色信贷能否提高商业银行的核心竞争力?基于中国的准自然实验
创新研究
·
715
浏览
如果经济学家连股都不炒,那他们都在干什么呢?
李博
·
651
浏览
“特斯拉”打败了“星巴克”
张子瑞
·
626
浏览
最新综述!AIGC到底是什么?都有哪些应用?一文尽览!
AIGC交流社区
·
614
浏览
数电票的26个问题,税局统一回复!
张俊熙
·
603
浏览
研究方法 | 文献资料分析方法大全!收藏
周舟
·
594
浏览
会议预告|清华五道口绿色金融讲座第一期,邀您探讨“碳达峰碳中和——中国发展转型的机遇和挑战”
学术会议动态
·
3309
浏览
文献资料分析方法大全,建议收藏!
楚健
·
499
浏览
研究方法:文献资料分析方法
周舟
·
491
浏览