文献分析(一):VOSviewer初步
-
前言
因为一些原因要根据学者发表的论文信息分析学者的研究方向(问题描述详见其他博客),我接触到了
VOSviewer
,一个现成的科学知识图谱软件,能通过导入文献元数据做可视化分析。因为解决该问题的方案不只一种,而我并不知道哪种模型最后的分析效果比较好,所以在真正编程实现之前我决定做一些小范围的实验。而该软件设计的核心思想是“共现聚类”,正与备选方案中的“共现聚类分析法”相吻合,故我尝试直接用VOSviewer
进行了一些小数据集的分析。而学会VOSviewer
的使用本身也可以帮助我们在平常阅读文献时进行筛选,故分享给大家。什么是VOSviewer
VOSviewer
是一个用于构建和可视化文献网络的软件工具。这些网络可能包括期刊、学者或个人出版物,它们可以基于引文、文献耦合、共同引用(co-citation)
或共同作者关系(co-authorship)
来构建。VOSviewer
还提供文本挖掘功能,可用于构建和可视化从科学文献中提取的重要术语的共现网络。使用VOSviewer能做些什么
当我们刚进入一门研究领域时,阅读该领域的论文(尤其是博士论文,由浅入深)是一种很好的学习方法。但每个人的时间和精力都是有限而珍贵的,面对浩如烟海的文献,我们必须选择重点文献来阅读。就某一具体领域做文献分析,把文献之间的关系可视化,我们就可以知道哪一个文献引用的人更多,或者文献的主题(文献聚类)有哪些,从而进行有针对性地阅读。同时这也有利于做毕业论文时的文献综述。
使用介绍
一、安装
VOSviewer
是一款基于JAVA
的免费软件。故本地安装使用需要JAVA和VOSviewer。二、如何进行分析
Step 1. 收集感兴趣的全部文献。采集某个领域文献的时候,应该找一个合适的入口(例如能提供基于订阅的多个数据库访问的网站)。其中储存的文献信息不仅要全面,而且文献间的引用关系也得完整保留。常见的入口包括Scopus、Web of Science、CNKI等。
Step 2. 进行文献信息的导出。这种网站一般有访问权限控制和单次下载文献信息的最大数量,如500条。根据需要下载文献信息,并存储为合适的格式。为了VOSviewer可以正确打开,请选择用TAB分割的文本方式,文献记录要包含全部字段和引用信息。
Step 3. 导入
VOSviewer
进行分析。如果想获得学者的论文合作关系、论文引用关系等基于文献信息的分析内容,就选择based on bibliographic data
;如果想要基于论文title、abstract等文本信息的词共现分析,就选择based on text data
。导入文件时注意选择与自己导出文献信息时相同的格式,后面还有一些关于分析类型(co-authorship
、co-occurrence
)、选取单元(Authors
、Keywords
)、计算方法(Full counting
、Fractional counting
)、阈值大小等内容的设定,较为简单,可自行根据需要选择。
Step 4. 获得分析信息并导出聚类文本。
VOSviewer
在呈现可视化分析结果的同时,也会提供一个基于其聚类算法得到的计算结果文本。此处我选择了以清华大学唐杰教授为例,导入了他94篇论文的元数据,获得了唐杰教授的论文合作关系网络。可以看到,同为清华大学的lijuanzi(李涓子教授)、zhangjing等学者与唐杰教授有较多的论文合作。
可以看到,基于论文合作者分析的关系网络呈现的效果不错,但我关注的重点还是基于词共现聚类能不能得到学者的研究方向,而让人遗憾的是,VOSviewer的聚类算法得到的结果并不是很好。
可以看到分析结果并不能清晰地按研究领域的聚类。但到底是因为一位学者的所有论文信息仍然过少,数据集不足以支撑,还是因为通过词共现聚类分析学者研究领域这种方法本身就不行,还有待我进一步确定...
后续
事实上,在使用
VOSviewer
直接进行文献分析的过程中,我还用到了很多其他的工具,例如Zotero
(从pdf中提取文献元数据,如标题、作者、摘要、学术会议/期刊名称等)、EndNode
(进行数据的格式类型转化)等,如果需要后续也可以分享给大家。
-
请问您后续会分享pdf中提取要素吗?谢谢