文献分析(一):VOSviewer初步



  • 前言

    因为一些原因要根据学者发表的论文信息分析学者的研究方向(问题描述详见其他博客),我接触到了VOSviewer,一个现成的科学知识图谱软件,能通过导入文献元数据做可视化分析。因为解决该问题的方案不只一种,而我并不知道哪种模型最后的分析效果比较好,所以在真正编程实现之前我决定做一些小范围的实验。而该软件设计的核心思想是“共现聚类”,正与备选方案中的“共现聚类分析法”相吻合,故我尝试直接用VOSviewer进行了一些小数据集的分析。而学会VOSviewer的使用本身也可以帮助我们在平常阅读文献时进行筛选,故分享给大家。

    什么是VOSviewer

    VOSviewer是一个用于构建和可视化文献网络的软件工具。这些网络可能包括期刊、学者或个人出版物,它们可以基于引文、文献耦合、共同引用(co-citation)或共同作者关系(co-authorship)来构建。VOSviewer还提供文本挖掘功能,可用于构建和可视化从科学文献中提取的重要术语的共现网络。

    使用VOSviewer能做些什么

    当我们刚进入一门研究领域时,阅读该领域的论文(尤其是博士论文,由浅入深)是一种很好的学习方法。但每个人的时间和精力都是有限而珍贵的,面对浩如烟海的文献,我们必须选择重点文献来阅读。就某一具体领域做文献分析,把文献之间的关系可视化,我们就可以知道哪一个文献引用的人更多,或者文献的主题(文献聚类)有哪些,从而进行有针对性地阅读。同时这也有利于做毕业论文时的文献综述。

    使用介绍

    一、安装

    VOSviewer是一款基于JAVA的免费软件。故本地安装使用需要JAVAVOSviewer

    二、如何进行分析

    Step 1. 收集感兴趣的全部文献。采集某个领域文献的时候,应该找一个合适的入口(例如能提供基于订阅的多个数据库访问的网站)。其中储存的文献信息不仅要全面,而且文献间的引用关系也得完整保留。常见的入口包括ScopusWeb of ScienceCNKI等。

    Step 2. 进行文献信息的导出。这种网站一般有访问权限控制和单次下载文献信息的最大数量,如500条。根据需要下载文献信息,并存储为合适的格式。为了VOSviewer可以正确打开,请选择用TAB分割的文本方式,文献记录要包含全部字段和引用信息。

    以WOS为例进行文献信息导出

    Step 3. 导入VOSviewer进行分析。如果想获得学者的论文合作关系、论文引用关系等基于文献信息的分析内容,就选择based on bibliographic data;如果想要基于论文title、abstract等文本信息的词共现分析,就选择based on text data。导入文件时注意选择与自己导出文献信息时相同的格式,后面还有一些关于分析类型(co-authorshipco-occurrence)、选取单元(AuthorsKeywords)、计算方法(Full countingFractional counting)、阈值大小等内容的设定,较为简单,可自行根据需要选择。

    选择想要分析的内容
    选择想要分析的类型和计算方法

    Step 4. 获得分析信息并导出聚类文本。VOSviewer在呈现可视化分析结果的同时,也会提供一个基于其聚类算法得到的计算结果文本。此处我选择了以清华大学唐杰教授为例,导入了他94篇论文的元数据,获得了唐杰教授的论文合作关系网络。可以看到,同为清华大学的lijuanzi(李涓子教授)、zhangjing等学者与唐杰教授有较多的论文合作。

    唐杰教授的关系网络
    VOSviewer提供经过聚类分析后的计算结果

    可以看到,基于论文合作者分析的关系网络呈现的效果不错,但我关注的重点还是基于词共现聚类能不能得到学者的研究方向,而让人遗憾的是,VOSviewer的聚类算法得到的结果并不是很好。

    基于唐杰教授论文信息的词共现聚类结果

    可以看到分析结果并不能清晰地按研究领域的聚类。但到底是因为一位学者的所有论文信息仍然过少,数据集不足以支撑,还是因为通过词共现聚类分析学者研究领域这种方法本身就不行,还有待我进一步确定...

    后续

    事实上,在使用VOSviewer直接进行文献分析的过程中,我还用到了很多其他的工具,例如Zotero(从pdf中提取文献元数据,如标题、作者、摘要、学术会议/期刊名称等)、EndNode(进行数据的格式类型转化)等,如果需要后续也可以分享给大家。



  • 请问您后续会分享pdf中提取要素吗?谢谢


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

与 Dian 的连接断开,我们正在尝试重连,请耐心等待