Neo4j与Cypher语言学习笔记(一)



  • @ryougiNeo4j与Cypher语言学习笔记(一) 中说:

    @ryougi
    简单来说就是我怀疑这些个可视化工具并不能实现图中节点的归类的效果,或者是原来的数据库里面没有包含这部分信息,所以我现在想自己整理一个小的数据库然后用Neo4j的可视化工具导出一张图。

    这个其实是和它们背后选用的算法有关...像VOSviewer的话就是对abstract做词共现分析,简单说就是如果这两个词总是同时出现,就认为它们关系紧密...然后根据关系远近聚类,关系近的就划分为同一类



  • @ryougiNeo4j与Cypher语言学习笔记(一) 中说:

    @chivas
    VOSviewer和citespace的原理和用法还挺像的,但是citespace好像只针对特定的几个数据库(web of science等),这个是我同学当时用citespace导出的效果图,因为词条比较少所以连线还是比较清晰的。
    Imgur
    但是这个图的问题也是和你说的一样的看不出来研究领域什么的,首先是出现的词条类别就比较混乱,有的是研究领域,有的是专业名词,还有的是动词等等杂七乱八的;其次就是连线本身只是表明节点之间有关,没有具体的关系内容。我觉得有可能是citespace本身不能检索出这层信息,所以我打算自己用Neo4j整理一下这张图的词条,先对节点分类然后自己补充一些关系,再用Neo4j的浏览器把关系图导出来,但是我现在不是很清楚有哪些内容是我能够完善的以及词条之间到底怎么划分关系,所以我这边的图还没画完。

    那可能是直接用citespace对的这些数据库接口然后在线分析的,不知道这样做提供的数据项有哪些...我是收集了一位学者的94篇论文pdf,然后进行元数据提取,能得到论文的title、author、kewywords、abstract、jounral、year等等信息,然后将RIS文件导入。而且其实我可以对VOSviewer最后筛选出来的关键词进行手动选择,如果是动词等等乱七八糟的我是可以划掉的,最后的可视化就不会出现这些词...但是我不可能对每一个学者都手动去操作QAQ



  • @unrealluver 是这样的,但是我还是觉得这个图显示的关系太杂乱了,有色图还好能在视觉上有个区分,但是如果引用在论文中黑白的话就啥都看不出来了。。。



  • @chivas 0_1573715287100_附图.jpg
    这个是我用VOSviewer绘制的关于“地热”的相关研究方向的图,我是直接在web of science数据库里检索“地热”词条然后导出的数据,然后直接丢到VOSviewer里面了。我记得配置里面好像有一项是过滤最小的关联子图,我好像是把那一项设置成1了结果所有的都显示出来了......但是如果我把那个设到最大,就只会显示图中右边这一个部分的子图,而且词条之间隔得很远,有什么好的解决方案吗(还是说我的使用方法不太对)



  • @ryougi 原来是这样!



  • @ryougiNeo4j与Cypher语言学习笔记(一) 中说:

    @chivas 0_1573715287100_附图.jpg
    这个是我用VOSviewer绘制的关于“地热”的相关研究方向的图,我是直接在web of science数据库里检索“地热”词条然后导出的数据,然后直接丢到VOSviewer里面了。我记得配置里面好像有一项是过滤最小的关联子图,我好像是把那一项设置成1了结果所有的都显示出来了......但是如果我把那个设到最大,就只会显示图中右边这一个部分的子图,而且词条之间隔得很远,有什么好的解决方案吗(还是说我的使用方法不太对)
    你选的是based on text data还是bibliographic data啊?从图上看好像是bibliographic中的keyword...如果是这样的话很正常,因为VOSviewer是基于共现的,也就是说看一句话里几个词同时出现的频率和距离情况...而如果你选的是基于keyword分析的话,最后的结果当然大部分是一个个孤立且频次为1的词😂



  • @chivasNeo4j与Cypher语言学习笔记(一) 中说:

    不过不是因为连线混论,而是VOSviewer根据聚类结果画出来的图看不出来研究领域...类似这种0_1573112651435_af17a522-786e-4566-9ffe-f655085cba1e-image.png
    请问学长最后对于获得研究方向的关系图有什么想法吗?

    用VOSviewer分析abstract和title才会看出一点效果来...这张图就是的,因为abstract中才看得出上下文,能计算词出现的频率和关联度



  • @ryougi 我上周看见收到了回复但一直没找出时间好好回...最近实验实在太多了QAQ不好意思

    直接在web of science数据库里检索“地热”词条然后导出的数据

    这样导出的数据在基于abstract和title的分析情况下,如果信息条数足够多,应该还是能看出一点效果来的。不过这种做法通常是用来分析某一领域今年来的研究热点:导出某一领域在某段时间内的高引或热点论文。这里有一个例子:基于文献计量的大数据研究现状分析 这样的情况下用VOSviewer等现成的分析工具是能得到不错的效果。
    我后来自己实验的时候换了一种方法,从CNKI上导出了data mining、social network、natural language processing、semantic network、predictive model这五个研究方向下各100条文献信息进行分析,然后VOSviewer得到了一张这样的图:
    0_1574311097905_Snipaste_2019-11-01_16-57-20.png
    分析结果和我筛选数据时的选择基本吻合。



  • 但如果是想针对某一学者的所有论文信息分析出他/她的研究方向的话,我觉得VOSviewer可能就不太行了...但可能也和数据集大小有关,我选的那位学者我只拿到了90+论文的文献信息,所以分析结果看不出什么来。如果是那种paper上千的大牛,拿到其所有论文的文献信息的话,应该也会效果不错?



  • 总而言之,我认为这些现成的分析工具只适用于两种情况:

    1. 答案基本唯一的分析,通常只是进行一些count的工作:例如基于论文合作者信息的学者关系网络,基于引文信息的论文关系图等等。这种分析基本上就是跑一个图的算法,遍历或者计数统计一下,类似VOSviewer这样的工具省去了自己写代码的功夫;
    2. 使用它们背后的模型(例如VOSviewer就是词共现)并适当调参能得到较好效果的分析,具体来说还是以VOSviewer为例,分析领域研究热点和关键词,但这需要一定的数据集支撑。而像我这种情况——想分析出每位学者的研究方向和领域变化,更“个性化”一些的分析,一般来说数据集较小,还是只能另寻他法。

 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

Looks like your connection to Dian was lost, please wait while we try to reconnect.