问题描述：根据学者的论文信息分析其研究方向及变化时间线

Chivas

前言

因为对大数据这一块比较感兴趣，尝试对数据挖掘、数据分析等方向做了一些了解。最近在试图根据学者发表的论文信息分析出学者的研究方向，我看到主流做法大概分为这样三类：

构建词共现网络（co-occurrence network）

建立基于规则的系统

统计学/机器学习

看起来都很厉害然而我并不知道哪一种才能得到较好的分析结果...嗯关键是我还都不会QAQ。并且以上几种方法都是建立在对论文摘要或全文进行关键词提取的基础上的，而我能获得的数据其实不仅仅只有abstract，也许通过对其他信息的充分利用也能对学者的研究方向进行分类？我觉得可以试试。

在此我对该问题进行一次较为详细的描述，并会在后续更新自己在解决该问题上的想法和尝试，希望能得到大家的指导，欢迎讨论XD

一、可能会用到的数据项说明

Field Name	Field Type	Description	Example
title	string	paper title	Data mining: concepts and techniques
venue.raw	string	paper venue name	Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial
year	int	published year	2000
keywords	list of strings	keywords	[“data mining”, “structured data”, “world wide web”, “social network”, “relational data”]
pdf	string	pdf URL	//static.aminer.org/upload/pdf/1254/370/239/53e9ab9eb7602d970354a97e.pdf
abstract	string	abstract	Our ability to generate and collect data has been increasing rapidly...

二、问题描述

对于每一位学者（限制在计算机领域），我们能得到该学者发表的论文信息；每一篇论文的信息细分有以上几个属性：标题、所收录的期刊/会议名称、发表年份、关键词、pdf链接和摘要。这些是已经提供的结构化信息，不过有的论文可能会有部分属性缺省。

目标是根据已有的信息，分析出每一位学者的研究方向（如data mining、social network、natural language processing、semantic network、predictive model等）以及随时间的变化。

Chivas

所给数据项中，我个人认为pdf意义不大，毕竟对每位学者都从其论文集合中进行全文字段提取再分析工作量太大，不太具有可行性。且事实上，很多学者的论文有版权保护，我们无法或难以自动化获得全文······

Chivas

在我查阅的有限的资料里，大部分都是对title、keywords和abstract这三项通过xxxxx进行关键词提取，然后通过xxxxx分析（如果大家知道有什么其他的方法，欢迎评论告诉我去康康）。这中间会涉及到的技术种类很多，所以我还是想先从一些简单的筛选条件开始上手

Chivas

目前有一个比较简单的想法是，venue.raw这一数据项可能用于对学者的研究领域进行初步分类。因为中国计算机学会推荐的国际学术期刊本身是按领域划分的，且有A类、B类等。如IEEE Transactions on Dependable and Secure Computing就是网络与信息安全方向的A类期刊；ACM Transactions on Graphics被划分为计算机图形学与多媒体方向的A类期刊；AAAI Conference on Artificial Intelligence是人工智能方向的A类学术会议······在获得了这样一份会议/期刊分类列表后，通过对该学者的每篇论文的venue.raw属性查找其所属于的领域方向，就能得到一个大概的分类。

Unrealluver

不妨试试最简单的思路呢:
- 先对title和abstract用TF-IDF进行关键词抽取,
- 之后在和keywords合成one-hot向量,
- 最后余弦算距离.

Chivas

@unrealluver 在问题描述：根据学者的论文信息分析其研究方向及变化时间线中说：

不妨试试最简单的思路呢:

先对title和abstract用TF-IDF进行关键词抽取,

之后在和keywords合成one-hot向量,

最后余弦算距离.

嗷我试试看...但是有两个问题我不太清楚XD，可以请学长大概说一下吗？

用TF-IDF的时候语料库应该选择什么呢？现在数据源全部都是计算机领域的学者和他们的论文信息，想分析出来的研究方向也都是计算机领域里的，所以可能语料库的选择还比较重要？
对于一位学者的每篇论文，我得到了one-hot向量之后这个“余弦算距离”具体是指什么？（one-hot向量我查了一下资料大概知道了，但是后面这个有一点抽象...wtcl）

Unrealluver

@chivas 在问题描述：根据学者的论文信息分析其研究方向及变化时间线中说：

@unrealluver 在问题描述：根据学者的论文信息分析其研究方向及变化时间线中说：

不妨试试最简单的思路呢:

先对title和abstract用TF-IDF进行关键词抽取,

之后在和keywords合成one-hot向量,

最后余弦算距离.

嗷我试试看...但是有两个问题我不太清楚XD，可以请学长大概说一下吗？

用TF-IDF的时候语料库应该选择什么呢？现在数据源全部都是计算机领域的学者和他们的论文信息，想分析出来的研究方向也都是计算机领域里的，所以可能语料库的选择还比较重要？

对于一位学者的每篇论文，我得到了one-hot向量之后这个“余弦算距离”具体是指什么？（one-hot向量我查了一下资料大概知道了，但是后面这个有一点抽象...wtcl）

啊, 有点儿8好意思, 之前一直没留心看未读消息, 也就没能及时回复哈. 对于你的几个问题的话:
- 1. 语料库自然是你用来进行分类的论文集合啦, 你需要, 也只需要待分类的论文集合来完成TF-IDF的过程, 更详细的实现细节可以参考我以前写的一篇博客.
- 1. 语料库诚然很重要, 但但Base On Data的模型, 一般都是依赖于你具体的数据集, 这也就是我们所谓的应用场景.
- 1. 这是一个很naive的方法啦, 就像你从前做简单数学题一样, 向量是多维空间从原点出发的有向线段, 我们可以用向量的夹角来刻画它们之间的近似程度, 同理, 我们也可以对我们得到的one-hot向量做类似的处理, 来得到论文两两间的余弦相似性, 相似性大于一个阈值的可以分为一个小类, 再根据小类间的余弦相似性得到一个大一些的小类, repeat如上操作直到得到我们需要的几个难以再合并的大类即可.
- 1. 要是嫌麻烦可以直接过过神经网络, 但这样就不好玩啦w.

Chivas

@unrealluver 思想我大概明白啦，谢谢学长！（就是担心向量相乘之后大部分得到的都是0...有时间的时候我来试试看