对建立知识图谱语料库的调研
-
建立知识图谱时,若使用有监督学习的方法进行关系提取,人工标注训练样本成本巨大,如何获取领域知识、如何获得足够多的高质量训练样本是一大难题。
部分一:参考农业知识图谱样例寻找解决方案
- 其用Scrapy爬取实体
- 远程监督
- 从特定语句结构中获取知识
- 关系抽取部分
对该图谱已有数据的relation字段做了频率统计:
共出现了673种关系类型,高频和低频的粗略截图如下——
那么这些关系数据是怎么来的呢,从语句中人工标识出关系词、从固定结构中得到关系词么。如何获取合适的学科类语料,是目前要思考的。
- 其用Scrapy爬取实体
-