对建立知识图谱语料库的调研



  • 建立知识图谱时,若使用有监督学习的方法进行关系提取,人工标注训练样本成本巨大,如何获取领域知识、如何获得足够多的高质量训练样本是一大难题。

    部分一:参考农业知识图谱样例寻找解决方案

    • 其用Scrapy爬取实体
      0_1558282668604_1a7b9873-0765-417a-bad3-902a4d4bb7f3-image.png
    • 远程监督
      0_1558282844301_85907be7-c0d7-46f1-9fad-33efc922ab37-image.png
    • 从特定语句结构中获取知识
      0_1558283011807_6d66f265-d5dc-49da-9222-6260c055cb56-image.png
    • 关系抽取部分
      对该图谱已有数据的relation字段做了频率统计:
      共出现了673种关系类型,高频和低频的粗略截图如下——
      0_1558351988545_aa9952c3-caeb-4295-aa2b-346d3f41bc20-image.png
      0_1558352011586_91eaaa4b-a73a-4f7c-a633-9f600ccae145-image.png
      那么这些关系数据是怎么来的呢,从语句中人工标识出关系词、从固定结构中得到关系词么。如何获取合适的学科类语料,是目前要思考的。



 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

与 Dian 的连接断开,我们正在尝试重连,请耐心等待