百度知识图谱构建技术|《Mining Type Information from Chinese Online Encyclopedias》论文阅读



  • 论文地址

    1. Introduction

    1. 找到一种从中文百科中挖掘类型信息的方案,作为中文LOD的补充
    2. 使用attribute propagation algorithm 生成了很多属性
    3. 找到一种评估种类属性和类型属性的评估方法

    2. Approach

    工作流程:

    0_1559386531543_250b64f4-25a8-44fd-bdbf-993338573cba-image.png

    1. Explicit IsA Relation Detector从百科中的摘要和infobox中检测instanceOf关系,从类别系统中检测subclassOf关系
    2. 构建类别属性和实体属性,category with attributes 由被识别的instanceOf关系类别属性和实体属性组成

    2.1 IsA Relation Detector 启发式检测

    InstanceOf Relation Detection

    从infoboxex和abstracts中获取

    1. infobox中一些(attribute, value)对经常被放入实体集和概念集中。我们认为如一个atrribute存在于概念集并且实体集存在它的值(value),就存在InstanceOf关系
    2. 一般来说,一个实体的概括(abstracts)中的第一句话是这个实体的定义。我们对这句话用fudanNLP工具进行语法分析,如果这句话的主语是实体,谓语是"是(be)",并且宾语存在于概念集,我们认为这个主语和宾语有InstanceOf关系
    SubclassOf Relation Detection

    从中文百科的categories中获取

    1. 首先生成SubclassOf类别对,其形式为(sub-category, category),其次用两种启发式搜索从这些categories中搜索subclassOf关系
    2. 第一种搜索方法:根据相同的词汇开头声称对,如江苏学校 (school in Jiangsu) SubclassOf 中国学校 (school in China)(在中文中,用短语的最后一个名词)。先用FudanNLP分析短语(类似分词)。例:中国足球运动员->中国/足球/运动员->(中国足球运动员,运动员)
    3. 根据第一种搜索方法匹配出来的标签对,在zhishi.me中检索筛选

    2.2 Category Attributes Generator

    不同infoxbox的属性有很大差别,但是template(模版)量很少,并且种类属性的缺少也不利于推断,而且有很多没有属性的种类被弃用,所以作者用所有的category和subclassof关系组成了category graph,用种类图去生成属性,辨识InstanceOf和subclassOf的关系

    Category Graph: 种类图是DAG(有向无环图),G = (N, E), N是表示所有categories的节点集合。E表示所有边\(<c_1, c_2>\in E\),这些边代表category c1c_1 和category c2c_2 有subclassOf关系。

    属性传播算法: 属性传播算法在种类图上遵守以下规则:

    1. 如果种类cN c \in N 有从infobox 模版中的属性,这些属性不变
    2. 如果种类cN c \in N 有拥有属性的实体,当这些属性有一半以上的实体拥有时,这些属性应该被传播给c
    3. 如果种类cN c \in N 有拥有属性的子种类,当这些属性有一半以上的子属性拥有时,这些属性应该被传播给c
    4. 如果种类cN c \in N 的父种类有属性,那么这些属性应该继承给c

    具体流程:

    0_1559386723467_86abe6a3-93c6-4ec7-b0a0-80ef254f0a6e-image.png
    0_1559386764833_fc7ad270-89cd-4dfd-926a-859da58206f2-image.png
    0_1559386811200_553546f1-6f31-4504-8af2-1da1f53a8d32-image.png

    0_1559386847476_a873d0fb-f0a0-4c25-b3f0-eb2bfb76ba29-image.png

    2.3 Instance Type Ranker

    在执行属性传播算法后,我们获得了相关文章的实体,实体的属性和种类,并嵌入Instance Graph中,随后使用基于实体图的随机游走算法来去除数据噪音。

    Instance Graph: 为加权有向图. G=(N,E,P;φ)G = (N, E, P; φ) 其中

    0_1559386877920_c4bfc318-9f03-4e55-8d52-e5fd1dd57b55-image.png

    可以理解为:

    NN: 实体,实体的属性,实体的种类的并集

    EE: 给定实体和其属性的有向边,相应文章属性和种类的有向边的并集

    PP: 从给定实体游走到其性质的概率,从属性游走到种类的概率的并集

    0_1559386940610_bb1f5390-7f33-4bca-a711-8ce6792d930e-image.png
    如果属性的意义相同(生日/出生日期),可以用如下办法解决:

    对于给定实体ijNI i_j\in N_I , 如果一个属性akNA a_k \in N_A 不属于任何种类clNc c_l\in N_c , 但是cl c_l ak a_k 同义的属性,那么就用一条有向边把ak a_k cl c_l 连接起来。

    Graph-Based Random Walk: 假设一个属性,拥有它的种类越少,那么这个属性就越具有代表性。如果一个实体有这样的具有代表性的属性(只是一个种类的属性),那么这个实体的type就是这个种类。所以可以有如下定义:
    Weight(ai)=1Count(ai)Weight(a_i) = \frac{1}{Count(a_i)}
    其中ai a_i 为属性。

    随机游走过程从给定实体ijNIi_j \in N_I 开始,随机走到它的一个属性akNA a_k \in N_A ,其概率为pIAjkPIA p_{IA_{jk}} \in P_{IA} ,最后,从一个属性随机行走一步到一个和ij i_j 在文章同一页的种类clNc c_l\in N_c

    0_1559386972315_47b8ea2a-0abc-4cbc-9880-b7d5d8a533fb-image.png
    N为种类数量,Count(ak)Count^*(a_k)为从aka_k出来的有向边的数量。

    这样,随机游走更偏向于那些具有代表性的属性,我们就能得到正确的category。

    当从属性向种类游走时,如果种类对这个属性有相同的概率(例如Fig2中PAC1 = PAC2 = 0.5),定义一个种类作为实体的type的概率如下
    P(clij)=Count(cl)tP(c_l |i_j) = \frac{Count'(c_l)}{t}
    Count(cl)Count'(c_l) is the total number of times for clc_l as the destination and P(clij)P(c_l|i_j) converges after tt times graph walk.


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

Looks like your connection to Dian was lost, please wait while we try to reconnect.