ACL 2018论文解读 | 基于路径的实体图关系抽取模型



  • A Walk-based Model on Entity Graphs for Relation Extraction

    相关文献:
    End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures——2016处理单关系
    Attentive path combination for knowledge graph completion——2017Knowledge Graph
    Deep Binaries: Encoding Semantic-Rich Cues for Efficient Textual-Visual CrossRetrieval——2017Knowledge Graph

    • 该模型用的方式来表达一句话中多个实体间存在的多种关系,例如下图中“Toefting”既可以通过介词“in”以直接的方式与 “capital”建立关系,也可以通过“teammates”以间接的方式与“capital”建立关系:

    0_1558407394284_91d8ed15-0992-421d-bf88-a20586fa762f-image.png
    在这篇论文中,句子中的实体被表示为图中的节点,实体间的关系则构成图的定向边,模型用一个实体及其上下文来初始化一条边,这样,任意两个实体之间就会形成由多个边连接组成的、长度不等的多条路径。模型通过迭代的方式,将两个实体之间多条路径逐渐聚合为一条直连路径(*2进行),该直连路径即对应于实体关系的最终表示。

    • 模型结构:
      嵌入层(embedding layer),BLSTM 层(BLSTM Layer),边表示层(edge representation layer),路径融合层(walk aggregation layer),分类层(classification layer)。

    0_1558402817212_c2e32155-aaba-4dbe-837f-0c3428fe4b9c-image.png

    • 要重点理解这篇论文中的向量表示及关系传递。
      嵌入层
      生成维度分别为 nwn_{w},ntn_{t},npn_{p} 向量,分别对应于单词、实体的语义类型、目标实体对的相对位置。单词和语义类型分别映射为实值向量 w 和 t。目标实体对的相对位置由句子中单词的位置来决定。
      BLSTM层
      每个句子的词嵌入将输入倒一个双向长短期记忆网络(BLSTM)中,BLSTM 输出一个新的词嵌入 h,该词嵌入考虑了单词的序列信息。对于句子中的每一个单词 t,其在 BLSTM 中前向网络和反向网络的输出将被连接成一个 nen_e 维向量,即:
      0_1558444005517_6139b1e8-94c4-4251-b8f2-11e8f10f8a56-image.png
      Edge Layer:
      BLSTM的输出可以分为两部分:目标对的表示(图中target)、目标对特定上下文的表示(图中context)(包含矩阵中所有词的信息)。
      (1)target
      0_1558442505088_bace434b-4f17-49ac-92f7-fa37eb7e490b-image.png
      其中 I 表示组成实体 e 的单词的数量。
      首先,为每对实体创建一个表示向量,然后构造每个实体对的上下文的表示向量。实体eie_{i}的表示向量由以下几部分连接而成:实体的 BLSTM 向量eie_{i},实体类型的表示向量 tit_i,以及实体 eie_{i}eje_{j}相对位置的表示向量 pijp_{ij} 。类似的,对于实 eje_{j} 体用 pjip_{ji} 表示其与实体eie_{i}的相对位置。最终,实体对可以表示为 Vi=[ei;ti;pij]V_i=[e_i;t_i;p_{ij} ] Vj=[ej;tj;pji]V_j=[e_j;t_j;p_{ji} ]
      (2)context
      然后,构建上述实体对上下文的表示向量。对于目标实体对 (eie_{i},eje_{j}) 上下文的每一个单词 ωzω_z,其表示向量由以下几部分连接而成:单词 ωzω_z的 BLSTM 向量 eze_z,单词 ωzω_z 的语义类型的表示向量 tzt_z,单词 ωzω_z 与实体 eie_ieje_j的相对位置的表示向量(ωzω_zeie_{i} 的相对位置表示 pzip_{zi}ωzω_zeje_{j} 的相对位置表示 pzjp_{zj}
      综上,目标实体对的上下文单词的最终表示为 Vijz=[ez;tz;pzi;pzj]V_{ijz}=[e_z;t_z;p_{zi};p_{zj} ] 。对于每一个句子,其所有实体对的上下文表示向量可以用一个 3 维矩阵 C 表示,矩阵的行和列分别对应实体,矩阵的深度对应上下文单词(图中context的4*3的方块,仅是一个实体对的上下文关系,3表示对应上下文单词数,未展示出实体个数)。
      (3)引入注意力机制
      0_1558444251641_5be16d22-27c6-4445-a917-c6879bb086df-image.png
      其中, q∈Rnd,nd=ne+nt+2npR^{n_d} ,n_d=n_e+n_t+2n_p 表示可训练的注意力向量,α 表示加权向量, cijc_{ij}xndx^{n_d} 为实体对上下文表示向量加权平均后的结果。
      0_1558444292715_ed2faa61-9d78-449d-a048-a8bc9108fe15-image.png
      最后,将target与context 连接起来(∈R^{n_m})。通过使用一个全连接线性层Ws W_s\(R^{{n_m}×{n_s}}\) ,其中 nsn_s<nmn_m,以此来降低结果向量的维度。该向量即为节点 i 和 j 之间的边(或单位路径)。
      Walker Layer:
      0_1558444925537_fe65d54b-40cc-4a8d-aa17-94160523c935-image.png
      0_1558444950460_272916e1-1988-41ef-9582-6a3bfbfce330-image.png 为一个可训练的权值矩阵。等式 (2) 得到一个长度为 2λ 的路径,上标表示路径长度。
      0_1558445003508_62bfb237-2794-49d7-95b9-abc45be15c53-image.png
      加入权重,表示路径的重要程度,不断乘以二直到路径长变为l。
      分类层
      0_1558445094737_57cf6d33-5c85-4147-ac31-8a90ae683259-image.png
      0_1558445119579_8014d6fa-3f8e-4135-b9f3-f1d5c6ec828e-image.png nrn_r 表示关系类型的总数目。

    • 根据测试得到结论:
      当句子中实体数量较少时,基于路径的图模型与普通模型相比优势并不明显,甚至还略显不如。但当句子中的实体数量较多时,基于路径的图模型与普通模型相比性能提升明显,说明基于路径的图模型适用于处理句子中实体数量较多的情况

    备注:
    PHYS 地理位置关系
    PER-SOC人物关系
    ORG-AFF转喻关系
    PART-WHOLE局部整体关系
    OGE-AFF组织结构从属关系
    ARE制造使用关系
    GEN-AFF类属关系


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

Looks like your connection to Dian was lost, please wait while we try to reconnect.