ACL 2018论文解读 | 基于路径的实体图关系抽取模型
-
A Walk-based Model on Entity Graphs for Relation Extraction
相关文献:
End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures——2016处理单关系
Attentive path combination for knowledge graph completion——2017Knowledge Graph
Deep Binaries: Encoding Semantic-Rich Cues for Efficient Textual-Visual CrossRetrieval——2017Knowledge Graph- 该模型用图的方式来表达一句话中多个实体间存在的多种关系,例如下图中“Toefting”既可以通过介词“in”以直接的方式与 “capital”建立关系,也可以通过“teammates”以间接的方式与“capital”建立关系:
在这篇论文中,句子中的实体被表示为图中的节点,实体间的关系则构成图的定向边,模型用一个实体及其上下文来初始化一条边,这样,任意两个实体之间就会形成由多个边连接组成的、长度不等的多条路径。模型通过迭代的方式,将两个实体之间多条路径逐渐聚合为一条直连路径(*2进行),该直连路径即对应于实体关系的最终表示。- 模型结构:
嵌入层(embedding layer),BLSTM 层(BLSTM Layer),边表示层(edge representation layer),路径融合层(walk aggregation layer),分类层(classification layer)。
-
要重点理解这篇论文中的向量表示及关系传递。
嵌入层:
生成维度分别为, , 向量,分别对应于单词、实体的语义类型、目标实体对的相对位置。单词和语义类型分别映射为实值向量 w 和 t。目标实体对的相对位置由句子中单词的位置来决定。
BLSTM层:
每个句子的词嵌入将输入倒一个双向长短期记忆网络(BLSTM)中,BLSTM 输出一个新的词嵌入 h,该词嵌入考虑了单词的序列信息。对于句子中的每一个单词 t,其在 BLSTM 中前向网络和反向网络的输出将被连接成一个维向量,即:
Edge Layer:
BLSTM的输出可以分为两部分:目标对的表示(图中target)、目标对特定上下文的表示(图中context)(包含矩阵中所有词的信息)。
(1)target
其中 I 表示组成实体 e 的单词的数量。
首先,为每对实体创建一个表示向量,然后构造每个实体对的上下文的表示向量。实体的表示向量由以下几部分连接而成:实体的 BLSTM 向量 ,实体类型的表示向量 ,以及实体 与 相对位置的表示向量 。类似的,对于实 体用 表示其与实体 的相对位置。最终,实体对可以表示为 和 。
(2)context
然后,构建上述实体对上下文的表示向量。对于目标实体对 (, ) 上下文的每一个单词 ,其表示向量由以下几部分连接而成:单词 的 BLSTM 向量 ,单词 的语义类型的表示向量 ,单词 与实体 、 的相对位置的表示向量( 与 的相对位置表示 , 与 的相对位置表示 。
综上,目标实体对的上下文单词的最终表示为。对于每一个句子,其所有实体对的上下文表示向量可以用一个 3 维矩阵 C 表示,矩阵的行和列分别对应实体,矩阵的深度对应上下文单词(图中context的4*3的方块,仅是一个实体对的上下文关系,3表示对应上下文单词数,未展示出实体个数)。
(3)引入注意力机制
其中, q∈表示可训练的注意力向量,α 表示加权向量, ∈ 为实体对上下文表示向量加权平均后的结果。
最后,将target与context 连接起来(∈R^{n_m})。通过使用一个全连接线性层∈ \(R^{{n_m}×{n_s}}\) ,其中 < ,以此来降低结果向量的维度。该向量即为节点 i 和 j 之间的边(或单位路径)。
Walker Layer:
为一个可训练的权值矩阵。等式 (2) 得到一个长度为 2λ 的路径,上标表示路径长度。
加入权重,表示路径的重要程度,不断乘以二直到路径长变为l。
分类层:
表示关系类型的总数目。 -
根据测试得到结论:
当句子中实体数量较少时,基于路径的图模型与普通模型相比优势并不明显,甚至还略显不如。但当句子中的实体数量较多时,基于路径的图模型与普通模型相比性能提升明显,说明基于路径的图模型适用于处理句子中实体数量较多的情况。
备注:
PHYS 地理位置关系
PER-SOC人物关系
ORG-AFF转喻关系
PART-WHOLE局部整体关系
OGE-AFF组织结构从属关系
ARE制造使用关系
GEN-AFF类属关系