Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network 论文阅读 ACL

Background

论文动机

  • 文档级的关系抽取涉及到多种信息 (non-local/local/syntactic/semantic dependencies), 现有的方法不能充分地利用(exploit)these dependencies.

    • Local dependency <=> within sentence 句内依赖

      • Dependency parsing 依赖解析
      • Adequate for intra-sentence relations
    • Non-Local dependencies<=>across sentences 句间依赖

      • Co-reference 共指
      • Discourse dependencies
      • Required for inter-sentence relations

  • 不同的sentence有不同的 dependency tree.

论文贡献

  • 构建==GCNN-based model 捕获 localnon-local dependencies。==
    • GCNN : a labelled edge Graph CNN
  • 贡献了一个新的数据集
  • Effectiveness of local and non-local dependencies on inter-sentence pairs

Model

IDEA: Utilise local and non-local dependencies in combination.

  • Represent a textual snippet as a graph.

  • Words = nodes

    Edges =local,non-local dependencies

  • Incorporate ==GCNN for graph encoding==

  • Multi-instance Learning for concept-level relation extraction.

引申一个重要的定义:==Entity mentions==: we name the multiple occurrences of these entities in the document

我们在文档 t 上应用多实例学习来combine 所有的mention-level pairs,之后预测最终的关系类别(concept-level relation extraction)。

Input layer

对于每一个word i , 我们合并the word and position representations(relative positions to the first and second target entities 相对于第一个和第二个目标实体的相对位置 ):

如果一个entity有多个mention的话,那么就选择与当前word最近的mention来计算相对位置。

Graph Construction

图的构建由五大类特征构成,所以构建的图一共有5种边。由于边的类型不同,所以==GCNN构建的图属于异质网络图 。==

local dependencies:

  1. Syntactic dependency edge: (clues for intra-sentence relations) 句子内的句法依赖边。使用句子内的依存语法树,每种依存关系作为一种类型的边;

  1. Adjacent word edge: 对于同一个sentence,为了保持句内单词间的序列信息,连接当前word相邻的单词;

combine the next word and the previous word to the current word in order to encode some kind of sequential information into the model.

  1. Self-node edge: 自节点边,为了学习到自身的信息。

在模型中包含有关单词的本身信息

non-local dependencies:

  1. Coreference edge:共指边,代表两个指称描述同一个实体

  1. Adjacent sentence edge:将相邻句子的依存语法树==根节点连接==构成一种类型的边(the root of sentence)

GCNN Layer

GCNN使用的GCN和普通的GCN有一些不同,它只交互一阶相邻节点的信息,并且有K个块,==每个块针对一种边进行卷积操作==,最后将各个块的结果累加。

GCNN的整个处理过程其实可以看作是基于==5种关联类型构建了5个图==,分别进行图卷积操作,然后将5个图的结果累加。**(怎么叠加呢)**这样做的原因是不同的关联类型代表的含义是不同的,必须加以区分。(异质图?)GCNN最大的亮点就在这里,==通过分层巧妙的使用了多种关联关系。==

这里使用的GCNN与普通的GCN不同,这里在aggregate node representation的时候,只使用了其邻域的信息,并且对于不同类型的edge,分别使用GCN(毕竟GCN只能用于同质图),最终的结果是所有类型的graph的结果的加和。

A labelled edge GCNN,keeping ==separate parameters for each edge type.==

\mathbf{W}_{l(i, u)}^{k}\mathbf{b}_{l(i, u)}^{k},其中k表示k-th block for ==edge type l,== between nodes i and u .

Stack K GCNN blocks 目的:汇聚来自 distant neighbouring nodes的 information

In order to ==avoid over parameterization,==we tune the number of parameters and keep the top and keep most frequent edge types while merging all the remaining types as a single rare edge type.(有问题??作者的意思就是五个不同的W吗?那最后x的信息怎么汇聚呢?五个不同的x呢呀)

A:应该是直接叠加

Tune number of parameters keeping top-N most frequent type & merging rare

MIL-based Relation Classification

前提概要:Each target entity can have multiple mentions in a document,we employ a multi-instance learning (MIL)-based classification scheme to ==aggregate the predictions of all target mention pairs== using bi-affine pairwise scoring(为在一篇document中,每一个entity会有多个mention,我们希望能够去聚合target entity所有的mention,并通过bi-affine pairwise scoring对文章中出现的所以单词对进行打分,从而预测关系类别。bi-affine是一种self-attention编码器,可以一次计算出文档中所有mention之间的关系。。)

首先,==每个word都分别映射到两个独立的 latent 空间。==

\mathbf{W}^{(1)}\mathbf{W}^{(0)}是分别是2-layer FFNNs的参数。\mathrm{x}_{i}^{\text {head}}, \mathrm{x}_{i}^{\text {tail}} \in \mathbb{R}^{d}

得到节点的表示后使用多示例学习,将上一步得到的结果映射为两个值,这一步的操作和下一步紧密相关,两个值分别用于计算节点是头实体和尾实体时节点间的关系概率。这里多示例学习的原理类似Transformer中的多头注意力,为了捕捉更多样的特征。以关系分类的角度这样做也很合理,==因为关系三元组是有向的,节点作为主体和客体时使用的特征也应该不同。==

Aggregate mention pairs (x) —>>>>concept pair (e),combine information form multiple mention level pairs into a single concept level pair

\mathbf{R} \in \mathbb{R}^{d \times r \times d} is a learned bi-affine tensor with r (r is the number of relation categories)


Experiment

数据集:CDR、CHR (这种两个biochemistry领域的document-level 关系抽取数据集)

CDR&CHR

​ Statistics of the CDR and CHR datasets.

​ Performance on the CDR and CHR test sets in comparison

What is the optimal number of edge types ?

思考:

GCNN 中规中矩,没有特别出色的地方:

确确实实构建了异质图,但是却没有考虑到不同类型edge的作用;

logical reasoning几乎没有单独拿来讨论处理,纯靠GCNN(邻域聚合能推理个毛线?);

所有类型edge在构建的时候需要其他工具,错误肯定存在的;

对于word representation的表示没考虑到上下文,表示不够;

Exit mobile version