目录

  1. 一些概念
    1. 指代概念
    2. 表述与实体
    3. 消解任务
  2. 各类方法
    1. 表述提取
    2. 消解
  3. CR——Multi sieve
    1. 想法
    2. 表述提取
    3. 消解
  4. CR——End2End
    1. 目标任务
    2. 论文方法
    3. 讨论
    4. 实验
  5. 可能有用的网址
  6. 私货

一、 一些概念

1. 指代概念

指代(coreference)为语言学中为了避免已经出现的字词重复出现在文章的句子上,导致语句结构过于赘述和语意不够清晰,所以使用代词(pronouns)或是普通名词(common nouns)来代替已经出现过的字词。

主要分为两类:回指共指

  • 回指:指句子中出现的短语存在着密切的语义关联性,指代同一事物。这种关系依赖上下文语义。其中被指向的语言单位被称为先行语
  • 共指:指句子中出现的短语指向真实世界的同一参照体,这种指代脱离上下文仍然成立。

    1
    2
    3
    4
    5
    6
    例如:
    回指:“小明很帅,同学们都很喜欢他。”
    共指:“特朗普就任总统以来第一次访问中国,他也将成为历史上第8位在任时访华的美国总统。”

    句子一中,'他'指代'小明','小明'是'他'的先行语。
    句子二中,'特朗普'和'美国总统'均指代在美国白宫坐着的那个人类。

2. 表述与实体

实体(Entity)是存在于客观世界的某种事物,是一种切实存在的概念。文本中会出现很多的名词短语以及代词,这些句子成分被称作表述(Mention),是一个事物在文本中的一种体现。

In coreference resolution, an entity is an object or set of objects in the world, while a mention is the textual reference to an entity (Doddington et al., 2004).

image

3. 任务描述

指代消解定义:为文中的表述确定其在真实世界中所指向实体的过程。

Coreference resolution, the task of identifying which mentions in a text refer to the same real world entity, is fundamentally a clustering problem.

研究步骤:

  1. Mention detection/表述提取——对于一段文本,抽取其中的表述。
  2. Coreference Resolution/指代消解——对上一步得到的表述进行分析,确定它们之间是否存在指代关系。

二. 各类方法

1. 表述提取

  • 利用句法分析树

    对输入的文本进行分词、词性标注等工作,以句子为单位构建句法树。对产生的句法树进行分析,获取其中的各个子树。选取所有的根节点为名词短语(或代词)的子树,抽取其中的词语组合成候选表述

    输入:

    (TOP(IP(NP(QP0) (NP1) (NP2)) (VP(PP3 (IP(VP(ADVP4) (VP5 (NP6))))) (VP7 (NP8))) 9))

    输出:

    0、1、01、5、45、8

    image

  • 利用神经网络

    对输入的文本进行分词工作,将每个词语作为一个基本单位进行保存。通过词嵌入(word embedding)构建包含更多词信息的词向量,然后输入双向LSTM网络获取对应的候选表述。(详见后文)

2. 消解

  • 语言学方法

    • Hobbs算法是最早的代词消解方法之一,主要依赖于句法解析树进行分析。
    • Grosz提出并发展起来的中心理论主要针对篇章结构中的焦点转移以及话语一致性等问题,常用于代词消解研究。
    • Raghunathan(2010)针对英文数据集构建了一种多轮迭代(MultiSieves)处理的方法,该方法根据准确率由高到低构建了多个筛子(sieve)用来为文本中的表述选取先行语。Multi-sieves论文:http://www.aclweb.org/anthology/D10-1048
  • 机器学习方法

    • 常见的四类框架包括实体-表述模型、表述对模型、表述排序模型和实体排序模型。
    • 其中表述对模型是最常见的模型之一,该模型将消解问题看作是表述对之间的二分类问题,判断系统当前处理的两个表述之间是否存在着共指关系。
    • 人们在此基础上进行修改,提出了实体-表述模型和表述排序模型。
    • 为了组合实体-表述模型和表述排序模型的优势,提出了实体排序模型。
    • 关于表述排序模型(Mention-Ranking)可以参考:Improving Coreference Resolution by Learning Entity-Level Distributed

三. CR——MultiSieves

0. 想法

通过某种方法从文本中获取表述,对这些表述进行多轮(sieve)处理,每一轮针对文本不同的特性,处理自己能识别出存在指代关系的表述,然后再将处理的结果传递给下一轮,通过多轮处理后,输出最终的消解结果。这种方案的优势在于构建了一个消解平台,后人可以在基础上很方便的增删改。

参考论文:

  • Raghunathan K, Lee H, Rangarajan S, et al. A Multi-Pass Sieve for Coreference Resolution.[C]// Conference on Empirical Methods in Natural Language Processing, EMNLP 2010, 9-11 October 2010, Mit Stata Center, Massachusetts, Usa, A Meeting of Sigdat, A Special Interest Group of the ACL. DBLP, 2011:492-501.
  • Lee H, Peirsman Y, Chang A, et al. Stanford’s multi-pass sieve coreference resolution system at the CoNLL-2011 shared task[C]// Fifteenth Conference on Computational Natural Language Learning: Shared Task. 2012:28-34.
  • Chen C, Ng V. Combining the best of two worlds: a hybrid approach to multilingual coreference resolution[C]// Joint Conference on EMNLP and CoNLL - Shared Task. Association for Computational Linguistics, 2012:56-63.
  • Chen C, Ng V. Chinese Noun Phrase Coreference Resolution: Insights into the State of the Art[C]// COLING 2012: Posters. 2013:185-194.

1. Mention Detection

使用了Stanford的工具包对文本进行预处理

使用示例:

image

image

image

输入

“小明很帅,同学们都很喜欢他”

得到:

明 小明 很帅 小明很帅 同学们 他

2. Coreference Resolution

  • 主要想法:
    通过某种方法从文本中获取表述,对这些表述进行多轮(sieve)处理,每一轮针对文本不同的特性,处理自己能识别出存在指代关系的表述,然后再将处理的结果传递给下一轮,通过多轮处理后,输出最终的消解结果。这种方案的优势在于构建了一个消解平台,后人可以在基础上很方便的增删改。

  • 参考论文:

    • Raghunathan K, Lee H, Rangarajan S, et al. A Multi-Pass Sieve for Coreference Resolution.[C]// Conference on Empirical Methods in Natural Language Processing, EMNLP 2010, 9-11 October 2010, Mit Stata Center, Massachusetts, Usa, A Meeting of Sigdat, A Special Interest Group of the ACL. DBLP, 2011:492-501.
    • Lee H, Peirsman Y, Chang A, et al. Stanford’s multi-pass sieve coreference resolution system at the CoNLL-2011 shared task[C]// Fifteenth Conference on Computational Natural Language Learning: Shared Task. 2012:28-34.
    • Chen C, Ng V. Combining the best of two worlds: a hybrid approach to multilingual coreference resolution[C]// Joint Conference on EMNLP and CoNLL - Shared Task. Association for Computational Linguistics, 2012:56-63.
    • Chen C, Ng V. Chinese Noun Phrase Coreference Resolution: Insights into the State of the Art[C]// COLING 2012: Posters. 2013:185-194.
  • 常用的sieves
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    1. Mention Detection Sieve 
    2. Discourse Processing Sieve
    3. Exact String Match Sieve
    4. Relaxed String Match Sieve
    5. Precise Constructs Sieve
    6-8. Strict Head Matching Sieves A-C
    9. Proper HeadWord Match Sieve
    10. Alias Sieve
    11. Relaxed Head Matching Sieve
    12. Lexical Chain Sieve
    13. Pronouns Sieve

4. CR——End2End

论文名城:End-to-end Neural Coreference Resolution

1. 目标任务

对于指代消解的任务定义为:
给定一段文本,找到其中名词/代词,判断这些词语是否存在着指代关系。

因此给定一个包含T个词语的文档D,通过某种方法从中得到N个span(即将这些span作为潜在的表述)。==论文目标是对于每个span 𝑖确定一个先行语y_𝑖==

𝑦_𝑖可能的取值集合: 𝒴(𝑖)={𝜖,1,…,𝑖−1}
𝜖:表示当前span没有先行语

其中span是由几个单词组成的一个单元,可以理解为一个短语/词组

2. 论文方法

image

顺序 任务 得到
1 对于每个单词,使用300维GloVe embedding和50维Turian embedding构成向量,进行正则化为单元向量。对于每个字符,通过一个卷积网络得到一个8维向量进行表示 word & character embedding 𝒙
2 将上一步中的向量表示输入双向LSTM网络,对文本中每个词进行编码和计算,得到span 𝑖的边界的表示向量x(𝑆𝑇𝐴𝑅𝑇(𝑖))^∗和x(𝐸𝑁𝐷(𝑖))^∗ 𝒙(𝑆𝑇𝐴𝑅𝑇(𝑖))^∗和𝒙(𝐸𝑁𝐷(𝑖))^∗
3 利用attention机制求取每个候选span的中心词𝑥 ̂_𝑖 span 𝑖 的中心词𝒙 ̂_𝒊
4 构建对于span的向量表示:𝑔𝑖=[x𝑆𝑇𝐴𝑅𝑇(𝑖)^ ∗,x𝐸𝑁𝐷(𝑖)^∗,𝑥 ̂𝑖,∅(𝑖)] span的向量表示𝑔_𝑖

image

顺序 任务 得到
1 对于每个span 𝑖,计算𝑠𝑚,其中s𝑚=𝜔𝑚∙[𝐹𝐹𝑁𝑁]𝑚 (𝑔𝑖) FFNN为一个非线性映射的前馈神经网络。s𝑚的意义在于对span空间进行剪枝,删去过多的表述。 𝑠_𝑚
2 对于span 𝑖,𝑗,计算𝑠a (𝑖,𝑗),其中𝑠_a (𝑖,𝑗)=𝜔𝑎∙[𝐹𝐹𝑁𝑁]𝑎 ([𝑔𝑖,𝑔𝑗,𝑔𝑖°𝑔𝑗,∅(𝑖,𝑗)]),s𝑎 的意义即span 𝑗是span 𝑖的先行词的score 𝑠_a (𝑖,𝑗)
3 计算S(𝑖,𝑗) S(𝑖,𝑗)

小结—计算流程

  1. word representation 𝒙
  2. LSTM 𝑥^∗
  3. head 𝑥 ̂_𝑖
  4. span representation 𝑔_𝑖
  5. Mention score s_𝑚(pruning)
  6. Antecedent score 𝑠_a (𝑖,𝑗)
  7. Coreference score s(𝑖,𝑗)

3. 讨论

1
2
3
4
5
6
- 以前方法的缺陷
在之前的各类方法中,大部分是依赖语法分析树和手工构建的各种特征。
存在以下问题:
1. 句法分析器的错误可能导致一连串的错误
2. 许多手工构建的规则对于新的语言或任务不具有普适性
- 本论文不依赖于句法分析器,不依赖于手工构建的各类规则

优点

  1. 本文的模型可以有效提取较长和复杂的词语作为潜在的表述
  2. Attention机制在确定指代关系的工作中有重要作用(通过查找中心词)
  3. 由双向LSTM提供的上下文信息在确定指代关系中也起到了重要作用

缺点

  1. 论文可以利用embeedding计算词语之间的相似度,这是基于传统的特征的系统所不能解决的。但是有时在embedding相似的情况下,但是语义并不相近。
  2. 本模型缺少关于现实世界的先验知识

改进

  • 将模型与外部世界的知识相结合
  • 用更大量的训练数据克服这些缺陷

5. 可能有用的Urls

网址 备注
https://github.com/Lynten/stanford-coren Stanfordcorenlp项目地址
https://stanfordnlp.github.io/CoreNLP/#download 最新版CoreNLP模型下载地址
https://stanfordnlp.github.io/CoreNLP/history.html CoreNLP模型历史版本下载地址
http://allennlp.org/ 一个基于PyTorch的新的开源NLP研究库。
https://github.com/kentonl/e2e-coref End2End CR论文的项目地址

6. 私货