扩展阅读:

论文统计-ACL

2016

coref

pronoun

2017

coref

pronoun

2018

coref

pronoun

2019

coref

pronoun

2020

coref

pronoun

2021

coref

pronoun

论文统计-EMNLP

coref

pronoun

数据收集

  1. conll2012 数据
  2. 千言数据集:面向中文短文本的实体链指任务 数据
  3. CCKS 2021:面向通信领域的过程类知识抽取(二)事件共指消解任务 数据
  4. CLUEWSC2020 数据
  5. GAP-Google 数据

ontonotes数据处理

处理后: Link,或参考: Link(推荐)

开源项目整理

评价标准

以下内容来自于:Scoring Coreference Partitions of Predicted Mentions: A Reference Implementation


:给出标准的划分和结果划分。

image

Label={a,b,c},{d,e},{f,g,h} 
Resolution={a,b},{c,d,e},{f,g,i}
其中abc表示一个表述,用大括号表示一个实体。处于同一个大括号的表述属于同一实体。

MUC

  • Precision:指消解后的结果中,正确处理的表述占实际处理的表述的百分比
  • Recall:描述消解结果中正确处理的表述占数据集中所有待消解表述的百分比
$$Precision=\frac{\sum_{i}^{N_r}(|R_i|-p(R_i))}{\sum_{i}^{N_r}(|R_i|-1)}$$ $$Recall=\frac{\sum_{i}^{N_l}(|L_i|-p(L_i))}{\sum_{i}^{N_l}(|L_i|-1)}$$

其中$L_i$表示标记数据中第i个实体的情况,$R_i$表示消解结果中第$i$个实体。‘|’表示当前实体所包含的表述数量。计算准确率的公式中的$p(R_i)$是指消解结果中第$i$个实体中实际包含了多少个真实的实体,其中没有出现在标记数据中的独立表述,我们认为它是独立的一个实体。计算召回率的公式中的$p(L_i)$是指标记数据中的第$i$个实体被划分为多少个子类。在下图中我们用实线椭圆表示标记数据的实体类,用虚线椭圆表示消解结果中的实体类。

image

有:

$$Precision=\frac{(2-1)+(3-2)+(3-2)}{(2-1)+(3-1)+(3-1)}=0.6$$ $$Recall=\frac{(3-2)+(2-1)+(3-2)}{(3-1)+(2-1)+(3-1)}=0.6$$

BCUB

$$Precision=\frac{\sum_{i}^{N_l} \sum_{j}^{N_r}\frac{|{L_i}\cap{R_j}|^2}{|L_i|}}{\sum_{j}^{N_r}{|L_i|}}$$ $$Recall=\frac{\sum_{i}^{N_l} \sum_{j}^{N_r}\frac{|{L_i}\cap{R_j}|^2}{|R_j|}}{\sum_{j}^{N_r}{|R_j|}}$$