An Analysis of BERT in Document Ranking

本节主要是简要讨论了文档检索的相关方法,然后讨论了BERT预训练语言模型在文档检索任务上的一些实验分析。

文档检索相关知识

目前文档检索的挑战主要有以下两点:

  • 如何构建函数或者选择合适的方法来进行文档检索
  • 如何确保大量文档的检索效率

之前的工作中,基于NN的主要有以下几个方法:

  • Representation-focused:DSSM(2013), CDSSM(2014), ARC-I(2014)
  • Interaction-focused: ARC-II(2014), DRMM(2016), K-NRM(2017)

这里提到了两个数据集:

  • Sogou-QCL:http://www.thuir.cn/sogouqcl/, 来自于搜索引擎搜狗的查询日志,数据总共由10个bz2类型的文件组成,压缩后约84GB。为了更好地方便研究者使用,我们为数据集中的所有查询-文档对计算了五种基于点击模型的相关性。每条查询记录了查询的文本、出现频率和多个文档。每个文档包括了文档的标题、全文内容、html源码、出现频率以及五种基于点击模型的相关性。
  • MS MARCO:https://microsoft.github.io/msmarco/, 是一个专注于深度学习搜索的数据集,是一个具有100,000个必应Bing问题和人工生成答案的问题回答数据集。在该网站也有不同人提交的结果排名。

BERT in document ranking

在BERT的中间层中,attention通常在[CLS],[SEP],句号等字符上,而不是(想象中的)高IDF的一些token,由此引出了这篇工作:

An Analysis of BERT in Document Ranking, http://www.thuir.cn/group/~mzhang/publications/SIGIR2020-ZhanJingtao.pdf (后续作者想继续在此方向进行研究,但是发现这个点已经也有人在进行相关的研究了)

作者用了三种不同的MASK方法进行试验:

  1. 删掉句号(效果损失很大)
  2. 句号用逗号替换(下降明显)
  3. attention mask(即正常计算attention但是在最后一步丢掉)

得到的结论主要有以下几个方面:

  • bert会将多余不需要的attention放在句号上
  • 对于document来说,会将document丢失的信息添加到query中
  • interaction 在2~5层及10层左右明显

最后作者给出了展望:

image


Advances in Personalized News Recommendation

Abstract: Online news services such as Microsoft News have gained huge popularity for online news
reading. However, since massive news articles are published every day, users of online news services
are facing heavy information overload. Therefore, news recommendation is an important technique for
personalized news services to improve the reading experience of users and alleviate information overload.
In this talk, I will introduce the story behind our largescale
news recommendation dataset named
MIND which was jointly released by MSRA and Microsoft News team. In addition, I will introduce
several existing news recommendation frameworks and algorithms, share our experience and findings on
language representation learning for this task, and discuss several possible directions for future research
efforts.

本节作者主要是推荐了比较多论文,受限于时间限制都没有展开介绍,下面记录介绍&提及的相关论文

  1. 【KDD2017】Embedding-based News Recommendation for Millions of Users, LINK

Okura S, Tagami Y, Ono S, et al. Embedding-based news recommendation for millions of users[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017: 1933-1942.

本篇是首个工业界的产出,虽然一般但是讨论十分充分,因此推荐

  1. 【WWW2018】DKN: Deep Knowledge-Aware Network for News Recommendation, LINK

Wang H, Zhang F, Xie X, et al. DKN: Deep knowledge-aware network for news recommendation[C]//Proceedings of the 2018 world wide web conference. 2018: 1835-1844.

有用到知识图谱来链接实体,使用实体信息增强文本的内容

  1. 【EMNLP2019】Neural News Recommendation with Heterogeneous User Behavior,微软,LINK

Wu C, Wu F, An M, et al. Neural News Recommendation with Heterogeneous User Behavior[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 4876-4885.

这里微软利用了每个平台的用户行为信息作为用户视角,进行整合再进行新闻推荐。当然这里微软能完成这份研究也和他本身有一个较强的生态也是息息相关的。

  1. 【KDD2019】NPA: Neural News Recommendation with Personalized Attention,LINK

Wu C, Wu F, An M, et al. NPA: neural news recommendation with personalized attention[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 2576-2584.

  • 对于同样的新闻不同的人可能有不同的喜好
  • 因此提升对新闻个性化建模

在推荐阶段,希望不同用户看到的内容的attention是不同的(个性化)

  1. 【ACL2019】Neural News Recommendation with Long- and Short-term User Representations, 微软,LINK

An M, Wu F, Wu C, et al. Neural news recommendation with long-and short-term user representations[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 336-345.

本论文讨论了如何刻画用户长期、短期的兴趣(比如用户买了一公斤洗发水可能短期内会对洗发水失去兴趣)

  1. 【IJCAI2020】User Modeling with Click Preference and Reading Satisfaction for News Recommendation,微软,LINK

Wu C, Wu F, Qi T, et al. User Modeling with Click Preference and Reading Satisfaction for News Recommendation[J].

本篇考虑了这么一个问题:点击不等于实际兴趣。比如遇到标题党的文章,用户被欺骗点击进去了但是这种点击并不能衡量用户的实际兴趣,本篇也考虑了用户的阅读时间等信息

  1. MIND:MIcrosoft News Dataset, 微软新闻数据集,工业级,英文,LINK