论文笔记-constrast learning in NLP

paper list:

  • An efficient framework for learning sentence representations.
  • CLEAR: Contrastive Learning for Sentence Representation
  • Declutr: Deep contrastive learn- ing for unsupervised textual representations. arXiv
  • SimCSE: Simple Contrastive Learning of Sentence Embeddings
  • R-Drop: R-Drop: Regularized Dropout for Neural Networks
  • Coco-lm: Correcting and contrasting text sequences for language model pretraining.
  • Learning dense representations of phrases at scale.
  • An unsupervised sentence embedding method by mutual information maximization.
  • Representation degeneration problem in training natural language generation models
  • CosReg: Improving neural language generation with spectrum control.
  • CLAPS: Contrastive Learning with Adversarial Perturbations for Conditional Text Generation
  • LINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding
  • Adversarial PerturbationInterpretable Adversarial Perturbation in Input Embedding Space for Text
  • Contrastive Learning for Many-to-many Multilingual Neural Machine Translation

CLEAR

看图就能理解了。关键在于离散文本的 augmentation 如何实现的。

这样做的问题在于,对于离散的文本,删除一个词都可能改变整个句子的语义吧。这样继续作为正样本似乎有点问题。

simCSE

无监督的对比学习:

  • 构造正样本:two different dropout
  • 负样本: mini-batch中的其他样本

有监督的对比学习:利用了NLI的数据集,entailment pairs作为正样本对,contradiction pairs 作为负样本对。

R-Drop

同一组数据,经过两次网络。然后使得 $p(y|x, drop1), p(y|x, drop2)$ 两者的 kl 散度最小。

CosReg

paper: Improving neural language generation with spectrum control.

定义了representation degeneration problem. 生成模型预训练后的模型,不同的词的语言会集中到一个很小的空间内,因而降低了语义表示能力。

作者分析会产生这种现象的原因是,一个词的频率相比整个词表是很有限的。训练的过程中,当这个词作为label时,我们会增大其对应的最大似然,但同时,也在其他的cls-loss中我们也会降低这个词的似然。因此,所有的词都会以降低起其似然的方向推向negative方向。这就会导致上面说的问题。

作者将 word/category embedding 可视化得到如上图所示。

因而作者采取的方式增大这个cane的容量。

Then a straightforward approach is to improve the aperture of the cone which is defined as the maximum angle between any two boundaries of the cone. For the ease of optimization, we minimize the cosine similarities between any two word embeddings to increase the expressiveness.

u1s1 理论推导没太懂(果然我这辈子都发不了ICLR/ICML… 不过大概意思懂了,就是一个减小词之间相似度的正则化项。

CLASP

作者认为直接利用mini-batch的其他实例作为负样本太简单了,需要很大的batch size,否则学不到有用的信息。因此,作为提出了一种通过在hidden size上增加扰动的方法来构造正负样本。

正样本 Distant-Targets:增加较大的扰动,但是最大化其似然,保证语义与原句子语义一致。 在正梯度方向增加较大的扰动。

负样本 Imposters: 增加较小的扰动,但是最小化其似然,保证生成错误且较难分辨的样本。在负梯度方向增加较小的扰动。

作者

Xie Pan

发布于

2021-07-02

更新于

2021-07-06

许可协议

评论