论文笔记-Contextual Augmentation

paper 1

Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations

在 NLP 领域,数据增强比图像领域要复杂的多。它很难有一个统一的规则的去适用于各种 domain. 目前常用的方法是 基于 WordNet 的同义词替换,以及根据距离计算的词的相似度。但是,同义词是很少的,并且,一个词本身也是多义的,它在 WordNet 中的同义词也许并不适合当前的语境,而这一限制也是很难通过一个规则去限定。所以,传统的方法都很难发挥。

传统的数据增强方法:

作者提出了一种新的方法,基于语言模型的 contextual augmentation. 根据上下文预测得到的不同的词具有范式关系 paradigmatic relations. 更进一步的,为了让生成的词与当前句子的 label 是兼容的 (compatible),作者加入了 label-conditional.

根据上文预测 target position i $w_i$, $P(\cdot|S/{w_i})$. 加上 label 限制条件之后就是 $P(\cdot|y, S/{w_i})$

作者并不是直接使用 top-k. 而是利用的退火的方法,temperature parameter $\tau$, 这样预测分布就是

$$P(\cdot|y, S/{w_i})^{1/\tau}$$

当 $\tau \rightarrow \infty$ 时,那么对应的预测词分布是 uniform distribution. 当 $\tau \rightarrow 0$ 时,预测得到的就是概率最大的词。我猜作者这样做的目的是让生成的词更丰富,避免单一化。

在不同任务上的对比实验,与 synonym 同义词替换进行的对比,分类模型都用的 CNN.

效果还可以,但是并不明显。而 w/synonym 反而会有反作用。。

其中某个样本的效果展示:

paper 2

Conditional BERT Contextual Augmentation

看完paper真的想吐槽下中国人写的论文真的给人一种粗制滥造的感觉。。尽管paper出来的很及时,与 Bert 结合也很赞,但是 。。。其实还可以好好写,还可以多分析分析,看 paper 都能感觉到一种为了发论文而发论文的感觉,我自己又何尝不是呢。。。

Bert 想对于 LSTM 更获得更深层的含义。

将 segmentation embedding 换成 label embedding. 然后使用预训练的 BERT 模型进行 fine-tune. 迭代直到收敛,生成新的句子后,在进行下游任务。

When the task-specific dataset is with more than two different labels,we should re-train a label size compatible label embeddings layer instead of directly fine-tuning the pre-trained one.

对于多标签任务,作者是这么说的,不太明白。

作者

Xie Pan

发布于

2018-12-27

更新于

2021-06-29

许可协议

评论