论文笔记-Contextual Augmentation

paper 1

Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations

在 NLP 领域,数据增强比图像领域要复杂的多。它很难有一个统一的规则的去适用于各种 domain. 目前常用的方法是 基于 WordNet 的同义词替换,以及根据距离计算的词的相似度。但是,同义词是很少的,并且,一个词本身也是多义的,它在 WordNet 中的同义词也许并不适合当前的语境,而这一限制也是很难通过一个规则去限定。所以,传统的方法都很难发挥。

传统的数据增强方法:
- 基于规则,聚类,人工干预。 Wang and Yang(2015)
- 基于近义词 Character-level convolutional networks for text classification

作者提出了一种新的方法,基于语言模型的 contextual augmentation. 根据上下文预测得到的不同的词具有范式关系 paradigmatic relations. 更进一步的,为了让生成的词与当前句子的 label 是兼容的 (compatible),作者加入了 label-conditional.

根据上文预测 target position i \(w_i\), \(P(\cdot|S/\{w_i\})\). 加上 label 限制条件之后就是 \(P(\cdot|y, S/\{w_i\})\)

作者并不是直接使用 top-k. 而是利用的退火的方法,temperature parameter \(\tau\), 这样预测分布就是

\[P(\cdot|y, S/\{w_i\})^{1/\tau}\]

\(\tau \rightarrow \infty\) 时,那么对应的预测词分布是 uniform distribution. 当 \(\tau \rightarrow 0\) 时,预测得到的就是概率最大的词。我猜作者这样做的目的是让生成的词更丰富,避免单一化。

在不同任务上的对比实验,与 synonym 同义词替换进行的对比,分类模型都用的 CNN.

效果还可以,但是并不明显。而 w/synonym 反而会有反作用。。

其中某个样本的效果展示:

paper 2

Conditional BERT Contextual Augmentation
看完paper真的想吐槽下中国人写的论文真的给人一种粗制滥造的感觉。。尽管paper出来的很及时,与 Bert 结合也很赞,但是 。。。其实还可以好好写,还可以多分析分析,看 paper 都能感觉到一种为了发论文而发论文的感觉,我自己又何尝不是呢。。。

Bert 想对于 LSTM 更获得更深层的含义。

将 segmentation embedding 换成 label embedding. 然后使用预训练的 BERT 模型进行 fine-tune. 迭代直到收敛,生成新的句子后,在进行下游任务。

When the task-specific dataset is with more than two different labels,we should re-train a label size compatible label embeddings layer instead of directly fine-tuning the pre-trained one.
对于多标签任务,作者是这么说的,不太明白。