迁移学习系列-2-Combining semi-supervised learning with transfer learning

paper

Strong Baselines for Neural Semi-Supervised Learning under Domain Shift

motivation

这篇paper的工作就是提出了一个经典方法实现的strong baseline.他的motivation就是前面很多研究比如基于deep learning的,对比的经典算法都很weak,或者是在专有的数据集上跑(容易过拟合)。

对比的三种传统方法, self-traning, tritraining, tri-training with disagreement

self-training:

  1. 使用有标签的数据,训练一个模型
  2. 用这个模型去预测无标签的数据,得到对应样本属于某一类别的概率
  3. 选择一个阈值,大于这个阈值的样本,可以打上伪标签。但是通常来说,阈值不太好确定,所以可以使用相对阈值,也就是选取概率相对较高的 top N.

模型的缺点在于:如果预测错了某些样本,那么错误会累积并放大。

tri-training:

  1. 使用有标签的数据,训练三个模型 m1, m2, m3
  2. 使用 bootstrapping 的方法,sample部分无标签的数据,然后使用三个模型进行预测,当 m1 预测样本属于某一类的概率低时,而 m2, m3 预测样本属于这一类的概率高时,将这个样本打上伪标签,加入到 m1 的训练集中去
  3. 迭代这个过程,直到分类器不在变化,可以同时更新三个分类器?

motivation:模型应该增强它相对较弱的地方。其实也就是 ensamble 的 sense.

缺点:计算量太大, 耗费时间和空间

multi-task tritraining:

  1. 多任务训练,这里的任务其实可以看作是一致的,底层 encoder 层参数共享,softmax层,也就是 decoder 层参数不一致。
  2. 要尽可能让 m1, m2 具有差异性 diversity,加上了正则化项
  3. 模型 m3 只在伪标签数据上进行训练。其目的是让模型在 domain shift 情况下鲁棒性更强。

paper2

Semi-Supervised Sequence Modeling with Cross-View Training (EMNLP 2018)