从0开始GAN-8-RL in NMT

related papers:

暂时有个idea,根据那篇paper, beyond bleu 提出的metric来作为优化指标。好处是,对于每一个token生成的时候,不需要接着生成完整的句子就能得到有效的reward(这点需要用实验来验证)。这样对于每个句子中的token都会有对应的rewards,最好可以给每个rewards一个折扣因子,越靠前的系数越小,越靠后的系数越大。

RL in NMT

paper: On the Weaknesses of Reinforcement Learning for Neural Machine Translation

Motivation