从0开始GAN-8-RL in NMT

related papers:

for Neural Machine Translation](https://arxiv.org/pdf/1907.01752.pdf)

暂时有个idea,根据那篇paper, beyond bleu 提出的metric来作为优化指标。好处是,对于每一个token生成的时候,不需要接着生成完整的句子就能得到有效的reward(这点需要用实验来验证)。这样对于每个句子中的token都会有对应的rewards,最好可以给每个rewards一个折扣因子,越靠前的系数越小,越靠后的系数越大。

RL in NMT

paper: [On the Weaknesses of Reinforcement Learning

for Neural Machine Translation](https://arxiv.org/pdf/1907.01752.pdf)

Motivation

作者

Xie Pan

发布于

2019-10-11

更新于

2021-01-27

许可协议

评论