4 个月前

一种用于序列预测的演员-评论家算法

一种用于序列预测的演员-评论家算法

摘要

我们提出了一种利用强化学习(RL)中的演员-评论家方法训练神经网络生成序列的方法。当前基于对数似然性的训练方法受到其训练模式与测试模式之间差异的限制,因为在测试时,模型必须根据之前的预测生成标记,而不是根据真实标记。为了解决这一问题,我们引入了一个评论家网络,该网络被训练用于在给定演员网络策略的情况下预测输出标记的价值。这使得训练过程更加接近测试阶段,并允许我们直接针对特定任务的评分指标(如BLEU)进行优化。关键在于,由于我们在监督学习环境中应用这些技术,而非传统的强化学习环境,因此我们将评论家网络基于真实输出进行条件化。实验结果表明,我们的方法在合成任务以及德英机器翻译任务中均能提高性能。我们的分析为这些方法应用于自然语言生成任务(如机器翻译、图像描述生成和对话建模)铺平了道路。

代码仓库

juliakreutzer/joeynmt
pytorch
GitHub 中提及
joeynmt/joeynmt
pytorch
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-iwslt2014-germanActor-Critic [Bahdanau2017]
BLEU score: 28.53
machine-translation-on-iwslt2015-englishRNNsearch
BLEU score: 25.04
machine-translation-on-iwslt2015-germanRNNsearch
BLEU score: 29.98

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于序列预测的演员-评论家算法 | 论文 | HyperAI超神经