4 个月前

SeqGAN:基于策略梯度的序列生成对抗网络

SeqGAN:基于策略梯度的序列生成对抗网络

摘要

作为一种新的生成模型训练方法,生成对抗网络(Generative Adversarial Nets, GAN)通过使用判别模型来指导生成模型的训练,在生成实值数据方面取得了显著成功。然而,当目标是生成离散符号序列时,GAN 存在一定的局限性。主要原因是生成模型的离散输出使得从判别模型到生成模型的梯度更新变得困难。此外,判别模型只能评估完整的序列,而对于部分生成的序列,平衡其当前得分和未来得分(一旦整个序列生成完毕)则非易事。本文提出了一种称为 SeqGAN 的序列生成框架,以解决这些问题。将数据生成器建模为强化学习(Reinforcement Learning, RL)中的随机策略,SeqGAN 通过直接执行策略梯度更新绕过了生成器的不可微问题。强化学习的奖励信号来自 GAN 判别器对完整序列的评估,并通过蒙特卡洛搜索回传至中间的状态-动作步骤。广泛的实验表明,SeqGAN 在合成数据和实际任务中相对于强大的基线方法有显著改进。

代码仓库

GuyTevet/SeqGAN-eval
tf
GitHub 中提及
willspag/SeqGan
tf
GitHub 中提及
suhoy901/SeqGAN
pytorch
GitHub 中提及
TobeyYang/S2S_Temp
pytorch
GitHub 中提及
LiangqunLu/DLForChatbot
GitHub 中提及
bgenchel/MusicalSeqGAN
pytorch
GitHub 中提及
rupes438/CodeGen
GitHub 中提及
AWLyrics/SeqGAN_Poem
tf
GitHub 中提及
lina2360/HiSeqGan
tf
GitHub 中提及
chaneeh/SeqGAN_experiment
tf
GitHub 中提及
LantaoYu/SeqGAN
官方
tf
GitHub 中提及
desire2020/RankGAN
tf
GitHub 中提及
vedantc6/SeqGAN
tf
GitHub 中提及
TalkToTheGAN/REGAN
pytorch
GitHub 中提及

基准测试

基准方法指标
text-generation-on-chinese-poemsSeqGAN
BLEU-2: 0.738
text-generation-on-coco-captionsSeqGAN
BLEU-2: 0.831
BLEU-3: 0.642
BLEU-4: 0.521
BLEU-5: 0.427
text-generation-on-emnlp2017-wmtSeqGAN
BLEU-2: 0.859
BLEU-3: 0.6015
BLEU-4: 0.4541
BLEU-5: 0.4498

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SeqGAN:基于策略梯度的序列生成对抗网络 | 论文 | HyperAI超神经