
摘要
作为一种新的生成模型训练方法,生成对抗网络(Generative Adversarial Nets, GAN)通过使用判别模型来指导生成模型的训练,在生成实值数据方面取得了显著成功。然而,当目标是生成离散符号序列时,GAN 存在一定的局限性。主要原因是生成模型的离散输出使得从判别模型到生成模型的梯度更新变得困难。此外,判别模型只能评估完整的序列,而对于部分生成的序列,平衡其当前得分和未来得分(一旦整个序列生成完毕)则非易事。本文提出了一种称为 SeqGAN 的序列生成框架,以解决这些问题。将数据生成器建模为强化学习(Reinforcement Learning, RL)中的随机策略,SeqGAN 通过直接执行策略梯度更新绕过了生成器的不可微问题。强化学习的奖励信号来自 GAN 判别器对完整序列的评估,并通过蒙特卡洛搜索回传至中间的状态-动作步骤。广泛的实验表明,SeqGAN 在合成数据和实际任务中相对于强大的基线方法有显著改进。
代码仓库
GuyTevet/SeqGAN-eval
tf
GitHub 中提及
willspag/SeqGan
tf
GitHub 中提及
suhoy901/SeqGAN
pytorch
GitHub 中提及
TobeyYang/S2S_Temp
pytorch
GitHub 中提及
chung771026/Implement-seqGAN-with-Keras
GitHub 中提及
LiangqunLu/DLForChatbot
GitHub 中提及
Anjaney1999/image-captioning-seqgan
pytorch
GitHub 中提及
suragnair/seqGAN
pytorch
bgenchel/MusicalSeqGAN
pytorch
GitHub 中提及
rupes438/CodeGen
GitHub 中提及
medtray/SeqGAN-vs-MLE-vs-PG-BLEU-vs-ScheduleSampling
pytorch
GitHub 中提及
yuanfeisiyuetian/seqgan-modbusTCP
tf
GitHub 中提及
AWLyrics/SeqGAN_Poem
tf
GitHub 中提及
lina2360/HiSeqGan
tf
GitHub 中提及
chaneeh/SeqGAN_experiment
tf
GitHub 中提及
bgenchel/Reinforcement-Learning-for-Music-Generation
pytorch
GitHub 中提及
Bayesian-Razor/papernotes
GitHub 中提及
LantaoYu/SeqGAN
官方
tf
GitHub 中提及
desire2020/RankGAN
tf
GitHub 中提及
vedantc6/SeqGAN
tf
GitHub 中提及
TalkToTheGAN/REGAN
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-generation-on-chinese-poems | SeqGAN | BLEU-2: 0.738 |
| text-generation-on-coco-captions | SeqGAN | BLEU-2: 0.831 BLEU-3: 0.642 BLEU-4: 0.521 BLEU-5: 0.427 |
| text-generation-on-emnlp2017-wmt | SeqGAN | BLEU-2: 0.859 BLEU-3: 0.6015 BLEU-4: 0.4541 BLEU-5: 0.4498 |