
摘要
本文指出,风格迁移的标准评估方法存在若干显著问题。首先,风格准确性和语义保留的标准度量在不同运行中差异显著,因此必须报告所获得结果的误差范围。其次,从输入到输出的双语评估理解(BLEU)值和情感迁移准确性开始优化时,这两个标准度量的优化方向偏离了风格迁移任务的直观目标。最后,由于任务本身的特性,这两个度量之间存在特定的依赖关系,这种依赖关系很容易被操纵。鉴于这些情况,我们建议在基准测试中考虑输入与人工重写版本之间的BLEU值。此外,我们还提出了三种新的架构,在这一度量上超越了现有最先进水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-style-transfer-on-yelp-review-dataset | SAE+Discriminator | G-Score (BLEU, Accuracy): 74.56 |