4 个月前

一种连续松弛的束搜索方法用于神经序列模型的端到端训练

一种连续松弛的束搜索方法用于神经序列模型的端到端训练

摘要

波束搜索是神经序列模型在测试时解码的一种理想选择,因为它有可能避免较简单的贪婪方法所犯的搜索错误。然而,这些模型的典型交叉熵训练过程并未直接考虑最终解码方法的行为。因此,对于通过交叉熵训练的模型,波束解码有时会比贪婪解码在测试性能上有所下降。为了训练能够更有效地利用波束搜索的模型,我们提出了一种新的训练方法,该方法专注于评估波束搜索输出的最终损失度量(例如汉明损失)。尽管这一“直接损失”目标定义明确,但其本身是非连续的,因此难以优化。因此,在我们的方法中,我们通过引入一种新颖的波束搜索解码过程的连续近似来形成一个次可微的目标函数。实验结果表明,优化这一新的训练目标在两个序列任务(命名实体识别和CCG超标签)上相比交叉熵训练的贪婪解码和波束解码基线方法取得了显著更好的效果。

基准测试

基准方法指标
motion-segmentation-on-hopkins155T-Linkage
Classification Error: 1.97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种连续松弛的束搜索方法用于神经序列模型的端到端训练 | 论文 | HyperAI超神经