3 个月前

通过组合算法的反向传播:与投影的恒等性有效

通过组合算法的反向传播:与投影的恒等性有效

摘要

将离散求解器嵌入为可微分层,赋予了现代深度学习架构组合表达能力和离散推理能力。然而,这些求解器的导数通常为零或未定义,因此在基于梯度的学习中,必须引入有意义的替代机制。以往方法主要依赖于对输入进行扰动以平滑求解器、将求解问题松弛为连续优化问题,或采用插值损失曲面的技术,但这些方法通常需要额外的求解器调用,引入额外超参数,或牺牲性能。本文提出一种原理性方法,利用离散解空间的几何结构,在反向传播过程中将求解器视为负恒等映射,并进一步提供理论支持。实验结果表明,这种简洁且无需超参数的方法在多项任务中能够与此前更为复杂的算法相媲美,包括通过离散采样器的反向传播、深度图匹配以及图像检索等。此外,我们用一种通用的正则化策略替代了先前针对特定问题且依赖标签的边界机制,有效防止了代价坍缩(cost collapse)现象,显著提升了模型的鲁棒性。

代码仓库

khalil-research/pyepo
pytorch
GitHub 中提及

基准测试

基准方法指标
density-estimation-on-mnistIdentity
NLL (bits/dim): 0.134

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过组合算法的反向传播:与投影的恒等性有效 | 论文 | HyperAI超神经