3 个月前

示例级路由模型中的多样性与深度

示例级路由模型中的多样性与深度

摘要

路由模型(routing models)作为一种条件计算形式,通过在大型网络中仅激活部分组件来处理输入样本,近年来展现出良好的性能。然而,令人意外的是,现有的路由模型普遍缺乏一些关键特性,例如架构多样性以及大量路由决策的能力。架构多样性与路由深度的增加均可显著提升路由网络的表征能力。本文旨在解决上述两个不足。我们探讨了架构多样性在路由模型中的重要性,并分析了在增加路由深度时,模型容量与优化难度之间的权衡关系。实验结果表明,为路由模型引入架构多样性可显著提升性能,在Omniglot数据集上使一个强基准模型的误差率降低35%。然而,当进一步扩展路由深度时,我们发现现代路由技术在优化方面面临显著挑战。最后,本文总结了实验中的正负两方面结果,并为未来研究方向提出建议。

基准测试

基准方法指标
multi-task-learning-on-omniglotMixture-of-Experts
Average Accuracy: 92.19

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
示例级路由模型中的多样性与深度 | 论文 | HyperAI超神经