3 个月前

HyT-NAS:面向边缘设备的混合Transformer神经架构搜索

HyT-NAS:面向边缘设备的混合Transformer神经架构搜索

摘要

视觉Transformer(Vision Transformers)使得基于注意力机制的深度学习(DL)架构在计算机视觉(CV)任务中取得了显著成果。然而,由于这类架构对计算资源需求较高,往往难以在资源受限的设备上部署。当前研究主要探索将手工设计的卷积网络与注意力机制相结合的混合模型,用于图像分类、目标检测等CV任务。本文提出一种高效且面向硬件的神经架构搜索方法——HyT-NAS,该方法支持混合架构,专为小型设备上的视觉任务而设计。HyT-NAS通过扩展搜索空间、优化搜索策略以及改进性能预测器,显著提升了现有先进硬件感知神经架构搜索(HW-NAS)的性能。实验结果表明,HyT-NAS在获得相近超体积(hypervolume)指标的前提下,所需训练评估次数不足原有方法的五分之一。所获得的最终架构在Visual Wake Words任务上,相比MLPerf标准的MobileNetV1,在准确率上提升了6.3%,同时参数量减少了3.5倍。

基准测试

基准方法指标
image-classification-on-visual-wake-wordsProxylessNAS
Accuracy: 86.55
image-classification-on-visual-wake-wordsMobileNetV1
Accuracy: 83.7
image-classification-on-visual-wake-wordsHyT-NAS-BA
Accuracy: 92.25
image-classification-on-visual-wake-wordsMobileNetV2 (x0.35)
Accuracy: 86.34

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HyT-NAS:面向边缘设备的混合Transformer神经架构搜索 | 论文 | HyperAI超神经