3 个月前

YOLOv9:利用可编程梯度信息学习你想要学习的内容

YOLOv9:利用可编程梯度信息学习你想要学习的内容

摘要

当前的深度学习方法主要聚焦于如何设计最合适的损失函数,以使模型的预测结果尽可能接近真实标签(ground truth)。与此同时,还需设计合理的网络架构,以确保模型能够充分获取用于预测的必要信息。然而,现有方法往往忽视了一个关键事实:当输入数据经过逐层特征提取与空间变换时,大量信息会不可避免地丢失。本文深入探讨了深度网络中数据传输过程所引发的重要问题,即信息瓶颈(information bottleneck)与可逆函数(reversible functions)。为此,本文提出了“可编程梯度信息”(Programmable Gradient Information, PGI)的概念,以应对深度网络在实现多目标优化过程中所面临的多样化需求。PGI能够为目标任务提供完整的输入信息,用于计算损失函数,从而确保获得可靠的梯度信息,用于网络权重的更新。此外,本文还设计了一种新型轻量级网络架构——广义高效层聚合网络(Generalized Efficient Layer Aggregation Network, GELAN),该架构基于梯度路径规划思想构建。实验结果表明,GELAN在轻量级模型上显著提升了性能,充分验证了PGI的有效性。我们在MS COCO数据集上的目标检测任务中对所提出的GELAN与PGI进行了验证。结果表明,GELAN仅采用常规卷积操作,便实现了优于基于深度可分离卷积(depth-wise convolution)设计的当前最优方法的参数利用效率。PGI具有良好的通用性,适用于从轻量级到大型模型的多种网络结构。通过恢复完整的输入信息,PGI使得从零开始训练(train-from-scratch)的模型性能超越了依赖大规模预训练数据的当前最优模型。相关对比结果如图1所示。项目源代码已开源,地址为:https://github.com/WongKinYiu/yolov9。

代码仓库

WongKinYiu/YOLO
官方
pytorch
GitHub 中提及
henrytsui000/YOLO
pytorch
GitHub 中提及
wongkinyiu/yolov9
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
YOLOv9:利用可编程梯度信息学习你想要学习的内容 | 论文 | HyperAI超神经