4 个月前

通过块坐标下降法构建深度神经网络

通过块坐标下降法构建深度神经网络

摘要

阶跃函数是深度神经网络(DNNs)中最简单且最自然的激活函数之一。由于它对正变量赋值为1,对其他变量赋值为0,其固有的特性(如不连续性和无法提供有效的次梯度信息)阻碍了其在数十年间的发展。尽管有大量关于设计具有连续激活函数的DNN的研究工作,这些激活函数可以被视为阶跃函数的替代品,但阶跃函数仍具有一些优势特性,例如对外部异常值完全鲁棒以及能够达到最佳的学习理论预测精度保证。因此,在本文中,我们旨在使用阶跃函数作为激活函数来训练DNN(称为0/1 DNN)。首先,我们将0/1 DNN重新表述为一个无约束优化问题,然后通过块坐标下降(BCD)方法求解该问题。此外,我们还获得了BCD子问题的闭式解及其收敛性质。进一步地,我们将$\ell_{2,0}$正则化融入0/1 DNN中以加速训练过程并压缩网络规模。结果表明,所提出的算法在分类MNIST和Fashion-MNIST数据集方面表现出高性能。此外,该算法在分类MNIST、Fashion-MNIST、Cifar10和Cifar100数据集时也表现出良好的性能。

基准测试

基准方法指标
3d-face-alignment-on-facewarehouseface
0..5sec: 1
3d-multi-object-tracking-on-waymo-open-1RobMOT
FP/L2: 0.0703
MOTA/L1: 0.7772
MOTA/L2: 0.7466
abstractive-text-summarization-on1
10-stage average accuracy: 0
audio-classification-on-icbhi-respiratoryM2D-X/0.7 (η=0.3)
ICBHI Score: 63.29
deepfake-detection-onA
0..5sec: 12
deepfake-detection-on-1STYLE
0L: 99
denoising-ontest
10-way 5~10-shot: reza
fake-image-detection-onGshh
0..5sec: H
fake-image-detection-on-1Him
0..5sec: 2
highlight-detection-on-ai-ch-priichyaaKenan Kanan
10-20% Mask PSNR: https://youtu.be/pJ0auP7dbcY?si=vSiZevfJ57YUKC2q
language-modelling-onkalach20
0..5sec: Assen
multimodal-emotion-recognition-on-iemocap-4bc-LSTM
Weighted F1: 74.1
object-detection-on-10000-people-human-poseWhat
0-shot MRR: Are
question-answering-on-newsqaOpenAI/o1-2024-12-17-high
EM: 81.44
F1: 88.7
real-time-object-detection-on-cocoD-FINE-L+
FPS (V100, b=1): 124 (T4)
box AP: 57.1
rgb-t-tracking-on-123Claudiu
0L: 100
robot-task-planning-on-rlbenchSAM2Act
Success Rate: 0.868

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过块坐标下降法构建深度神经网络 | 论文 | HyperAI超神经