3 个月前

自监督学习的矩阵信息论

自监督学习的矩阵信息论

摘要

最大熵编码框架为多种非对比学习方法(如SimSiam、Barlow Twins和MEC)提供了一个统一的视角。受该框架的启发,我们提出了一种新方法——Matrix-SSL,该方法基于矩阵信息论,将最大熵编码损失重新诠释为矩阵均匀性损失。此外,Matrix-SSL通过无缝引入矩阵对齐损失,进一步增强了最大熵编码方法,实现了不同分支间协方差矩阵的直接对齐。实验结果表明,在线性评估设置下,Matrix-SSL在ImageNet数据集上的表现优于当前最先进的方法;在MS-COCO数据集上的迁移学习任务中也取得了显著提升。具体而言,在MS-COCO上进行迁移学习时,我们的方法仅需400个训练周期,便在性能上超越此前的SOTA方法(如MoCo v2和BYOL)达3.3%,而后者通常需800个训练周期。此外,我们尝试将表示学习引入语言建模领域,通过使用矩阵交叉熵损失对一个70亿参数的模型进行微调,在GSM8K数据集上的表现相较标准交叉熵损失提升了3.1%。代码已开源,地址为:https://github.com/yifanzhang-pro/Matrix-SSL。

代码仓库

yifanzhang-pro/matrix-ssl
官方
pytorch
GitHub 中提及
huang-research-group/Matrix-SSL
pytorch
GitHub 中提及
yifanzhang-pro/matrix-llm
官方
GitHub 中提及

基准测试

基准方法指标
contrastive-learning-on-imagenet-1kResNet50
ImageNet Top-1 Accuracy: 73.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自监督学习的矩阵信息论 | 论文 | HyperAI超神经