HyperAI

摘要

我们介绍了一种简单的方法——Token Merging（ToMe），用于在无需重新训练的情况下提高现有ViT模型的吞吐量。ToMe通过一种通用且轻量级的匹配算法逐步合并Transformer中的相似标记，该算法不仅与剪枝一样快速，而且更加准确。使用现成的ToMe，可以在图像上将最先进的ViT-L @ 512和ViT-H @ 518模型的吞吐量提高2倍，在视频上将ViT-L模型的吞吐量提高2.2倍，而每种情况下仅损失0.2-0.3%的准确性。此外，ToMe也可以轻松应用于训练过程中，实际上可以将MAE在视频上的微调训练速度提高至2倍。使用ToMe进行训练进一步减少了准确性的下降，使得ViT-B在音频上的吞吐量达到2倍，而mAP仅下降0.4%。从定性分析来看，我们发现ToMe能够在多个视频帧中将物体的部分合并为一个标记。总体而言，ToMe在图像、视频和音频方面的准确性和速度均具有竞争力。

摘要

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

摘要

用 AI 构建 AI

HyperAI Newsletters

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

摘要

用 AI 构建 AI

HyperAI Newsletters

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Token融合：更快的ViT

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Token融合：更快的ViT

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Token融合：更快的ViT

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

摘要

用 AI 构建 AI

HyperAI Newsletters