Command Palette
Search for a command to run...
将视觉 Transformer 扩展到220亿参数
将视觉 Transformer 扩展到220亿参数
Chen et al.
摘要
Transformer 的扩展推动了语言模型能力的突破。目前,最大的大规模语言模型(LLMs)包含超过 1000 亿个参数。视觉 Transformer(ViT)将相同的架构引入图像和视频建模,但这些模型尚未成功扩展到类似的程度;最大的密集型 ViT 包含 40 亿个参数(Chen 等,2022)。我们提出了一种高效且稳定的 220 亿参数 ViT(ViT-22B)训练方法,并对生成的模型进行了多种实验。在下游任务中评估时(通常是在冻结特征上使用轻量级线性模型),ViT-22B 随着规模的增加表现出性能提升。我们还观察到了其他有趣的规模化优势,包括公平性和性能之间的改进权衡、在形状/纹理偏差方面达到人类视觉感知的最先进水平以及增强的鲁棒性。ViT-22B 展现了视觉领域实现“类似 LLM”的扩展潜力,并为实现这一目标提供了关键步骤。