6 个月前

计算机视觉

Di Wang Qiming Zhang Yufei Xu Jing Zhang Bo Du Dacheng Tao Liangpei Zhang

摘要

大规模视觉基础模型在自然图像的视觉任务中取得了显著进展，其中视觉Transformer因其良好的可扩展性和表征能力成为主流选择。然而，针对遥感（Remote Sensing, RS）领域的大型模型尚未得到充分探索。本文采用参数量约为1亿的纯视觉Transformer架构，首次尝试构建专为遥感任务设计的大规模视觉模型，并系统研究此类大模型在遥感场景下的表现。为应对遥感图像中目标尺寸大且方向任意的挑战，我们提出一种新型的旋转变尺寸窗口注意力机制（rotated varied-size window attention），替代Transformer中的原始全局注意力机制。该方法在显著降低计算开销与内存占用的同时，通过从生成的多样化窗口中提取丰富的上下文信息，有效提升了目标的表征能力。在目标检测任务上的实验结果表明，所提模型在DOTA-V1.0数据集上达到了81.24%的mAP，优于所有现有先进方法。此外，模型在下游的分类与分割任务中也展现出与现有先进方法相当甚至更优的性能。进一步实验还验证了该模型在模型迁移过程中具备更低的计算复杂度和更高的数据效率优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Di Wang Qiming Zhang Yufei Xu Jing Zhang Bo Du Dacheng Tao Liangpei Zhang

摘要

大规模视觉基础模型在自然图像的视觉任务中取得了显著进展，其中视觉Transformer因其良好的可扩展性和表征能力成为主流选择。然而，针对遥感（Remote Sensing, RS）领域的大型模型尚未得到充分探索。本文采用参数量约为1亿的纯视觉Transformer架构，首次尝试构建专为遥感任务设计的大规模视觉模型，并系统研究此类大模型在遥感场景下的表现。为应对遥感图像中目标尺寸大且方向任意的挑战，我们提出一种新型的旋转变尺寸窗口注意力机制（rotated varied-size window attention），替代Transformer中的原始全局注意力机制。该方法在显著降低计算开销与内存占用的同时，通过从生成的多样化窗口中提取丰富的上下文信息，有效提升了目标的表征能力。在目标检测任务上的实验结果表明，所提模型在DOTA-V1.0数据集上达到了81.24%的mAP，优于所有现有先进方法。此外，模型在下游的分类与分割任务中也展现出与现有先进方法相当甚至更优的性能。进一步实验还验证了该模型在模型迁移过程中具备更低的计算复杂度和更高的数据效率优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供