6 个月前

计算机视觉

计算机视觉

Junghyun Cho Hyungjoo Jung Haesol Park Sithu Aung

摘要

多视角行人检测的主要挑战在于如何将各视角特有的特征整合到统一的表征空间中，以实现全面的端到端感知。以往的多视角检测方法主要致力于将透视视角特征投影至地面平面，从而构建场景的“鸟瞰图”（Bird's Eye View, BEV）表示。本文提出了一种简洁而高效的新架构，采用非参数化的三维特征提取策略。该策略直接从三维特征体中提取每个有效体素（voxel）对应的二维特征，有效缓解了以往方法中存在的特征损失问题。所提出的框架引入了三个新颖模块，旨在全面提升多视角检测系统的泛化能力。通过大量实验验证，该模型表现出显著优越性，不仅在常规场景下达到新的最先进性能，在场景泛化能力评估基准上也展现出突出表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Junghyun Cho Hyungjoo Jung Haesol Park Sithu Aung

摘要

多视角行人检测的主要挑战在于如何将各视角特有的特征整合到统一的表征空间中，以实现全面的端到端感知。以往的多视角检测方法主要致力于将透视视角特征投影至地面平面，从而构建场景的“鸟瞰图”（Bird's Eye View, BEV）表示。本文提出了一种简洁而高效的新架构，采用非参数化的三维特征提取策略。该策略直接从三维特征体中提取每个有效体素（voxel）对应的二维特征，有效缓解了以往方法中存在的特征损失问题。所提出的框架引入了三个新颖模块，旨在全面提升多视角检测系统的泛化能力。通过大量实验验证，该模型表现出显著优越性，不仅在常规场景下达到新的最先进性能，在场景泛化能力评估基准上也展现出突出表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供