3 个月前

Trans4Trans:面向透明物体分割的高效Transformer,助力视障人士在真实世界中导航

Trans4Trans:面向透明物体分割的高效Transformer,助力视障人士在真实世界中导航

摘要

常见的全玻璃幕墙及透明物体构成了建筑环境中的视觉障碍,妨碍低视力或盲人用户的移动通行。例如,玻璃门后方的路径虽实际存在,但若无法被正确感知与响应,则无法通行。然而,现有常规辅助技术极少涉及此类具有安全关键性的透明物体的分割任务。为解决这一问题,我们构建了一套可穿戴系统,集成了一种新型双头Transformer透明物体分割模型——Trans4Trans。该模型能够实现对一般物体及透明物体的精准分割,并支持实时导航功能,从而显著提升独行用户的行走安全性。特别地,我们提出的Transformer解析模块(TPM)所设计的两个解码器,能够有效实现来自不同数据集的联合学习。此外,基于对称式Transformer编码器与解码器结构的高效Trans4Trans模型,计算开销极低,可轻松部署于便携式GPU设备上。在Stanford2D3D与Trans10K-v2数据集的测试集上,该模型性能优于当前最先进方法,分别取得了45.13%和75.14%的平均交并比(mIoU)。通过在室内外多种场景下开展的多轮预测试及用户研究,本辅助系统的可用性与可靠性得到了充分验证。

代码仓库

jamycheung/Trans4Trans
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-eventscapeTrans4Trans
mIoU: 51.86
semantic-segmentation-on-trans10kTrans4Trans (M)
GFLOPs: 34.38
mIoU: 75.14%
semantic-segmentation-on-trans10kTrans4Trans (T)
GFLOPs: 10.45
mIoU: 68.63%
semantic-segmentation-on-trans10kTrans4Trans (S)
GFLOPs: 19.92
mIoU: 74.15%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Trans4Trans:面向透明物体分割的高效Transformer,助力视障人士在真实世界中导航 | 论文 | HyperAI超神经