6 个月前

摘要

事件相机（event cameras）是一种新型视觉传感器，能够以异步“事件”流的形式报告每个像素的亮度变化。相较于传统相机，事件相机具有高时间分辨率、高动态范围以及无运动模糊等显著优势。然而，事件仅捕捉视觉信号中的变化分量，难以有效编码场景的上下文信息。相比之下，传统相机采集的是绝对强度帧，能够提供更为丰富的场景表征。因此，两类传感器具有互补性。但由于事件数据具有异步特性，将其与同步图像融合仍面临挑战，尤其是在基于学习的方法中。这是因为传统的循环神经网络（RNNs）并未针对来自其他传感器的异步、非规则数据进行设计。为解决这一问题，我们提出了循环异步多模态网络（Recurrent Asynchronous Multimodal, RAM）网络，该模型将传统RNN扩展至能够处理来自多个传感器的异步与非规则数据。受传统RNN的启发，RAM网络维持一个可异步更新的隐藏状态，且可在任意时刻被查询以生成预测结果。我们将该新型架构应用于基于事件与帧的单目深度估计任务，在平均绝对深度误差指标上，相较当前最优方法实现了最高达30%的性能提升。为进一步推动事件数据驱动的多模态学习研究，我们发布了新数据集EventScape，该数据集在CARLA模拟器中采集，包含事件流、强度图像、语义标签及深度图等多模态信息。

源 PDF