6 个月前

摘要

多模态传感器（视觉、非视觉及可穿戴设备）能够提供互补信息，有助于构建鲁棒的感知系统，以实现对人类活动的准确识别。然而，由于多模态传感器数据具有异构特性，且人类活动类型多样，加之传感器数据常存在噪声和时间不同步等问题，从中提取鲁棒的多模态表征仍面临巨大挑战。为此，本文提出一种基于协作多任务学习的引导式多模态融合方法——MuMu，用于提取用于人类活动识别（HAR）的鲁棒多模态表征。MuMu采用辅助任务学习策略，针对具有共同特征的活动组（activity-group）提取特定于该组的特征表示。随后，利用这些活动组特异性特征，引导我们提出的“引导式多模态融合方法”（GM-Fusion），以实现互补性多模态表征的提取，该过程作为主任务。我们在三个典型活动识别数据集上，将MuMu与当前最先进的多模态HAR方法进行了对比评估。大量实验结果表明，MuMu在所有三个数据集上均显著优于所比较的各类方法。此外，消融实验进一步证实，MuMu相较于未采用引导式多模态融合的基线模型具有显著优势（p < 0.05）。最后，MuMu在含噪声和时间错位传感器数据下的稳健表现表明，该方法具备在真实应用场景中进行人类活动识别的可行性与实用性。

源 PDF