摘要
持续学习是人工神经网络领域的一个研究方向,旨在模拟人类终身学习的能力。尽管近年来相关研究取得了显著进展,但大多数方法仅依赖图像模态来完成增量图像识别任务。本文提出了一种新颖且高效的方法——跨模态交替学习与任务感知表征(Cross-modal Alternating Learning with Task-Aware representations, ALTA),充分利用视觉与语言模态信息,实现更高效的持续学习。为此,ALTA设计了一种跨模态联合学习机制,通过同步学习图像与文本表征,提供更有效的监督信号;同时,通过赋予任务感知表征以持续学习能力,有效缓解灾难性遗忘问题。此外,针对稳定性与可塑性之间的权衡困境,ALTA进一步提出一种跨模态交替学习策略,通过交替学习任务感知的跨模态表征,更精准地匹配不同任务间的图像-文本配对关系,从而进一步提升持续学习性能。我们在多个主流图像分类基准上开展了大量实验,结果表明,所提方法在多项指标上均达到当前最优水平。同时,系统的消融实验与可视化分析充分验证了该方法的有效性与合理性。ALTA的开源代码已发布于:https://github.com/vijaylee/ALTA。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| continual-learning-on-cifar100-10-tasks | ALTA-RN50 | Average Accuracy: 83.87 |
| continual-learning-on-cifar100-10-tasks | ALTA-ViTB/16 | Average Accuracy: 92.85 |
| continual-learning-on-cifar100-10-tasks | ALTA-RN101 | Average Accuracy: 84.77 |
| continual-learning-on-cifar100-10-tasks | ALTA-RN50x4 | Average Accuracy: 84.91 |
| continual-learning-on-tiny-imagenet-10tasks | ALTA-RN101 | Average Accuracy: 83.35 |
| continual-learning-on-tiny-imagenet-10tasks | ALTA-ViTB/16 | Average Accuracy: 89.80 |
| continual-learning-on-tiny-imagenet-10tasks | ALTA-RN50x4 | Average Accuracy: 84.73 |
| continual-learning-on-tiny-imagenet-10tasks | ALTA-RN50 | Average Accuracy: 81.07 |