
摘要
基础模型在多个领域的性能和泛化能力方面表现出色。然而,大多数关于基础模型的研究主要集中在预训练阶段,微调时通常采用一种简单的策略,即最小化单一任务特定损失。然而,这种微调方法未能充分利用其他可能对目标任务有益的损失函数。因此,我们提出了一种名为MEta Loss TRansformer(MELTR)的插件模块,该模块能够自动且非线性地结合多种损失函数,通过辅助学习来帮助目标任务的学习。我们将辅助学习问题表述为一个双层优化问题,并基于近似隐式微分(AID)提出了一种高效的优化算法。为了评估我们的框架,我们将其应用于多种视频基础模型(UniVL、Violet 和 All-in-one),并在四个下游任务上展示了显著的性能提升:文本到视频检索、视频问答、视频字幕生成和多模态情感分析。我们的定性分析表明,MELTR 能够充分“转换”各个损失函数,并将它们“融合”成一个有效的统一损失函数。代码可在 https://github.com/mlvlab/MELTR 获取。
代码仓库
mlvlab/MELTR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multimodal-sentiment-analysis-on-cmu-mosi | UniVL + MELTR | Acc-2: 85.3 Corr: 0.789 F1: 85.4 MAE: 0.759 |
| video-captioning-on-msr-vtt-1 | UniVL + MELTR | BLEU-4: 44.17 CIDEr: 52.77 METEOR: 29.26 ROUGE-L: 62.35 |
| video-captioning-on-youcook2 | UniVL + MELTR | BLEU-3: 24.12 BLEU-4: 17.92 CIDEr: 1.90 METEOR: 22.56 ROUGE-L: 47.04 |
| video-retrieval-on-msr-vtt | All-in-one + MELTR | text-to-video R@1: 38.6 text-to-video R@10: 84.7 text-to-video R@5: 74.4 |
| video-retrieval-on-msr-vtt | VIOLET + MELTR | text-to-video Median Rank: 3 text-to-video R@1: 33.6 text-to-video R@10: 77.8 text-to-video R@5: 63.7 |
| video-retrieval-on-msr-vtt | UniVL + MELTR | text-to-video Median Rank: 4 text-to-video R@1: 28.5 text-to-video R@10: 67.6 text-to-video R@5: 55.5 |
| video-retrieval-on-msr-vtt-1ka | UniVL + MELTR | text-to-video Median Rank: 4 text-to-video R@1: 31.1 text-to-video R@10: 68.3 text-to-video R@5: 55.7 |
| video-retrieval-on-msr-vtt-1ka | All-in-one + MELTR | text-to-video R@1: 41.3 text-to-video R@10: 82.5 text-to-video R@5: 73.5 |
| video-retrieval-on-msr-vtt-1ka | VIOLET + MELTR | text-to-video Median Rank: 3 text-to-video R@1: 35.5 text-to-video R@10: 78.4 text-to-video R@5: 67.2 |
| video-retrieval-on-youcook2 | UniVL + MELTR | text-to-video Median Rank: 3 text-to-video R@1: 33.7 text-to-video R@10: 74.8 text-to-video R@5: 63.1 |
| visual-question-answering-on-msvd-qa-1 | VIOLET + MELTR | Accuracy: 0.517 |