
摘要
多模态学习在视频和文本数据上的应用已引起许多研究人员在各种研究任务中的广泛关注,包括文本到视频检索、视频到文本检索以及视频字幕生成。尽管已经提出了许多针对这些具有挑战性任务的算法,但大多数都是基于英语数据集开发的。尽管印尼语是世界上使用最广泛的语言之一,但在包含印尼语句子的多模态视频-文本研究方面进展仍然有限,这可能是因为缺乏公开的基准数据集。为了解决这一问题,我们通过将MSVD数据集中的英语句子翻译成印尼语句子,构建了首个公开的印尼语视频-文本数据集。利用我们的数据集,我们在三个任务上训练了原本为英语视频-文本数据集开发的神经网络模型,即文本到视频检索、视频到文本检索和视频字幕生成。近年来,针对视频-文本任务的神经网络方法通常使用主要在英语视觉-语言数据集上预训练的特征提取器。由于包含印尼语句子的预训练资源相对有限,这些方法在我们数据集上的适用性仍值得商榷。为了克服预训练资源不足的问题,我们采用了跨语言迁移学习的方法,利用在英语数据集上预训练的特征提取器,并在我们的印尼语数据集上对模型进行微调。实验结果表明,这种方法可以在所有指标上提高三个任务的性能。最后,我们讨论了使用该数据集进行未来研究的可能性,激发了印尼语多模态视频-文本任务领域的进一步研究。我们认为,我们的数据集和实验结果可以为社区提供宝贵的贡献。我们的数据集已在GitHub上发布。
代码仓库
willyfh/msvd-indonesian
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-video-retrieval-on-msvd-indonesian | X-CLIP (Cross-Lingual) | Mean Rank: 17.5 Median Rank: 3.0 R@1: 32.3 R@10: 74.9 R@5: 63.3 |
| video-captioning-on-msvd-indonesian | VNS-GRU (Cross-Lingual) | BLEU-4: 58.68 CIDEr: 126.65 METEOR: 40.33 ROUGE-L: 76.84 |
| video-retrieval-on-msvd-indonesian | X-CLIP (Cross-Lingual) | text-to-video Mean Rank: 17.5 text-to-video Median Rank: 3.0 text-to-video R@1: 32.3 text-to-video R@10: 74.9 text-to-video R@5: 62.3 video-to-text Mean Rank: 6.4 video-to-text Median Rank: 2.0 video-to-text R@1: 44.9 video-to-text R@10: 88.8 video-to-text R@5: 77.6 |