6 个月前

多模态表征

Jie Lei Liwei Wang Yelong Shen Dong Yu Tamara L. Berg Mohit Bansal

摘要

为视频生成多句描述是图像字幕任务中最具挑战性的任务之一，因其不仅要求描述内容与视觉信息高度相关，还需保证段落内各句子之间在语篇层面具有良好的连贯性。针对这一目标，我们提出了一种名为记忆增强型循环Transformer（Memory-Augmented Recurrent Transformer, MART）的新方法。该方法通过引入一个记忆模块，对标准Transformer架构进行增强。该记忆模块能够基于视频片段和已生成的句子历史，生成一个高度凝练的记忆状态，从而有效辅助下一句子的预测（尤其在指代关系与重复性控制方面），进而促进生成更具连贯性的段落式字幕。在两个主流数据集ActivityNet Captions和YouCookII上进行的大量实验、人工评估及定性分析表明，相较于基线方法，MART生成的字幕在连贯性方面表现更优，重复性更低，同时仍能保持与输入视频事件的高度相关性。相关代码已开源，地址为：https://github.com/jayleicn/recurrent-transformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Jie Lei Liwei Wang Yelong Shen Dong Yu Tamara L. Berg Mohit Bansal

摘要

为视频生成多句描述是图像字幕任务中最具挑战性的任务之一，因其不仅要求描述内容与视觉信息高度相关，还需保证段落内各句子之间在语篇层面具有良好的连贯性。针对这一目标，我们提出了一种名为记忆增强型循环Transformer（Memory-Augmented Recurrent Transformer, MART）的新方法。该方法通过引入一个记忆模块，对标准Transformer架构进行增强。该记忆模块能够基于视频片段和已生成的句子历史，生成一个高度凝练的记忆状态，从而有效辅助下一句子的预测（尤其在指代关系与重复性控制方面），进而促进生成更具连贯性的段落式字幕。在两个主流数据集ActivityNet Captions和YouCookII上进行的大量实验、人工评估及定性分析表明，相较于基线方法，MART生成的字幕在连贯性方面表现更优，重复性更低，同时仍能保持与输入视频事件的高度相关性。相关代码已开源，地址为：https://github.com/jayleicn/recurrent-transformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供