6 个月前

多模态表征

Kurt Shuster Eric Michael Smith Da Ju Jason Weston

摘要

近期在开放域对话代理领域的研究已表明，通过大幅增加预训练数据规模和模型参数量，可在模型的互动性与类人程度等指标上实现显著提升（Adiwardana 等，2020；Roller 等，2020）。然而，若要构建具备类人能力的智能代理，我们必须突破仅处理文本的局限，拓展至多模态能力。其中尤为关键的是，使代理具备视觉感知能力，并能够基于所见内容进行交流。为实现与人类开展多模态对话的目标，本文研究将当前最先进的开放域对话模型组件与最先进的视觉模型组件进行融合。我们系统地探索了多种图像融合策略，以及领域自适应的预训练与微调方法，结果表明，我们所构建的最佳模型在多模态对话任务中显著优于现有强基线模型，同时在纯文本对话任务中仍能保持与先前的 BlenderBot（Roller 等，2020）相当的性能表现。此外，我们在最终模型中进一步引入并整合了安全机制，实验结果表明，这些安全措施并未对模型的互动性等关键指标造成负面影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Kurt Shuster Eric Michael Smith Da Ju Jason Weston

摘要

近期在开放域对话代理领域的研究已表明，通过大幅增加预训练数据规模和模型参数量，可在模型的互动性与类人程度等指标上实现显著提升（Adiwardana 等，2020；Roller 等，2020）。然而，若要构建具备类人能力的智能代理，我们必须突破仅处理文本的局限，拓展至多模态能力。其中尤为关键的是，使代理具备视觉感知能力，并能够基于所见内容进行交流。为实现与人类开展多模态对话的目标，本文研究将当前最先进的开放域对话模型组件与最先进的视觉模型组件进行融合。我们系统地探索了多种图像融合策略，以及领域自适应的预训练与微调方法，结果表明，我们所构建的最佳模型在多模态对话任务中显著优于现有强基线模型，同时在纯文本对话任务中仍能保持与先前的 BlenderBot（Roller 等，2020）相当的性能表现。此外，我们在最终模型中进一步引入并整合了安全机制，实验结果表明，这些安全措施并未对模型的互动性等关键指标造成负面影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供