6 个月前

多模态表征

自然语言处理

自然语言处理

Sahithya Ravi Aditya Chinchure Leonid Sigal Renjie Liao Vered Shwartz

摘要

近年来，学术界对解决需要模型超越图像内容本身进行推理的视觉问答（Visual Question Answering, VQA）任务的兴趣日益增长。本文聚焦于需要常识推理的问答问题。与以往通过静态知识库注入外部知识的方法不同，我们探索利用上下文感知的常识知识，采用已基于人工标注知识库训练的常识推理模型——Commonsense Transformer（COMET），来增强模型理解能力。为此，我们提出一种新方法，能够在预训练的视觉-语言-常识联合模型VLC-BERT中，同步生成、筛选并编码外部常识知识，结合视觉与文本线索进行联合建模。在知识密集型的OK-VQA与A-OKVQA数据集上的实验表明，VLC-BERT在性能上优于依赖静态知识库的现有模型。此外，通过深入分析，我们进一步揭示了哪些类型的问答问题能够从COMET提供的上下文化常识知识中获益，而哪些问题则难以从中受益。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

自然语言处理

自然语言处理

Sahithya Ravi Aditya Chinchure Leonid Sigal Renjie Liao Vered Shwartz

摘要

近年来，学术界对解决需要模型超越图像内容本身进行推理的视觉问答（Visual Question Answering, VQA）任务的兴趣日益增长。本文聚焦于需要常识推理的问答问题。与以往通过静态知识库注入外部知识的方法不同，我们探索利用上下文感知的常识知识，采用已基于人工标注知识库训练的常识推理模型——Commonsense Transformer（COMET），来增强模型理解能力。为此，我们提出一种新方法，能够在预训练的视觉-语言-常识联合模型VLC-BERT中，同步生成、筛选并编码外部常识知识，结合视觉与文本线索进行联合建模。在知识密集型的OK-VQA与A-OKVQA数据集上的实验表明，VLC-BERT在性能上优于依赖静态知识库的现有模型。此外，通过深入分析，我们进一步揭示了哪些类型的问答问题能够从COMET提供的上下文化常识知识中获益，而哪些问题则难以从中受益。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供