4 个月前

FiLM:使用通用条件层进行视觉推理

FiLM:使用通用条件层进行视觉推理

摘要

我们介绍了一种适用于神经网络的通用调节方法,称为FiLM(Feature-wise Linear Modulation,特征级线性调制)。FiLM层通过基于调节信息的简单特征级仿射变换来影响神经网络的计算。我们展示了FiLM层在视觉推理任务中具有很高的有效性——这类任务需要多步骤、高层次的处理过程,而传统的深度学习方法由于没有显式建模推理过程,在此类任务上表现不佳。具体而言,我们在视觉推理任务中证明了FiLM层可以:1)将CLEVR基准测试的最先进错误率降低一半;2)以连贯的方式调制特征;3)对消融实验和架构修改具有鲁棒性;4)从少量示例甚至零样本中很好地泛化到具有挑战性的新数据。

代码仓库

GuessWhatGame/clevr
tf
GitHub 中提及
jjgo/hyperlight
pytorch
GitHub 中提及
ethanjperez/film
官方
pytorch
kdaip/stabletts
pytorch
GitHub 中提及
keonlee9420/Daft-Exprt
pytorch
GitHub 中提及
caffeinism/film-pytorch
pytorch
GitHub 中提及
CPJKU/audio_conditioned_unet
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-with-multi-modal-query-on-mitFiLM
Recall@1: 10.1
Recall@10: 38.3
Recall@5: 27.7
visual-question-answering-on-clevrCNN+GRU+FiLM
Accuracy: 97.7
visual-question-answering-on-clevr-humansCNN+GRU+FiLM
Accuracy: 75.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FiLM:使用通用条件层进行视觉推理 | 论文 | HyperAI超神经