4 个月前

对比语言-图像预训练模型是零样本人类注视路径预测器

对比语言-图像预训练模型是零样本人类注视路径预测器

摘要

理解人类注意力背后的机制是视觉科学和人工智能领域的基本挑战。尽管已经提出了许多自由观看的计算模型,但对于任务驱动的图像探索机制知之甚少。为了解决这一差距,我们介绍了CapMIT1003数据库,该数据库收集了在描述任务中生成的字幕和点击依赖的图像探索数据。CapMIT1003基于著名的MIT1003基准测试中的相同刺激材料,这些材料在自由观看条件下有可用的眼动追踪数据,这为同时研究两种条件下的注意力机制提供了宝贵的机会。我们公开发布了这一数据集,以促进该领域的未来研究。此外,我们提出了一种新的零样本方法NevaClip,用于预测视觉扫描路径。NevaClip结合了对比语言-图像预训练(CLIP)模型和生物启发的神经视觉注意(NeVA)算法。通过将中心凹视觉刺激的表示与相关字幕的表示对齐,NevaClip模拟了人类的扫描路径,并采用梯度驱动的视觉探索来生成扫描路径。实验结果表明,NevaClip在描述任务和自由观看任务中均优于现有的无监督计算模型,在扫描路径合理性方面表现突出。进一步的研究显示,当使用错误或误导性的字幕对NevaClip进行条件约束时,其行为变得随机,突显了字幕引导在决策过程中的重要作用。这些发现有助于更好地理解指导人类注意力的机制,并为开发更复杂的计算方法铺平道路,这些方法可以整合下游任务的直接自上而下的指导来进行扫描路径预测。

基准测试

基准方法指标
scanpath-prediction-on-capmit1003G-Eymol
SBTDE: 0.34
scanpath-prediction-on-capmit1003NevaClip
SBTDE: 0.38

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对比语言-图像预训练模型是零样本人类注视路径预测器 | 论文 | HyperAI超神经