4 个月前

面向跨模态文本-分子检索的更好模态对齐研究

面向跨模态文本-分子检索的更好模态对齐研究

摘要

跨模态文本-分子检索模型旨在学习文本和分子模态之间的共享特征空间,以实现准确的相似度计算,从而在药物设计中快速筛选出具有特定性质和活性的分子。然而,先前的研究存在两个主要缺陷。首先,它们在捕捉模态共享特征方面不足,因为文本序列和分子图之间存在显著差异。其次,这些研究主要依赖对比学习和对抗训练来实现跨模态对齐,这两种方法主要关注一阶相似度,忽略了嵌入空间中可以捕捉更多结构信息的二阶相似度。为了解决这些问题,我们提出了一种具有双重改进的新型跨模态文本-分子检索模型。具体而言,在两个模态特定编码器的基础上,我们叠加了一个基于记忆库的特征投影器,该投影器包含可学习的记忆向量,以更好地提取模态共享特征。更重要的是,在模型训练过程中,我们为每个实例计算了四种相似度分布(文本到文本、文本到分子、分子到分子以及分子到文本的相似度分布),然后通过最小化这些相似度分布之间的距离(即二阶相似度损失)来增强跨模态对齐。实验结果和分析强有力地证明了我们模型的有效性。特别是,我们的模型达到了最先进的性能(SOTA),比之前报道的最佳结果提高了6.4%。

代码仓库

DeepLearnXMU/CMTMR
官方
pytorch

基准测试

基准方法指标
cross-modal-retrieval-on-chebi-20Song et al.
Hits@1: 56.5
Hits@10: 94.1
Mean Rank: 12.66
Test MRR: 70.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向跨模态文本-分子检索的更好模态对齐研究 | 论文 | HyperAI超神经