8 个月前

多模态表征

Jin-Hwa Kim* Yunji Kim Jiyoung Lee Kang Min Yoo Sang-Woo Lee

摘要

文本到图像生成和图像描述生成最近作为评估机器智能的新实验范式而崭露头角。这些任务在生成过程中预测连续量，并伴随采样技术，使得评估变得复杂且难以获得边缘分布。基于多模态生成评估利用视觉-语言预训练模型的最新趋势，我们提出了一种统一的度量方法——负高斯互信息（使用CLIP特征），并将其命名为互信息散度（Mutual Information Divergence，简称MID）。为了验证该方法的有效性，我们在文本到图像生成和图像描述生成任务中，通过精心生成的数据或人工标注的判断结果，广泛地将其与其他竞争性度量方法进行了比较。实验结果显示，提出的MID在多个基准测试中表现出一致性、样本经济性和对所利用CLIP模型的鲁棒性方面显著优于其他竞争方法。我们期待看到高斯互信息在多模态表示学习中的未被充分认识的影响以及基于这一新提议的未来研究工作。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Jin-Hwa Kim* Yunji Kim Jiyoung Lee Kang Min Yoo Sang-Woo Lee

摘要

文本到图像生成和图像描述生成最近作为评估机器智能的新实验范式而崭露头角。这些任务在生成过程中预测连续量，并伴随采样技术，使得评估变得复杂且难以获得边缘分布。基于多模态生成评估利用视觉-语言预训练模型的最新趋势，我们提出了一种统一的度量方法——负高斯互信息（使用CLIP特征），并将其命名为互信息散度（Mutual Information Divergence，简称MID）。为了验证该方法的有效性，我们在文本到图像生成和图像描述生成任务中，通过精心生成的数据或人工标注的判断结果，广泛地将其与其他竞争性度量方法进行了比较。实验结果显示，提出的MID在多个基准测试中表现出一致性、样本经济性和对所利用CLIP模型的鲁棒性方面显著优于其他竞争方法。我们期待看到高斯互信息在多模态表示学习中的未被充分认识的影响以及基于这一新提议的未来研究工作。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供