6 个月前

多模态表征

Yuanmin Tang Xiaoting Qin Jue Zhang Jing Yu Gaopeng Gou Gang Xiong Qingwei Ling Saravan Rajmohan Dongmei Zhang Qi Wu

摘要

组合图像检索（Composed Image Retrieval, CIR）旨在根据参考图像并结合用户指定的文本修改，检索出与目标图像高度相似的结果，从而更精准地捕捉用户意图。现有的无训练零样本CIR（Training-Free Zero-Shot CIR, ZS-CIR）方法通常采用两阶段流程：首先为参考图像生成描述文本，再利用大语言模型进行推理以获取目标图像的描述。然而，这类方法普遍存在关键视觉细节丢失和推理能力受限的问题，导致检索性能不理想。为解决上述挑战，本文提出一种新颖的无训练单阶段方法——面向零样本CIR的单阶段反思式思维链推理（One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR, OSrCIR）。该方法通过多模态大语言模型在单阶段推理过程中有效保留关键视觉信息，避免了传统两阶段方法中的信息损失。此外，提出的反思式思维链（Reflective Chain-of-Thought）框架通过将操作意图与参考图像的上下文线索对齐，进一步提升了推理的可解释性与准确性。在多个任务上，OSrCIR相较于现有无训练方法实现了1.80%至6.44%的性能提升，刷新了零样本CIR的最新技术水平，显著增强了其在视觉-语言应用中的实用价值。相关代码将开源，地址为：https://github.com/Pter61/osrcir2024/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Yuanmin Tang Xiaoting Qin Jue Zhang Jing Yu Gaopeng Gou Gang Xiong Qingwei Ling Saravan Rajmohan Dongmei Zhang Qi Wu

摘要

组合图像检索（Composed Image Retrieval, CIR）旨在根据参考图像并结合用户指定的文本修改，检索出与目标图像高度相似的结果，从而更精准地捕捉用户意图。现有的无训练零样本CIR（Training-Free Zero-Shot CIR, ZS-CIR）方法通常采用两阶段流程：首先为参考图像生成描述文本，再利用大语言模型进行推理以获取目标图像的描述。然而，这类方法普遍存在关键视觉细节丢失和推理能力受限的问题，导致检索性能不理想。为解决上述挑战，本文提出一种新颖的无训练单阶段方法——面向零样本CIR的单阶段反思式思维链推理（One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR, OSrCIR）。该方法通过多模态大语言模型在单阶段推理过程中有效保留关键视觉信息，避免了传统两阶段方法中的信息损失。此外，提出的反思式思维链（Reflective Chain-of-Thought）框架通过将操作意图与参考图像的上下文线索对齐，进一步提升了推理的可解释性与准确性。在多个任务上，OSrCIR相较于现有无训练方法实现了1.80%至6.44%的性能提升，刷新了零样本CIR的最新技术水平，显著增强了其在视觉-语言应用中的实用价值。相关代码将开源，地址为：https://github.com/Pter61/osrcir2024/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供