
摘要
时尚造型师长期以来在连接消费者需求与理想穿搭之间发挥着桥梁作用,而理想的穿搭往往涉及色彩、图案与材质之间复杂的搭配组合。尽管近年来时尚推荐系统在穿搭兼容性预测和互补单品检索方面取得了显著进展,但这些系统仍高度依赖用户预先选定的选项。为此,本文提出一种突破性的时尚推荐方法:基于文本的穿搭检索任务(text-to-outfit retrieval),该方法仅依据用户提供的文本描述即可生成完整的穿搭组合。我们的模型在三个语义层次——单品、风格与整体穿搭——上进行设计,各层次逐级聚合信息,从而根据文本输入生成连贯且合理的穿搭推荐。在此过程中,我们借鉴了对比语言-图像预训练模型(contrastive language-image pretraining)中的策略,有效应对穿搭集合中复杂的风格矩阵问题。在马里兰Polyvore和Polyvore Outfit数据集上的实验表明,该方法在文本到穿搭的检索任务中显著优于当前最先进的模型,充分验证了其在时尚推荐领域的有效性。本研究不仅开创了时尚推荐系统的新方向,更提出了一种通过文本描述精准捕捉个体风格偏好的新方法,具有重要的学术价值与应用前景。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| retrieval-on-polyvore | CLIP4Outfit | Recall@5: 7.59 |