4 个月前

从数据泛滥到数据管理:一种高效的基于文本的人脸搜索过滤-WoRA范式

从数据泛滥到数据管理:一种高效的基于文本的人脸搜索过滤-WoRA范式

摘要

在基于文本的人脸搜索研究中,数据生成已成为一种普遍做法,旨在解决隐私保护问题和手动标注的繁重任务。尽管理论上合成数据的数量可以无限增加,但科学难题依然存在:生成多少数据才能最有效地促进后续模型训练。我们观察到,在这些构建的数据集中,只有部分数据起到了决定性作用。因此,我们引入了一种新的过滤-无秩适应(Filtering-WoRA)范式,其中包含一个用于识别关键数据子集的过滤算法以及轻量级微调的WoRA(加权低秩适应)学习策略。该过滤算法基于跨模态相关性来移除大量粗略匹配的合成对。随着数据量的减少,我们无需对整个模型进行微调。因此,我们提出了一种WoRA学习策略,以高效地更新模型参数的最小部分。WoRA简化了学习过程,提高了从少量但强大的数据实例中提取知识的效率。广泛的实验验证了预训练的有效性,在具有挑战性的现实世界基准测试中,我们的模型实现了先进且高效的检索性能。特别是在CUHK-PEDES数据集上,我们在减少模型训练时间19.82%的情况下达到了具有竞争力的mAP值67.02%。

代码仓库

JT-Sun/Filtering-WoRA
pytorch
GitHub 中提及

基准测试

基准方法指标
nlp-based-person-retrival-on-cuhk-pedesFiltering-WoRA(Small)
R@1: 76.38
R@10: 93.49
R@5: 89.72
mAP: 67.22
text-based-person-retrieval-on-icfg-pedesFiltering-WoRA(Small)
R@1: 68.35
R@10: 87.53
R@5: 83.10
mAP: 42.60
text-based-person-retrieval-on-rstpreid-1Filtering-WoRA(Small)
R@1: 66.85
R@10: 91.10
R@5: 86.45
mAP: 52.49

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从数据泛滥到数据管理:一种高效的基于文本的人脸搜索过滤-WoRA范式 | 论文 | HyperAI超神经