4 个月前

CapeLLM:基于多模态大语言模型的无支持类别无关姿态估计

CapeLLM:基于多模态大语言模型的无支持类别无关姿态估计

摘要

类别无关的姿态估计(CAPE)传统上依赖于带有注释关键点的支持图像,这一过程往往繁琐且可能无法完全捕捉到不同物体类别之间的必要对应关系。近期的研究开始探索基于文本查询的方法,消除了对支持关键点的需求。然而,如何最优地利用文本描述关键点仍然是一个未充分研究的领域。在本工作中,我们引入了CapeLLM,这是一种新颖的方法,通过利用基于文本的多模态大语言模型(MLLM)来进行CAPE。我们的方法仅使用查询图像和详细的文本描述作为输入来估计类别无关的关键点。我们进行了广泛的实验,系统地探讨了基于大语言模型(LLM)的CAPE的设计空间,研究了选择最佳关键点描述、神经网络架构和训练策略等因素。得益于预训练MLLM的高级推理能力,CapeLLM展示了卓越的泛化能力和稳健性能。我们的方法在具有挑战性的1-shot设置下,在MP-100基准测试中达到了新的最先进水平,标志着类别无关姿态估计领域的重大进展。

基准测试

基准方法指标
category-agnostic-pose-estimation-on-mp100CapeLLM
Mean PCK@0.2 - 1shot: 92.60

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CapeLLM:基于多模态大语言模型的无支持类别无关姿态估计 | 论文 | HyperAI超神经