HyperAIHyperAI

Command Palette

Search for a command to run...

ArtLLM: 通过 3D LLM 生成关节化资产

Penghao Wang Siyuan Xie Hongyu Yan Xianghui Yang Jingwei Huang Chungao Guo Jiayuan Gu

摘要

为游戏、机器人技术和模拟任务创建交互式数字环境,依赖于具备关节连接(articulated)特性的 3D 物体,其功能性源于其部件几何形状与运动学结构(kinematic structure)。然而,现有方法仍存在根本性的局限:基于优化的重建方法需要针对单个物体进行缓慢的关节拟合,且通常只能处理结构简单的单关节物体;而基于检索的方法则是从固定的库中组装部件,这导致了几何形状的重复性以及泛化能力差的问题。为了应对这些挑战,我们推出了 ArtLLM,这是一个能够直接从完整 3D 网格(meshes)生成高质量关节连接资产(articulated assets)的新型框架。其核心是一个 3D 多模态大语言模型(multi-modal large language model),该模型是在一个大规模关节连接数据集上训练而成的,该数据集由现有的关节连接数据集和程序化生成的物体共同构建而成。与以往的工作不同,ArtLLM 能够以自回归(autoregressively)的方式预测变数量的部件和关节,并从物体的点云(point cloud)中以统一的方式推断其运动学结构。这种具备关节感知能力的布局(articulation-aware layout)随后作为条件约束 3D 生成模型,从而合成高保真度的部件几何形状。在 PartNet-Mobility 数据集上的实验表明,ArtLLM 在部件布局准确性和关节预测方面均显著优于目前最先进的方法(state-of-the-art),同时对真实世界物体具有强大的泛化能力。

一句话总结

ArtLLM 是一个新颖的框架,通过利用 3D 多模态大语言模型,从点云中自回归地预测可变数量的部件(parts)和关节(joints),从而生成高质量的关节化 3D 资产。在 PartNet-Mobility 数据集上,该方法在部件布局准确度和关节预测方面优于现有最先进的方法。

核心贡献

  • 本文介绍了 ArtLLM,这是一个 3D 多模态大语言模型,通过从输入的点云中输出物体布局和运动学关系的 tokenized 蓝图,自回归地预测可变数量的 parts 和 joints。
  • 该框架将预测的关节感知布局与部件感知生成模型相结合,以合成高保真、新颖的部件几何结构,克服了基于检索的方法中存在的几何重复问题。
  • 该方法结合了基于物理约束的极限修正机制,以优化关节极限并减轻网格碰撞。在 PartNet-Mobility 数据集上的实验证明,该方法在部件放置、关节准确度和对现实世界物体的泛化能力方面表现卓越。

引言

为游戏、机器人技术和仿真创建交互式数字环境,需要同时具备功能性部件几何结构和准确运动学结构的关节化 3D 资产。现有的基于优化的方法通常受限于缓慢的单物体重建,且倾向于仅生成简单的单关节物体。同时,基于检索的方法依赖于固定的部件库,导致几何结构重复,且对新形状的泛化能力较差。通过利用 3D 多模态大语言模型从点云中自回归地预测部件布局和关节关系,可以填补这一空白。该框架生成一个 tokenized 的运动学蓝图,引导生成模型合成高保真、新颖的部件几何结构,从而产生具有物理基础且多样化的关节化资产。

数据集

  • 数据集组成与来源:通过聚合现有的关节化数据集和程序化数据构建了一个大规模数据集。集合包括来自 PartNet-Mobility 和 PhysX3D 的物体,并辅以使用 Infinite-Mobility 程序化方法生成的 12k 个合成资产。最终整理的数据集包含跨 43 个类别的 20,673 个关节化物体。

  • 数据处理与过滤

    • 过滤:移除了具有超过 20 个 joints 的物体,并排除了部件过小的类别(如键盘或遥控器)。此外,根据体积阈值过滤掉了按钮等微小组件。
    • 结构简化:为了降低预测复杂度,移除了所有固定关节并合并了其连接的连杆。螺纹关节(通常在 URDF 文件中由旋转关节和移动关节组合表示)被合并为单一的螺纹关节类型。
    • 归一化:所有关节参数和几何结构都被转换到全局坐标系中,并归一化到 [0.9,0.9][-0.9, 0.9][0.9,0.9] 范围内。
    • 法线修正:对于 PartNet-Mobility 中表面法线错误的模型,应用了水密重建(watertight reconstruction)以确保准确性。
  • 训练与评估

    • 训练:使用整理后的数据集进行多任务训练。在此过程中,点云被替换为由点云编码器生成的 point tokens。训练数据采用 ShareGPT 风格进行格式化,利用简洁的文本提示来区分任务,同时最大限度地减少 token 使用量。模型在连续值和离散值上均进行了训练。
    • 评估:使用 PartNet-Mobility 数据集进行评估。遵循 SINGAPO 划分,选择了 7 个类别(Storage, Table, Refrigerator, Dishwasher, Oven, Washer, 和 Microwave),包含 77 个留出的物体作为测试集。泛化能力通过现实世界图像进一步评估,包括测试集中未出现的类别的物体。

方法

提出了一个从点云生成关节化资产的框架,包含三个主要阶段:运动学结构预测、部件几何合成和物理极限修正。如下方框架图所示:

第一阶段利用一种新颖的 3D 关节语言模型 (ArtLLM) 自回归地预测物体的运动学结构。为了利用大语言模型 (LLMs) 的推理能力,将 3D 关节理解重新表述为语言建模问题。整个运动学结构,包括部件布局和关节参数,被表示为一个统一的离散 tokens 序列。输入是点云,通过 Point Transformer v3 编码器进行处理。为了弥合模态间隙,编码器特征通过位置嵌入进行增强,然后通过两层 MLP 进行投影,以与 Qwen3 0.6B 语言模型主干对齐。

为了确保训练期间的数值稳定性,对连续的几何和运动学参数采用了量化策略。对于部件的轴对齐包围盒 (AABB),坐标从 [1,1][-1, 1][1,1] 的归一化范围通过以下公式量化为每个轴 128 个离散区间:

c^min=(cmin+1)2×128,c^max=(cmax+1)2×128\hat { c } _ { \mathrm { m i n } } = \Big \lfloor \frac { ( c _ { \mathrm { m i n } } + 1 ) } { 2 } \times 1 2 8 \Big \rfloor , \hat { c } _ { \mathrm { m a x } } = \Big \lceil \frac { ( c _ { \mathrm { m a x } } + 1 ) } { 2 } \times 1 2 8 \Big \rceilc^min=2(cmin+1)×128,c^max=2(cmax+1)×128

包括原点和极限在内的关节参数也经历了类似的离散化。模型使用多任务和多阶段监督微调 (SFT) 策略进行训练,涉及部件布局预测、运动学预测和端到端关节化预测。这种方法将几何理解与运动学推理解耦,为模型建立了稳健的基础。

在第二阶段,预测的结构蓝图作为部件感知生成模型(具体为 XPart)的条件,用于合成高保真部件几何结构。为了防止当预测的包围盒未能完美包含真实几何结构时发生几何截断,实施了包围盒扩展步骤。输入云中任何未包含在预测框内的点都会根据欧氏距离分配到其最近的框中,随后扩展该框以紧密包围这些点。

最后一个阶段是物理约束的关节极限修正模块,旨在防止部件间的碰撞。由于 LLM 基于单一几何状态预测关节极限,生成的资产在运动过程中可能会发生碰撞。通过让子部件在其预测范围内运动,并计算与其他静态部件的碰撞体积来解决此问题。如下方图所示,通过碰撞体积相对于关节角度导数的剧烈尖峰可以识别出显著碰撞。随后在识别出的角度窗口内进行分层搜索,以找到精确的初始接触角度,并将其设置为精细化、无碰撞的关节极限。

实验

通过将该方法与最先进的关节化生成方法进行对比,并进行消融实验以验证单个模块的贡献,对该方法进行了评估。定性和定量评估表明,与经常在轴向对齐或几何错误方面遇到困难的基准模型相比,所提方法能更优地恢复准确的部件布局、关节类型和运动学层次结构。此外,real-to-sim 评估确认生成的资产忠实地保留了现实世界的关节化属性,使其适用于实际的机器人仿真任务。

通过消融实验评估了不同组件在多个指标上对模型性能的影响。结果表明,完整配置在大多数类别中实现了卓越的性能,特别是在部件布局和关节类型准确度方面。完整模型在部件布局 IoU、关节类型准确度和图准确度方面达到了最高性能。移除多任务学习或改变训练阶段会导致大多数关键指标下降。通过随机缩放和旋转进行数据增强被证明对于提高部件布局 IoU 至关重要。

在各种关节和部件预测指标上,将所提方法与几种基准方法进行了对比。结果显示,所提方法在大多数类别中优于现有模型,包括部件布局、关节类型准确度和层次结构建模,同时在推理过程中速度明显更快。与基准模型相比,所提方法在部件布局和关节原点预测方面实现了更优的性能。虽然一些基准方法在关节范围等特定领域表现出竞争力,但在关节轴和轴心误差指标方面普遍落后。与其他评估方法相比,所提方法显著减少了推理时间。

通过消融实验和对比分析,评估了单个模型组件的有效性以及相对于现有基准的整体性能。消融结果证实,多任务学习和特定的数据增强技术对于在部件布局和关节类型方面实现高准确度至关重要。此外,所提方法在提供比竞争方法快得多的推理速度的同时,展示了对层次结构和关节属性的卓越建模能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供