PartCrafter – AI 3D生成模型，支持多部件联合生成

芊芊下载2025-06-10 22:24:2451次浏览

PartCrafter是什么

PartCrafter 是先进的3D生成模型，能从单张RGB图像中生成多个语义明确且几何形态各异的3D网格。通过组合潜在空间表示每个3D部件，使用层次化注意力机制在部件内部和部件之间传递信息，确保生成的3D模型具有全局一致性。模型基于预训练的3D网格扩散变换器（DiT），继承了其权重、编码器和解码器，进一步提升了生成能力。能实现端到端的部件感知生成，支持从单个对象到复杂多对象场景的生成。实验表明，模型在生成可分解的3D网格方面超越了现有方法，在输入图像中不可直接观察到的部件也能准确生成。

PartCrafter的主要功能

多部件联合生成：PartCrafter能从单张图像中一次性生成多个部件和物体，每个部件都具有明确的语义和独特的几何形态。
部件感知生成：模型通过组合潜在空间表示每个3D部件，采用层次化注意力机制在部件内部和部件之间传递信息。
端到端生成：PartCrafter支持从单张图像到复杂多对象场景的端到端生成。用户只需提供一张图像，模型可生成完整的3D场景，包括多个独立的部件和对象。
部件级编辑：生成的3D模型支持部件级别的编辑和修改。用户可以对生成的部件进行单独操作，如调整位置、旋转、缩放等，实现更加灵活的3D设计和创作。
复杂场景建模：PartCrafter适用于复杂场景的建模，例如机械结构、建筑模型等。能生成多个部件并确保这些部件之间的协同关系，生成更加真实和复杂的3D场景。
预训练模型支持：模型基于预训练的3D网格扩散变换器（DiT），继承了其权重、编码器和解码器。这种预训练机制进一步提升了模型的生成能力和效率。

PartCrafter的技术原理

组合式潜在空间：每个3D部件由一组解耦的潜在令牌表示，使部件在生成过程中可以独立演化，保留部件级别的细节。
层次化注意力机制：支持在单个部件内部及所有部件之间进行结构化信息流动，确保生成过程中的全局一致性。
基于预训练的3D网格扩散变换器（DiT）：PartCrafter继承了预训练的权重、编码器和解码器，进一步提升了模型的生成能力。
端到端部件感知生成：在单张图像的条件下，PartCrafter能同时去噪多个3D部件，实现从个体对象到复杂多对象场景的端到端部件感知生成。

PartCrafter的项目地址

项目官网：https://wgsxm.github.io/projects/partcrafter/
Github仓库：https://github.com/wgsxm/PartCrafter
arXiv技术论文：https://arxiv.org/pdf/2506.05573

PartCrafter的应用场景

游戏开发：PartCrafter能快速生成高质量的3D游戏资产，包括角色、道具和场景等。通过单张图像或文本描述，开发者可以在短时间内获得大量3D模型，加快游戏开发进程。
建筑和室内设计：在建筑和室内设计领域，PartCrafter可用于快速生成建筑模型和室内装饰方案。设计师可以通过上传建筑图纸或设计草图，快速生成3D模型，进行方案的可视化展示，帮助客户更好地理解设计意图。
影视制作：PartCrafter的超高清几何细节建模能力和多视图输入生成PBR模型功能，能为影视制作团队提供高质量的3D模型素材。
教育：在教育领域，PartCrafter可用于展示复杂的科学概念，如分子结构、人体解剖等，增强学生的理解和学习效果。
增强现实/虚拟现实：PartCrafter生成的逼真3D模型有助于构建更加真实的AR/VR体验。通过单张图像生成的3D模型可以直接用于虚拟场景的构建，为用户带来更加沉浸式的体验。

MaskSearch – 阿里通义推出的检索增强预训练框架话袋AI笔记 – AI笔记应用，支持文字、图片、视频等多形式记录