Direct3D:通过 3D 潜在扩散变换器实现可扩展图像到 3D 生成 (NeurIPS 2024)
我们引入了Direct3D,这是一种可扩展到自然输入图像的原生 3D 生成模型,无需多视图扩散模型或 SDS 优化。我们的方法包括两个主要组件:直接 3D 变分自动编码器(D3D-VAE)和直接 3D 扩散变换器(D3D-DiT)。D3D-VAE 可有效地将高分辨率 3D 形状编码为紧凑且连续的潜在三平面空间。值得注意的是,我们的方法使用半连续表面采样策略直接监督解码后的几何形状,不同于以前依赖渲染图像作为监督信号的方法。D3D-DiT 对编码的 3D 潜在特征的分布进行建模,专门用于融合三平面潜在特征图的位置信息,从而实现可扩展到大规模 3D 数据集的原生 3D 生成模型。此外,我们引入了一种创新的图像到 3D 生成流程,结合了语义和像素级图像条件,使模型能够生成与提供的条件图像输入一致的 3D 形状。大量实验证明了我们的大规模预训练 Direct3D 优于以前的图像到 3D 方法,实现了显著更好的生成质量和泛化能力,从而为 3D 内容创建建立了新的最先进水平。