文生 3D 任务中，Stable Diffusion 输出如何与 NeRF / SDF 重建方法结合？｜小米算法面经解析

60 秒回答模板

文生 3D 里，Stable Diffusion 通常不是直接输出一个 3D 模型，而是提供强大的 2D 图像先验。典型思路是先初始化一个 3D 表示，比如 NeRF、SDF、mesh 或混合表示；从随机相机视角渲染出 2D 图像；再用文本条件的 diffusion 模型判断这个渲染图朝哪个方向更像 prompt，对渲染结果产生梯度或蒸馏信号；梯度通过可微渲染反传，持续优化 3D 表示。NeRF 适合连续体积表示和视角渲染，常用于粗几何和外观优化；SDF 或 mesh 更适合明确表面、法线、几何约束和后续资产使用。工程难点是多视角一致性、Janus 多脸问题、几何和纹理纠缠、相机采样、优化速度和可编辑性。评估不能只看单张渲染图好不好，要看多视角一致、文本匹配、几何质量、纹理质量、网格可用性和人工偏好。

考点循环

难度 真实面经题

回答目标 讲清 2D 先验和 3D 表示优化

深入解析

Stable Diffusion 提供 2D 先验

Stable Diffusion 擅长从文本生成高质量 2D 图像，但它本身不直接给出可用 3D 几何。文生 3D 方法会把它当作文本到图像的先验或老师模型，用来告诉当前 3D 渲染图是否符合 prompt，而不是简单生成几张图片后拼成 3D。

3D 表示负责可渲染对象

需要先有一个可优化的 3D 表示，例如 NeRF 的体密度和辐射场、SDF 的隐式表面、DMTet/mesh 等显式或半显式网格。这个表示通过可微渲染器从任意相机视角渲染出图像，渲染图再接受 diffusion 先验的监督。

SDS 把 2D 监督传回 3D

常见核心是 score distillation 类方法：把当前 3D 表示渲染出的图像加噪，送入文本条件 diffusion 模型，利用模型预测的噪声或 score 形成优化方向，再反传到 3D 参数。这样不需要真实 3D 标注，也能用大规模 2D 文生图模型的先验优化 3D。

多视角一致性是关键

如果每个视角都只追求像一张好看的 2D 图，就容易出现正面背面不一致、多个脸、纹理漂移或几何空洞。工程上会通过相机采样、视角条件 prompt、法线和深度正则、对称约束、几何先验或两阶段优化来提高多视角一致性。

NeRF 和 SDF 取舍不同

NeRF 适合连续视角渲染和粗到细优化，但提取干净网格可能需要额外步骤，几何边界也可能不够锐利。SDF 或 mesh 更强调明确表面、法线和可导出资产，适合后续编辑、渲染和物理使用，但优化和拓扑变化更难。很多系统会先用 NeRF 类表示粗生成，再转 mesh 或 SDF 做细化。

评估要覆盖几何和资产质量

文生 3D 不能只看某个视角的漂亮渲染。要评估文本对齐、多视角一致、几何完整性、法线和深度合理性、纹理稳定性、渲染质量、网格可导出性、编辑可用性和人工偏好。实际项目还会看生成时间、显存、失败率和可控性。

易错点

说 Stable Diffusion 直接输出 NeRF 或 SDF，混淆 2D 先验和 3D 表示。
把文生 3D 讲成多张图片拼接，没有说明可微渲染和优化闭环。
只背 SDS 名词，不解释 diffusion 信号如何反传到 3D 参数。
忽略多视角一致性和 Janus 问题，只关注单视角图片质量。
把 NeRF、SDF、mesh 当成同一类表示，没有说明几何边界和资产导出的取舍。
评估只看文本相似度或渲染图好不好，不看几何、纹理、可编辑性和成本。

面试官追问

为什么不能直接用 Stable Diffusion 生成几张图再三维重建？

独立生成的多张图通常缺少严格相机关系和几何一致性，直接重建容易出现形状冲突。SDS 类方法是在同一个 3D 表示上从多视角共同优化。

Score distillation 的直观含义是什么？

把 diffusion 模型对图像是否符合文本的方向信息蒸馏给 3D 表示。当前渲染图哪里不像 prompt，就通过可微渲染把修正方向传回 3D 参数。

Janus 问题是什么？

它指生成物体可能在多个方向都长出正面或关键部位，例如多个脸。原因是 2D 先验强但缺少真正 3D 一致约束。

NeRF 结果为什么还要转 mesh 或 SDF？

NeRF 更适合渲染和体表示，很多下游需要可编辑、可导入引擎、可碰撞或可打印的表面模型。mesh/SDF 更适合作为最终资产。

如何提高多视角一致性？

可以改进相机采样、加入视角条件、使用深度/法线/轮廓正则、两阶段粗细优化、参考多视图生成或显式几何约束。

评估文生 3D 为什么不能只用 CLIP 分数？

CLIP 分数主要反映文本图像语义相似，不能充分衡量 3D 几何正确性、多视角一致性、表面质量和资产可用性。需要结合几何指标和人工评估。