真实面经题目 · 原创解析
文生 3D 任务中,Stable Diffusion 输出如何与 NeRF / SDF 重建方法结合?
这题考文生 3D 中 2D diffusion 先验和 3D 表示优化的结合,回答要讲清 SDS、多视角一致性、NeRF/SDF 取舍和评估。
真实面经题目 · 原创解析
这题考文生 3D 中 2D diffusion 先验和 3D 表示优化的结合,回答要讲清 SDS、多视角一致性、NeRF/SDF 取舍和评估。
文生 3D 里,Stable Diffusion 通常不是直接输出一个 3D 模型,而是提供强大的 2D 图像先验。典型思路是先初始化一个 3D 表示,比如 NeRF、SDF、mesh 或混合表示;从随机相机视角渲染出 2D 图像;再用文本条件的 diffusion 模型判断这个渲染图朝哪个方向更像 prompt,对渲染结果产生梯度或蒸馏信号;梯度通过可微渲染反传,持续优化 3D 表示。NeRF 适合连续体积表示和视角渲染,常用于粗几何和外观优化;SDF 或 mesh 更适合明确表面、法线、几何约束和后续资产使用。工程难点是多视角一致性、Janus 多脸问题、几何和纹理纠缠、相机采样、优化速度和可编辑性。评估不能只看单张渲染图好不好,要看多视角一致、文本匹配、几何质量、纹理质量、网格可用性和人工偏好。
Stable Diffusion 擅长从文本生成高质量 2D 图像,但它本身不直接给出可用 3D 几何。文生 3D 方法会把它当作文本到图像的先验或老师模型,用来告诉当前 3D 渲染图是否符合 prompt,而不是简单生成几张图片后拼成 3D。
需要先有一个可优化的 3D 表示,例如 NeRF 的体密度和辐射场、SDF 的隐式表面、DMTet/mesh 等显式或半显式网格。这个表示通过可微渲染器从任意相机视角渲染出图像,渲染图再接受 diffusion 先验的监督。
常见核心是 score distillation 类方法:把当前 3D 表示渲染出的图像加噪,送入文本条件 diffusion 模型,利用模型预测的噪声或 score 形成优化方向,再反传到 3D 参数。这样不需要真实 3D 标注,也能用大规模 2D 文生图模型的先验优化 3D。
如果每个视角都只追求像一张好看的 2D 图,就容易出现正面背面不一致、多个脸、纹理漂移或几何空洞。工程上会通过相机采样、视角条件 prompt、法线和深度正则、对称约束、几何先验或两阶段优化来提高多视角一致性。
NeRF 适合连续视角渲染和粗到细优化,但提取干净网格可能需要额外步骤,几何边界也可能不够锐利。SDF 或 mesh 更强调明确表面、法线和可导出资产,适合后续编辑、渲染和物理使用,但优化和拓扑变化更难。很多系统会先用 NeRF 类表示粗生成,再转 mesh 或 SDF 做细化。
文生 3D 不能只看某个视角的漂亮渲染。要评估文本对齐、多视角一致、几何完整性、法线和深度合理性、纹理稳定性、渲染质量、网格可导出性、编辑可用性和人工偏好。实际项目还会看生成时间、显存、失败率和可控性。
独立生成的多张图通常缺少严格相机关系和几何一致性,直接重建容易出现形状冲突。SDS 类方法是在同一个 3D 表示上从多视角共同优化。
把 diffusion 模型对图像是否符合文本的方向信息蒸馏给 3D 表示。当前渲染图哪里不像 prompt,就通过可微渲染把修正方向传回 3D 参数。
它指生成物体可能在多个方向都长出正面或关键部位,例如多个脸。原因是 2D 先验强但缺少真正 3D 一致约束。
NeRF 更适合渲染和体表示,很多下游需要可编辑、可导入引擎、可碰撞或可打印的表面模型。mesh/SDF 更适合作为最终资产。
可以改进相机采样、加入视角条件、使用深度/法线/轮廓正则、两阶段粗细优化、参考多视图生成或显式几何约束。
CLIP 分数主要反映文本图像语义相似,不能充分衡量 3D 几何正确性、多视角一致性、表面质量和资产可用性。需要结合几何指标和人工评估。