真实面经题目 · 原创解析
AIGC 图像生成中 GAN 和 Diffusion Model 的训练目标、生成过程和优劣势有什么区别?
这题考的是能否从训练目标、推理路径、质量多样性、稳定性、可控性和成本把 GAN 与 Diffusion Model 讲成两类生成范式,而不是只背“GAN 快、Diffusion 好”。
真实面经题目 · 原创解析
这题考的是能否从训练目标、推理路径、质量多样性、稳定性、可控性和成本把 GAN 与 Diffusion Model 讲成两类生成范式,而不是只背“GAN 快、Diffusion 好”。
我会先从生成范式区分。GAN 是生成器和判别器的对抗训练:生成器从噪声或条件输入直接映射到图像,判别器判断真假,训练目标是让生成分布逼近真实分布。它的优势是推理通常很快,一次前向就能出图,适合实时或固定场景生成;但训练容易不稳定,可能出现 mode collapse,对复杂文本条件和细粒度可控性的扩展也更难。Diffusion Model 则把数据逐步加噪,再训练模型从噪声中逐步去噪,学习的是反向生成过程或噪声预测。它的优势是训练更稳定,覆盖分布和多样性通常更好,也更适合结合文本、图像、ControlNet、inpainting 等条件控制;代价是采样要多步迭代,延迟和算力成本更高,需要 DDIM、DPM、蒸馏、LCM、Turbo 等方法加速。所以面试里不能只说谁更先进,要按场景取舍:如果极端低延迟、目标域窄、质量要求可控,GAN 仍有价值;如果要开放域高质量生成、强条件控制和多样性,现代 AIGC 图像系统更多会选择扩散或扩散的加速变体。
GAN 的核心是二人零和式的对抗优化:生成器试图骗过判别器,判别器试图区分真实样本和生成样本。这个目标很直观,但生成器和判别器的强弱需要动态平衡。Diffusion Model 的目标更像有监督去噪:先定义从真实图像到噪声的前向加噪过程,再训练网络预测噪声、干净样本或速度项,从而学会反向去噪生成。
GAN 推理通常是把 latent code 或条件输入一次前向映射成图像,路径短、延迟低。Diffusion 生成从随机噪声开始,经过多个时间步逐步去噪,每一步都要调用网络,因此原始采样成本更高。现代采样器、蒸馏和一致性模型能压缩步数,但它本质上仍是迭代式生成范式。
GAN 的难点在于对抗训练不稳定,可能出现梯度震荡、判别器过强、生成器学不到有效信号,或者 mode collapse,只生成少数高频样式。Diffusion 的训练目标通常更平滑,可用随机时间步监督大量噪声级别,覆盖数据分布的能力更强,因此在开放域文本生图里更容易获得稳定的质量和多样性。
GAN 在受限域内可以生成非常锐利的图像,例如人脸、商品、特定风格素材;但当语义组合、场景类别和条件空间变大时,分布覆盖压力会明显增加。Diffusion 在复杂语义组合、多风格、多主体和细节恢复上通常更有优势,不过多步采样也可能带来速度、显存和一致性成本。
GAN 也可以做条件生成,但复杂文本条件、空间结构、局部编辑、多控制信号融合往往需要专门结构设计。Diffusion 的去噪过程天然可以接入文本编码、图像条件、mask、边缘、深度、姿态等控制信号,也可以通过 classifier-free guidance 等机制调节条件强度,因此更适合当前复杂 AIGC 图像工作流。
回答最后要落到工程取舍:实时头像、特定域增强、超低延迟生成可以考虑 GAN 或小模型;开放域文生图、图像编辑、多条件控制、质量优先任务更适合 Diffusion。不能把 Diffusion 说成全面替代 GAN,也不能只用速度一个指标判断,应该同时看训练数据、质量目标、延迟预算、可控性和维护成本。
因为生成器可能找到少数能骗过判别器的样本模式,而不是覆盖完整真实分布。判别器反馈又是相对博弈信号,优化不稳定时生成器会收缩到少数高回报区域。
它通常从随机噪声经过多个时间步逐步去噪,每一步都要运行去噪网络。采样器和蒸馏可以减少步数,但质量、稳定性和速度之间仍然要折中。
不是。GAN 在目标域窄、实时生成、图像增强、风格固定或部署资源受限时仍可能很有价值。只是开放域文本生图和复杂可控生成更常由扩散模型主导。
去噪网络可以在每个时间步通过 cross-attention、条件编码或 guidance 接入文本语义,逐步影响结构和细节生成。多步过程也给条件约束提供了反复校正的机会。
要同时看感知质量、多样性、文本或条件一致性、失败样例、推理延迟、显存成本和目标场景指标。只看单一指标很容易误判模型是否适合业务。