AIGC 图像生成中 GAN 和 Diffusion Model 的训练目标、生成过程和优劣势有什么区别？｜阿里巴巴算法面经解析

60 秒回答模板

我会先从生成范式区分。GAN 是生成器和判别器的对抗训练：生成器从噪声或条件输入直接映射到图像，判别器判断真假，训练目标是让生成分布逼近真实分布。它的优势是推理通常很快，一次前向就能出图，适合实时或固定场景生成；但训练容易不稳定，可能出现 mode collapse，对复杂文本条件和细粒度可控性的扩展也更难。Diffusion Model 则把数据逐步加噪，再训练模型从噪声中逐步去噪，学习的是反向生成过程或噪声预测。它的优势是训练更稳定，覆盖分布和多样性通常更好，也更适合结合文本、图像、ControlNet、inpainting 等条件控制；代价是采样要多步迭代，延迟和算力成本更高，需要 DDIM、DPM、蒸馏、LCM、Turbo 等方法加速。所以面试里不能只说谁更先进，要按场景取舍：如果极端低延迟、目标域窄、质量要求可控，GAN 仍有价值；如果要开放域高质量生成、强条件控制和多样性，现代 AIGC 图像系统更多会选择扩散或扩散的加速变体。

考点 目标函数对比

难度 真实面经题

回答目标 让候选人能按“目标函数、推理过程、稳定性、质量多样性、条件控制、工程选型”六步完整比较 GAN 和 Diffusion。

深入解析

训练目标不同

GAN 的核心是二人零和式的对抗优化：生成器试图骗过判别器，判别器试图区分真实样本和生成样本。这个目标很直观，但生成器和判别器的强弱需要动态平衡。Diffusion Model 的目标更像有监督去噪：先定义从真实图像到噪声的前向加噪过程，再训练网络预测噪声、干净样本或速度项，从而学会反向去噪生成。

生成过程一快一慢

GAN 推理通常是把 latent code 或条件输入一次前向映射成图像，路径短、延迟低。Diffusion 生成从随机噪声开始，经过多个时间步逐步去噪，每一步都要调用网络，因此原始采样成本更高。现代采样器、蒸馏和一致性模型能压缩步数，但它本质上仍是迭代式生成范式。

训练稳定性和覆盖分布不同

GAN 的难点在于对抗训练不稳定，可能出现梯度震荡、判别器过强、生成器学不到有效信号，或者 mode collapse，只生成少数高频样式。Diffusion 的训练目标通常更平滑，可用随机时间步监督大量噪声级别，覆盖数据分布的能力更强，因此在开放域文本生图里更容易获得稳定的质量和多样性。

图像质量和多样性取舍不同

GAN 在受限域内可以生成非常锐利的图像，例如人脸、商品、特定风格素材；但当语义组合、场景类别和条件空间变大时，分布覆盖压力会明显增加。Diffusion 在复杂语义组合、多风格、多主体和细节恢复上通常更有优势，不过多步采样也可能带来速度、显存和一致性成本。

条件控制能力不同

GAN 也可以做条件生成，但复杂文本条件、空间结构、局部编辑、多控制信号融合往往需要专门结构设计。Diffusion 的去噪过程天然可以接入文本编码、图像条件、mask、边缘、深度、姿态等控制信号，也可以通过 classifier-free guidance 等机制调节条件强度，因此更适合当前复杂 AIGC 图像工作流。

工程选型看场景

回答最后要落到工程取舍：实时头像、特定域增强、超低延迟生成可以考虑 GAN 或小模型；开放域文生图、图像编辑、多条件控制、质量优先任务更适合 Diffusion。不能把 Diffusion 说成全面替代 GAN，也不能只用速度一个指标判断，应该同时看训练数据、质量目标、延迟预算、可控性和维护成本。

易错点

只说“GAN 快、Diffusion 慢”，没有解释训练目标和生成过程差异。
把 GAN 说成已经完全过时，忽略窄域、实时和资源受限场景里的价值。
把 Diffusion 说成必然质量更好，忽略采样步数、调参、数据质量和条件控制的影响。
没有提 mode collapse、对抗训练不稳定、分布覆盖这些 GAN 的典型风险。
把文本控制、局部编辑、多条件生成全部归因于某个产品能力，没有回到模型机制和工程接口。
把通用 AIGC 图像生成知识说成阿里内部实现；来源只支持淘天 AIGC 图像算法一面问到 GAN 和 Diffusion 区别。

面试官追问

为什么 GAN 容易出现 mode collapse？

因为生成器可能找到少数能骗过判别器的样本模式，而不是覆盖完整真实分布。判别器反馈又是相对博弈信号，优化不稳定时生成器会收缩到少数高回报区域。

Diffusion 为什么采样慢？

它通常从随机噪声经过多个时间步逐步去噪，每一步都要运行去噪网络。采样器和蒸馏可以减少步数，但质量、稳定性和速度之间仍然要折中。

GAN 是否已经没有价值？

不是。GAN 在目标域窄、实时生成、图像增强、风格固定或部署资源受限时仍可能很有价值。只是开放域文本生图和复杂可控生成更常由扩散模型主导。

为什么 Diffusion 更容易接入文本条件？

去噪网络可以在每个时间步通过 cross-attention、条件编码或 guidance 接入文本语义，逐步影响结构和细节生成。多步过程也给条件约束提供了反复校正的机会。

如何评价两类模型的生成效果？

要同时看感知质量、多样性、文本或条件一致性、失败样例、推理延迟、显存成本和目标场景指标。只看单一指标很容易误判模型是否适合业务。