基于值函数和基于策略梯度的 RL 算法有什么区别，分别适合什么场景？｜快手算法面经解析

60 秒回答模板

基于值函数的方法学习 V(s) 或 Q(s,a)，通过估计每个状态或动作的长期回报来选择动作，典型如 Q-learning、DQN，适合离散动作和可枚举动作空间。策略梯度方法直接学习策略 pi(a|s)，沿着期望回报对策略参数求梯度，典型如 REINFORCE、A2C、PPO，适合连续动作、高维动作和随机策略。值函数方法样本效率较高但处理连续动作麻烦，策略梯度更灵活但方差大、训练不稳定，实际常用 actor-critic 结合两者。

考点 值函数间接选动作

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

值函数路线

先估计状态或动作有多好，再按价值选择动作。它适合动作集合明确、可以比较 Q 值的场景。

策略梯度路线

直接对策略参数优化，让策略输出动作概率或连续动作分布，适合动作空间连续或需要随机探索的任务。

Actor-Critic 折中

Actor 学策略，Critic 学价值来降低方差，PPO、A2C 等方法都体现了这种组合思路。

按场景选择

动作离散、环境可大量采样时，值函数方法通常更直接；动作连续、需要随机策略或策略约束时，策略梯度更自然。真实系统还要看样本成本和稳定性。

强调训练稳定

值函数方法容易受 bootstrapping 误差和过估计影响，策略梯度方法容易方差大、样本效率低。面试回答要把算法选择和稳定训练手段联系起来，而不是简单说哪类更好。

结合探索利用

两类方法都要处理探索和利用平衡。值函数方法常用 epsilon-greedy 或 UCB 等探索策略，策略梯度方法则通过随机策略、熵正则和约束更新保持探索能力。

易错点

不要只列算法名，要讲清直接学策略和间接学价值的差异。
不要说值函数只能离散动作，连续场景也可扩展，但复杂度更高。
不要忽略 actor-critic，它是实际工程中常见折中。

面试官追问

为什么策略梯度方差大？

它用采样轨迹估计期望回报梯度，回报噪声和探索随机性都会放大方差，通常用 baseline 或 critic 降低。

DQN 属于哪类？

DQN 是典型值函数方法，用神经网络近似 Q(s,a)，再按 Q 值选择动作。

PPO 为什么常用？

PPO 属于策略优化方法，通过裁剪目标限制每次策略更新幅度，提高训练稳定性。