60 秒回答模板

基于值函数的方法学习 V(s) 或 Q(s,a),通过估计每个状态或动作的长期回报来选择动作,典型如 Q-learning、DQN,适合离散动作和可枚举动作空间。策略梯度方法直接学习策略 pi(a|s),沿着期望回报对策略参数求梯度,典型如 REINFORCE、A2C、PPO,适合连续动作、高维动作和随机策略。值函数方法样本效率较高但处理连续动作麻烦,策略梯度更灵活但方差大、训练不稳定,实际常用 actor-critic 结合两者。

考点 值函数间接选动作
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

值函数路线

先估计状态或动作有多好,再按价值选择动作。它适合动作集合明确、可以比较 Q 值的场景。

02

策略梯度路线

直接对策略参数优化,让策略输出动作概率或连续动作分布,适合动作空间连续或需要随机探索的任务。

03

Actor-Critic 折中

Actor 学策略,Critic 学价值来降低方差,PPO、A2C 等方法都体现了这种组合思路。

04

按场景选择

动作离散、环境可大量采样时,值函数方法通常更直接;动作连续、需要随机策略或策略约束时,策略梯度更自然。真实系统还要看样本成本和稳定性。

05

强调训练稳定

值函数方法容易受 bootstrapping 误差和过估计影响,策略梯度方法容易方差大、样本效率低。面试回答要把算法选择和稳定训练手段联系起来,而不是简单说哪类更好。

06

结合探索利用

两类方法都要处理探索和利用平衡。值函数方法常用 epsilon-greedy 或 UCB 等探索策略,策略梯度方法则通过随机策略、熵正则和约束更新保持探索能力。

易错点

  • 不要只列算法名,要讲清直接学策略和间接学价值的差异。
  • 不要说值函数只能离散动作,连续场景也可扩展,但复杂度更高。
  • 不要忽略 actor-critic,它是实际工程中常见折中。

面试官追问

为什么策略梯度方差大?

它用采样轨迹估计期望回报梯度,回报噪声和探索随机性都会放大方差,通常用 baseline 或 critic 降低。

DQN 属于哪类?

DQN 是典型值函数方法,用神经网络近似 Q(s,a),再按 Q 值选择动作。

PPO 为什么常用?

PPO 属于策略优化方法,通过裁剪目标限制每次策略更新幅度,提高训练稳定性。