Policy Gradient

定义 Definition

策略梯度（Policy Gradient）：强化学习中的一类方法，通过对策略参数求梯度来直接优化“策略”（即智能体选择动作的概率分布），目标通常是最大化长期期望回报。常用于连续动作控制或需要随机策略的任务。（也常指“策略梯度定理”或相关算法家族。）

发音 Pronunciation (IPA)

/plsi redint/

例句 Examples

The agent learns with a policy gradient method.
智能体使用策略梯度方法进行学习。

By estimating the policy gradient from sampled trajectories, the algorithm updates its neural-network policy to maximize expected return while using a baseline to reduce variance.
通过从采样到的轨迹中估计策略梯度，该算法更新其神经网络策略以最大化期望回报，同时使用基线来降低方差。

词源 Etymology

该术语由两部分组成：policy（策略）源自希腊语 polis（城邦、公共事务）并经由拉丁语、法语进入英语，引申为“管理/决策方针”；gradient（梯度）来自拉丁语 gradiens（行走、逐步前进），在数学中表示“变化最快的方向”。合起来即“用梯度来优化策略”。

文献与作品 Literary Works

Richard S. Sutton & Andrew G. Barto, Reinforcement Learning: An Introduction（多处讨论策略梯度与actor-critic框架）
Ronald J. Williams (1992), “Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning”（提出 REINFORCE，策略梯度经典来源）
John Schulman et al. (2015), “Trust Region Policy Optimization (TRPO)”（基于策略梯度的约束优化方法）
John Schulman et al. (2017), “Proximal Policy Optimization Algorithms (PPO)”（广泛应用的策略梯度变体）
David Silver et al. (2014), “Deterministic Policy Gradient Algorithms”（确定性策略梯度，适用于连续动作控制）