Markov Decision Process

定义 Definition

马尔可夫决策过程（MDP）：一种用于序列决策的数学模型，用来描述“智能体”在环境中按步骤行动、获得回报并改变状态的过程。它通常由 状态（state）、动作（action）、状态转移概率（transition）、奖励（reward） 和 折扣因子（discount） 构成，并满足“马尔可夫性”：下一步主要取决于当前状态与当前动作，而不依赖更久远的历史。（在强化学习与动态规划中非常常见）

发音 Pronunciation (IPA)

/mr.kv ds.n pr.ses/

例句 Examples

An MDP models how an agent chooses actions to maximize reward.
MDP 用来描述智能体如何选择动作以最大化回报。

In reinforcement learning, we often assume the environment can be approximated as a Markov decision process, even if the real world is noisy and partially observed.
在强化学习中，我们常常假设环境可以近似为马尔可夫决策过程，即使现实世界存在噪声并且只能部分观测。

词源 Etymology

“Markov”来自俄国数学家安德烈马尔可夫（Andrey Markov），其研究的“马尔可夫链”强调“未来只与当前有关”的性质；“decision process”意为“决策过程”。合在一起，MDP指在满足马尔可夫性质的条件下，对连续决策问题进行建模的方法。

文学与经典著作 Literary Works

Markov Decision Processes: Discrete Stochastic Dynamic Programming（Martin L. Puterman）
Reinforcement Learning: An Introduction（Richard S. Sutton & Andrew G. Barto）
Dynamic Programming 相关经典论文与著作（Richard Bellman；MDP与贝尔曼最优性原理密切相关）
Neuro-Dynamic Programming（Dimitri P. Bertsekas & John N. Tsitsiklis）