强化学习课程系列之二：马尔科夫决策过程，MDP

马尔科夫模型

关于马尔科夫，可以认为是一个自动机，以一定的概率P在各个状态s之间转移，马尔科夫模型由状态、转移概率矩阵{s,p}两部分组成。
关于隐马尔科夫模型(HMM),比马尔科夫多了一个观测集合 O。可以认为是一个双重随机过程，状态之间的转移是随机的，在某状态时的输出也是随机的。隐马尔科夫链由初始状态概率向量π、状态转移概率矩阵p、观测概率矩阵B三部分组成，{π,p,B}。马尔科夫和隐马尔科夫都具有无后效性，也就是系统的下一个状态之和当前的状态有关，和更早以前的无关。
马尔科夫决策过程(Markov Decision Process, MDP)，比HMM多了一个动作集合，也具有无后效性。但是相比于隐马尔科夫，MDP的下一状态s’不仅和当前状态s相关，还和当前状态下所采取的动作a相关。

马尔科夫决策过程，MDP

一个马尔科夫决策过程由一个元组构成： M = { S, A, Psa, R，γ}

S, 状态集合， s ∈ S, si 表示第 i 步的状态
A, 动作集合， a ∈ A, ai 表示第 i 步的动作
Psa, 状态转移概率， Psa表示在状态 s 下，采取动作 a 之后的所转移到的状态的概率分布情况。
R，回报函数，reward，假设在 {s,a}的情况下转移到 s’,则定义其回报函数为 r(s’|s,a)。回报是根据状态和动作得到的,如果 s，a确定之后的 s’是唯一的，回报函数可以记作 r(s,a)。
γ, 衰减因子， 0-1之间。

策略(policy),π

策略：π： S->A, ，指在t时刻，给定状态下，所能采取的动作的概率分布：记作 π(a|s) = P(At=a | St=s),可以认为是状态到动作的映射，这也正是一个智能体(agent)所要学习的东西，策略完全决定了一个智能体(agent)的行为，MDP 的策略取决于当前状态。
给定一个MDP， M= { S, A, Psa, R，γ}，以及策略 π，则状态序列S1，S2，… 就是一个马尔科负过程{S, Pπ}。状态和回报序列 S1，R1，S2，R2，… 就是一个马尔科夫回报过程 {S,Pπ, Rπ, γ},而且有：

Pss'π