马尔可夫决策 MDP
马尔可夫过程可以用一个五元数\((S, A, P(\cdot,\cdot), R(\cdot,\cdot), \gamma)\)
- S 是一组有限的状态集
- A 是一组有限的动作集
- \(P_a(s,s′)=Pr(s_{t+1}=s′|s_t=s,a_t=a)\) 表示在时间 t 状态 s 采取动作 a 可以在时间 t+1 转换到状态 s′ 概率
- \(R_a(s,s′)\) 表示通过动作 a 状态从 s 转换到 s′ 所带来的及时收益(或者是预期及时收益)
- \(\gamma \in [0,1]\) 是折扣因子(discount factor),表示未来收益和当前收益之前的差别