强化学习相关

马尔可夫决策 MDP

马尔可夫过程可以用一个五元数\((S, A, P(\cdot,\cdot), R(\cdot,\cdot), \gamma)\)

  • S 是一组有限的状态集
  • A 是一组有限的动作集
  • \(P_a(s,s′)=Pr(s_{t+1}=s′|s_t=s,a_t=a)\) 表示在时间 t 状态 s 采取动作 a 可以在时间 t+1 转换到状态 s′ 概率
  • \(R_a(s,s′)\) 表示通过动作 a 状态从 s 转换到 s′ 所带来的及时收益(或者是预期及时收益)
  • \(\gamma \in [0,1]\) 是折扣因子(discount factor),表示未来收益和当前收益之前的差别

凸优化系列 (二)

拉格朗日对偶与KKT条件

优化问题

\[ \begin{align} \text{minimize }& f_0(x) \\ \text{subject to }&f_i(x) \le 0, i=1:m\\ & h_i(x) = 0, i=1:p \end{align}\\ D_{f} = \bigcap_{i=0}^m\text{dom}f_i\cap \bigcap_{i=0}^m\text{dom}h_i \]

Eigenfunction of A Random Variable

随机变量的特征函数

随机变量的概率密度为\(f_X(x)\),其特征函数定义为: \[\phi_X(\omega) = E[e^{j\omega X}] = \int_{-\infty}^{+\infty}f_X(x)e^{j\omega x}dx\] 也就是原密度函数的傅里叶变换后的频域函数,其特性与傅里叶变换相同

|