强化学习的数学原理-第3课

2025年11月21日

16:42

Bellman 最优公式

bellman公式，对应某个policy　π，

bellman最优公式,对应最优的policy π*

先求解最优policy π*

════════════════════════════════════════════════════════════════════════════════════════════════════

最优policy的定义：

对于任意状态s，最优Policy的状态值都大于其他所有policy。

bellman最优公式，就是比bellman公式前面多了个max π，

bellman最优公式的矩阵形式：

那么，求解bellman最优公式，其实需要求出两个量，一个是最优策略π*，一个是最优策略对应的状态值

求解的思路如下，

沿用这个思路，上图中的a对应的就是policy，x对应的是最优状态值，那么就先来求最优时的Policy，

也就是先固定最优状态值，来求policy

（假定对于状态s，有5种可能的action），

如何求得状态值max时对应的policy呢，思路如下，

也就是，要让(c1q1+c2q2+c3q3)最大化，就要让c3=1，c1和c2=0，也就是说，最大化时对应的policy

就是p(q3|s)=1（已知q3>q2和q1）。即最优策略就是选择让state action value q(s,a)最大的那个action a*，

选择这个acton a*的概率是1，其他的action的概率都是0。这个策略是deterministic的，没有随机性。

再求解最优状态值v*

bellman（最优）公式可以写成向量的形式，

也就是v=f(v)的形式，其中，v和f(v)都是向量

对应v=f(v)这种形式，用contraction mapping therom来求解

Contraction mapping theorem：如果 f是个contraction mapping，那么有且只有一个fixed point x*，满足f(x*)=x*，并且x*可以通过迭代求解（不断通过x_k+1 = f(x_k)来迭代）。（具体证明过程省略）

那么对于向量形式的bellman最优公式，

可以证明f是个contraction mapping，即

证明过程见《强化学习的数学原理》书中。

最优分析

What factors determine the optimal state value and optimal policy?

最优policy和最优state value是由什么决定的呢，由下图中红色的部分决定

着重分析r和ϒ

对于r来说，将r进行affline 变换，a*r +b，不会改变最优策略，只会改变最优状态值的大小

对于ϒ来说，ϒ越大，越远视，ϒ越小，越近视（看重最近的reward，忽略未来的reward）。并且由于

ϒ的存在，设计reward时不需要考虑最优策略会不会有detour的情况，因为只要绕路，那么reward就有会

有ϒ的discount打折，状态值肯定不如不绕路的策略。