强化学习的数学原理-3

20251121

16:42

Bellman 最优公式

 

bellman公式,对应某个policy π,

bellman最优公式,对应最优的policy π*

 

先求解最优policy π*

════════════════════════════════════════════════════════════════════════════════════════════════════

 

最优policy的定义:

对于任意状态s,最优Policy的状态值都大于其他所有policy

 

bellman最优公式,就是比bellman公式前面多了个max π

bellman最优公式的矩阵形式:

那么,求解bellman最优公式,其实需要求出两个量,一个是最优策略π*,一个是最优策略对应的状态值

求解的思路如下,

沿用这个思路,上图中的a对应的就是policyx对应的是最优状态值,那么就先来求最优时的Policy

也就是先固定最优状态值,来求policy

(假定对于状态s,有5种可能 action),

如何求得状态值max时对应的policy呢,思路如下,

 

也就是, 要让(c1q1+c2q2+c3q3)最大化,就要让c3=1c1c2=0,也就是说,最大化时对应的policy

就是p(q3|s)=1(已知q3>q2q1)。即最优策略就是选择让state action value q(s,a)最大的那个action a*

选择这个acton a*的概率是1,其他的action的概率都是0。这个策略是deterministic的,没有随机性。

 

 

再求解最优状态值v*

════════════════════════════════════════════════════════════════════════════════════════════════════

 

bellman(最优)公式可以写成向量的形式,

 

也就是v=f(v)的形式,其中,vf(v)都是向量

对应v=f(v)这种形式,用contraction mapping therom来求解

 

 

 

Contraction mapping theorem:如果 f是个contraction mapping,那么有且只有一个fixed point x*,满足f(x*)=x*,并且x*可以通过迭代求解(不断通过x_k+1 = f(x_k)来迭代)。(具体证明过程省略)

 

那么对于向量形式的bellman最优公式,

可以证明f是个contraction mapping,即

证明过程见《强化学习的数学原理》书中。

 

 

最优分析

════════════════════════════════════════════════════════════════════════════════════════════════════

What factors determine the optimal state value and optimal policy?

最优policy和最优state value是由什么决定的呢,由下图中红色的部分决定

 

着重分析r和ϒ

对于r来说,将r进行affline 变换,a*r +b,不会改变最优策略,只会改变最优状态值的大小

对于ϒ来说,ϒ越大,越远视,ϒ越小,越近视(看重最近的reward,忽略未来的reward)。并且由于

ϒ的存在,设计reward时不需要考虑最优策略会不会有detour的情况,因为只要绕路,那么reward就有会

有ϒ的discount打折,状态值肯定不如不绕路的策略。

 

 

已使用 OneNote 创建。