强化学习的数学原理-10

2026111

16:13

Actor-Critic

 

 

off policy actor-cirtic

 

通过importance samplingOn policy转为off policy

 

前面介绍 Policy gradient算法是on policy的,因为梯度是个期望的形式,通过采样得到梯度,同时

进行对策略参数进行更新,更新的policy和采样的policy是一样的。

 

重要性采样的出发点是,从服从p1分布的x中的采样,来估计服从p0分布的x的期望。

 

 

也就是对xi的加权平均,权重为p0/p1,被称为重要性权重

重要性权重的计算需要我们知道p0(xi)p1(xi),如果我们已知知道p0,不就可以

直接算出服从p0分布的x的期望了吗,在有些情况下是不能的:

 

 

 

importance sampling应用,得到off policy gradient

 

on policy A2C一样,可以加入一个偏置b(s)来降低估计的方差

 

可以看出,当t大的时候,步长大,下一步更新后会(at)会变大,相当于是expolitation

充分利用,但是和on policy相比,分母不是了,而是,是固定的,所以没有explore

没有探索。

算法和on policy基本是一样的,队了在poilcy update value update中加入了

importance weight

 

 

 

 

已使用 OneNote 创建。