ddpg算法优缺点

来源:魅力女性吧 1.94W
ddpg算法优缺点

ddpg算法优点:是sample efficiency,DDPG的actor crtic均可以off-policy,而gradient estimator由于deterministic policy也确实是无偏的,是可以continuous control。DPG的actor是通过SGD去解max-Q的(而不是遍历),所以也能做continuous control。

缺点:第一点是deterministic policy,意味着不能很好的explore state Action space。

热门标签