有關ddpg的精選大全

ddpg算法優缺點
ddpg算法優點:是sampleefficiency,DDPG的actorcrtic均可以off-policy,而gradientestimator由於deterministicpolicy也確實是無偏的,是可以continuouscontrol。DPG的actor是通過SGD去解max-Q的(而不是遍歷),所以也能做cont...
熱門標籤