心理

当前位置 /首页/完美生活/心理/列表

ddpg算法优缺点

ddpg算法优缺点

ddpg算法优点:是sample efficiency,DDPG的actor crtic均可以off-policy,而gradient estimator由于deterministic policy也确实是无偏的,是可以continuous control。DPG的actor是通过SGD去解max-Q的(而不是遍历),所以也能做continuous control。

缺点:第一点是deterministic policy,意味着不能很好的explore state Action space。

TAG标签:算法 优缺点 ddpg #