心理

當前位置 /首頁/完美生活/心理/列表

ddpg算法優缺點

ddpg算法優缺點

ddpg算法優點:是sample efficiency,DDPG的actor crtic均可以off-policy,而gradient estimator由於deterministic policy也確實是無偏的,是可以continuous control。DPG的actor是通過SGD去解max-Q的(而不是遍歷),所以也能做continuous control。

缺點:第一點是deterministic policy,意味着不能很好的explore state Action space。

TAG標籤:ddpg 優缺點 算法 #