Preferential Proximal Policy Optimization

The Proximal Policy Optimization (PPO) is a policy gradient approach providing state-of-the-art performance in many domains through the "surrogate" objective function using stochastic gradient ascent. While PPO is an appealing approach in reinforcement learning, it does not consider the im...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Proceedings (IEEE International Conference on Emerging Technologies and Factory Automation) s. 293 - 300
Hlavní autoři: Balasuntharam, Tamilselvan, Davoudi, Heidar, Ebrahimi, Mehran
Médium: Konferenční příspěvek
Jazyk:angličtina
Vydáno: IEEE 15.12.2023
Témata:
ISSN:1946-0759
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.