Покращення навчання з підкріпленням для складних задач руху робота

Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота....

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Adaptivni sistemi avtomatičnogo upravlinnâ (Online) Ročník 2; číslo 47; s. 41 - 53
Hlavní autoři: Грибенко, Є., Таран, В.
Médium: Journal Article
Jazyk:angličtina
Vydáno: Igor Sikorsky Kyiv Polytechnic Institute 28.09.2025
Témata:
ISSN:1560-8956, 2522-9575
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Popis
Shrnutí:Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота. В статті зроблено огляд прийомів і методів що покращують навчання, а також виділено прийоми, що допоможуть вирішити поставлену задачу руху робота з конфліктуючими нагородами та складним дослідженням простору. Для досягнення мети статті, на основі досліджених прийомів та власних експериментів запропоновано спосіб динамічної зупинки епізоду, що покращує результат навчання методом PPO на прикладі задачі слідування робота заданим точкам руху. Спосіб було застосовано до задачі слідування роботом точок руху, і порівняно результативність при різних параметрах, а також результат без застосування методу. Випробування способу показало, що він допоміг підвищити результат навчання на поставленій задачі. Запропонований спосіб є простим у застосуванні та підходить для задач машинного навчання з щільними нагородами, в яких дослідження агентом простору станів швидко виходить за рамки бажаної поведінки. Спосіб допомагає утримувати стан агента в околі оптимальної поведінки та допомагає уникнути випадків, коли агент ігнорує частину з підкріплень і результат навчання погіршується. Бібл. 9, іл. 6, табл. 2
ISSN:1560-8956
2522-9575
DOI:10.20535/1560-8956.47.2025.340167