Покращення навчання з підкріпленням для складних задач руху робота

Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота....

Full description

Saved in:

Bibliographic Details
Published in:	Adaptivni sistemi avtomatičnogo upravlinnâ (Online) Vol. 2; no. 47; pp. 41 - 53
Main Authors:	Грибенко, Є., Таран, В.
Format:	Journal Article
Language:	English
Published:	Igor Sikorsky Kyiv Polytechnic Institute 28.09.2025
Subjects:	Proximal Policy Optimization локальні оптимуми машинне навчання навчання з підкріпленням рух робота
ISSN:	1560-8956, 2522-9575
Online Access:	Get full text
Tags:	Add Tag No Tags, Be the first to tag this record!

Abstract	Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота. В статті зроблено огляд прийомів і методів що покращують навчання, а також виділено прийоми, що допоможуть вирішити поставлену задачу руху робота з конфліктуючими нагородами та складним дослідженням простору. Для досягнення мети статті, на основі досліджених прийомів та власних експериментів запропоновано спосіб динамічної зупинки епізоду, що покращує результат навчання методом PPO на прикладі задачі слідування робота заданим точкам руху. Спосіб було застосовано до задачі слідування роботом точок руху, і порівняно результативність при різних параметрах, а також результат без застосування методу. Випробування способу показало, що він допоміг підвищити результат навчання на поставленій задачі. Запропонований спосіб є простим у застосуванні та підходить для задач машинного навчання з щільними нагородами, в яких дослідження агентом простору станів швидко виходить за рамки бажаної поведінки. Спосіб допомагає утримувати стан агента в околі оптимальної поведінки та допомагає уникнути випадків, коли агент ігнорує частину з підкріплень і результат навчання погіршується. Бібл. 9, іл. 6, табл. 2
AbstractList	Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота. В статті зроблено огляд прийомів і методів що покращують навчання, а також виділено прийоми, що допоможуть вирішити поставлену задачу руху робота з конфліктуючими нагородами та складним дослідженням простору. Для досягнення мети статті, на основі досліджених прийомів та власних експериментів запропоновано спосіб динамічної зупинки епізоду, що покращує результат навчання методом PPO на прикладі задачі слідування робота заданим точкам руху. Спосіб було застосовано до задачі слідування роботом точок руху, і порівняно результативність при різних параметрах, а також результат без застосування методу. Випробування способу показало, що він допоміг підвищити результат навчання на поставленій задачі. Запропонований спосіб є простим у застосуванні та підходить для задач машинного навчання з щільними нагородами, в яких дослідження агентом простору станів швидко виходить за рамки бажаної поведінки. Спосіб допомагає утримувати стан агента в околі оптимальної поведінки та допомагає уникнути випадків, коли агент ігнорує частину з підкріплень і результат навчання погіршується. Бібл. 9, іл. 6, табл. 2
Author	Грибенко, Є. Таран, В.
Author_xml	– sequence: 1 givenname: Є. surname: Грибенко fullname: Грибенко, Є. – sequence: 2 givenname: В. surname: Таран fullname: Таран, В.
BookMark	eNo9UctKAzEUDaJg1f5D_YCpecxNJksRHwXBja5Dmkmkoo7MuBFc-EDElTu3_sIoitLa9heSPzJ96Cbn3sO555J7VtDieXFuEVonuE0xMNggwHGSSeDtVESKQpulmHCxgBoUKE0kCFhEjX_ZMmpW1QnGmGYiFQIa6Nq_-pHvhxtfhyf_6Yd-GJ5bEWr_Hh7jOye-Wn4cXvzHRBpx7Ad_Yv_TivQgisKt70e-ju3Qf4eHODVt6vDYilP34SHcxyLue_OjcOfrNbTk9Gllm3NcRUc724dbe8n-wW5na3M_MfEvIuG5AaaxlSYXXUZxxrWVgoKk2jmbgRQZz4kArXNsuMBdMDhzNCWOgJFg2SrqzHzzQp-oi7J3pssrVeiemhJFeax0edkzp1aB5kZa7ihlkDIb65zx1LgUd4l1kkQvOfMyZVFVpXX_fgSraSpqcm41ObdKhZqkomapsF_If6uj
ContentType	Journal Article
DBID	AAYXX CITATION DOA
DOI	10.20535/1560-8956.47.2025.340167
DatabaseName	CrossRef DOAJ Directory of Open Access Journals
DatabaseTitle	CrossRef
DatabaseTitleList	CrossRef
Database_xml	– sequence: 1 dbid: DOA name: DOAJ Directory of Open Access Journals url: https://www.doaj.org/ sourceTypes: Open Website
DeliveryMethod	fulltext_linktorsrc
Discipline	Engineering
EISSN	2522-9575
EndPage	53
ExternalDocumentID	oai_doaj_org_article_5a6c9e6f223543ec9ed364cf40b1ef91 10_20535_1560_8956_47_2025_340167
GroupedDBID	AAYXX ADBBV ALMA_UNASSIGNED_HOLDINGS BCNDV CITATION GROUPED_DOAJ
ID	FETCH-LOGICAL-c1677-6dc53a0e9cd7b32086ae972592affe859786d175aad0c670b5c08f241f15c95e3
IEDL.DBID	DOA
ISSN	1560-8956
IngestDate	Tue Oct 07 09:26:50 EDT 2025 Thu Oct 09 00:27:00 EDT 2025
IsDoiOpenAccess	true
IsOpenAccess	true
IsPeerReviewed	true
IsScholarly	true
Issue	47
Language	English
License	https://creativecommons.org/licenses/by-nc-sa/4.0
LinkModel	DirectLink
MergedId	FETCHMERGED-LOGICAL-c1677-6dc53a0e9cd7b32086ae972592affe859786d175aad0c670b5c08f241f15c95e3
OpenAccessLink	https://doaj.org/article/5a6c9e6f223543ec9ed364cf40b1ef91
PageCount	13
ParticipantIDs	doaj_primary_oai_doaj_org_article_5a6c9e6f223543ec9ed364cf40b1ef91 crossref_primary_10_20535_1560_8956_47_2025_340167
PublicationCentury	2000
PublicationDate	2025-09-28
PublicationDateYYYYMMDD	2025-09-28
PublicationDate_xml	– month: 09 year: 2025 text: 2025-09-28 day: 28
PublicationDecade	2020
PublicationTitle	Adaptivni sistemi avtomatičnogo upravlinnâ (Online)
PublicationYear	2025
Publisher	Igor Sikorsky Kyiv Polytechnic Institute
Publisher_xml	– name: Igor Sikorsky Kyiv Polytechnic Institute
SSID	ssj0002874775 ssib050728385
Score	2.3049445
Snippet	Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання...
SourceID	doaj crossref
SourceType	Open Website Index Database
StartPage	41
SubjectTerms	Proximal Policy Optimization локальні оптимуми машинне навчання навчання з підкріпленням рух робота
Title	Покращення навчання з підкріпленням для складних задач руху робота
URI	https://doaj.org/article/5a6c9e6f223543ec9ed364cf40b1ef91
Volume	2
hasFullText	1
inHoldings	1
isFullTextHit
isPrint
journalDatabaseRights	– providerCode: PRVAON databaseName: DOAJ Directory of Open Access Journals customDbUrl: eissn: 2522-9575 dateEnd: 99991231 omitProxy: false ssIdentifier: ssj0002874775 issn: 1560-8956 databaseCode: DOA dateStart: 20040101 isFulltext: true titleUrlDefault: https://www.doaj.org/ providerName: Directory of Open Access Journals – providerCode: PRVHPJ databaseName: ROAD: Directory of Open Access Scholarly Resources customDbUrl: eissn: 2522-9575 dateEnd: 99991231 omitProxy: false ssIdentifier: ssib050728385 issn: 1560-8956 databaseCode: M~E dateStart: 19980101 isFulltext: true titleUrlDefault: https://road.issn.org providerName: ISSN International Centre
link	http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV1LSx0xFA5FpNhF0arUassU3I7mTp6zVKl0IeKiLe7CTB6gi9via-WirYh05c6tf2GUFuVer_6F5B_1ZGaU68qNm0lyyJnJfBw454STLwjNS4JzYSByIyWXKSXGpFJSncrSMRMJ3jr1pX3f1sT6utzczDeGrvqKNWENPXAD3CIruM4td-DGGCUW-oZwqh3FZcc259YziHqGkimwJAhywG22rCzb9RYShM016248OZxKyApeoo-xDjrymyw-CBeoAFHGFgiN9fmPnNUQp3_tfFbH0es2akyWmtVOoBe2-wa9GuISnESH_tzf-l746avwx__zAz8Ipwk0lb8MJ_BsBVeJvwtn_m-cCu2d799P9jcJiPswKfzyPZBXMBz463AMWvWgCicJaB2F43AEHfjehb8Nv301hb6ufvqy8jltr1ZINfyWSLnRjBTY5tqIkgCAvLC5gFQoK5yzErIMyQ1EFkVhsOYCl0xj6cDbuw7TObNkGo10v3ftW5RgSwhoMYmFps7oInc8w6WELmRfzs6g7B5D9aNh0FCQedTAqwi8isArKlQEXjXAz6DliPaDQiTBrgVgGqo1DfWUabx7jpfMorG4rlgiksk5NLK3s2_fo1F9sLe1u_Ohtrr_W0P_Zw
linkProvider	Directory of Open Access Journals
openUrl	ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%D0%9F%D0%BE%D0%BA%D1%80%D0%B0%D1%89%D0%B5%D0%BD%D0%BD%D1%8F+%D0%BD%D0%B0%D0%B2%D1%87%D0%B0%D0%BD%D0%BD%D1%8F+%D0%B7+%D0%BF%D1%96%D0%B4%D0%BA%D1%80%D1%96%D0%BF%D0%BB%D0%B5%D0%BD%D0%BD%D1%8F%D0%BC+%D0%B4%D0%BB%D1%8F+%D1%81%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%B8%D1%85+%D0%B7%D0%B0%D0%B4%D0%B0%D1%87+%D1%80%D1%83%D1%85%D1%83+%D1%80%D0%BE%D0%B1%D0%BE%D1%82%D0%B0&rft.jtitle=Adaptivni+sistemi+avtomati%C4%8Dnogo+upravlinn%C3%A2+%28Online%29&rft.au=%D0%93%D1%80%D0%B8%D0%B1%D0%B5%D0%BD%D0%BA%D0%BE%2C+%D0%84.&rft.au=%D0%A2%D0%B0%D1%80%D0%B0%D0%BD%2C+%D0%92.&rft.date=2025-09-28&rft.issn=1560-8956&rft.eissn=2522-9575&rft.volume=2&rft.issue=47&rft.spage=41&rft.epage=53&rft_id=info:doi/10.20535%2F1560-8956.47.2025.340167&rft.externalDBID=n%2Fa&rft.externalDocID=10_20535_1560_8956_47_2025_340167
thumbnail_l	http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1560-8956&client=summon
thumbnail_m	http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1560-8956&client=summon
thumbnail_s	http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1560-8956&client=summon