Покращення навчання з підкріпленням для складних задач руху робота
Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота....
Saved in:
| Published in: | Adaptivni sistemi avtomatičnogo upravlinnâ (Online) Vol. 2; no. 47; pp. 41 - 53 |
|---|---|
| Main Authors: | , |
| Format: | Journal Article |
| Language: | English |
| Published: |
Igor Sikorsky Kyiv Polytechnic Institute
28.09.2025
|
| Subjects: | |
| ISSN: | 1560-8956, 2522-9575 |
| Online Access: | Get full text |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Abstract | Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота. В статті зроблено огляд прийомів і методів що покращують навчання, а також виділено прийоми, що допоможуть вирішити поставлену задачу руху робота з конфліктуючими нагородами та складним дослідженням простору. Для досягнення мети статті, на основі досліджених прийомів та власних експериментів запропоновано спосіб динамічної зупинки епізоду, що покращує результат навчання методом PPO на прикладі задачі слідування робота заданим точкам руху. Спосіб було застосовано до задачі слідування роботом точок руху, і порівняно результативність при різних параметрах, а також результат без застосування методу. Випробування способу показало, що він допоміг підвищити результат навчання на поставленій задачі. Запропонований спосіб є простим у застосуванні та підходить для задач машинного навчання з щільними нагородами, в яких дослідження агентом простору станів швидко виходить за рамки бажаної поведінки. Спосіб допомагає утримувати стан агента в околі оптимальної поведінки та допомагає уникнути випадків, коли агент ігнорує частину з підкріплень і результат навчання погіршується. Бібл. 9, іл. 6, табл. 2 |
|---|---|
| AbstractList | Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота. В статті зроблено огляд прийомів і методів що покращують навчання, а також виділено прийоми, що допоможуть вирішити поставлену задачу руху робота з конфліктуючими нагородами та складним дослідженням простору. Для досягнення мети статті, на основі досліджених прийомів та власних експериментів запропоновано спосіб динамічної зупинки епізоду, що покращує результат навчання методом PPO на прикладі задачі слідування робота заданим точкам руху. Спосіб було застосовано до задачі слідування роботом точок руху, і порівняно результативність при різних параметрах, а також результат без застосування методу. Випробування способу показало, що він допоміг підвищити результат навчання на поставленій задачі. Запропонований спосіб є простим у застосуванні та підходить для задач машинного навчання з щільними нагородами, в яких дослідження агентом простору станів швидко виходить за рамки бажаної поведінки. Спосіб допомагає утримувати стан агента в околі оптимальної поведінки та допомагає уникнути випадків, коли агент ігнорує частину з підкріплень і результат навчання погіршується. Бібл. 9, іл. 6, табл. 2 |
| Author | Грибенко, Є. Таран, В. |
| Author_xml | – sequence: 1 givenname: Є. surname: Грибенко fullname: Грибенко, Є. – sequence: 2 givenname: В. surname: Таран fullname: Таран, В. |
| BookMark | eNo9UctKAzEUDaJg1f5D_YCpecxNJksRHwXBja5Dmkmkoo7MuBFc-EDElTu3_sIoitLa9heSPzJ96Cbn3sO555J7VtDieXFuEVonuE0xMNggwHGSSeDtVESKQpulmHCxgBoUKE0kCFhEjX_ZMmpW1QnGmGYiFQIa6Nq_-pHvhxtfhyf_6Yd-GJ5bEWr_Hh7jOye-Wn4cXvzHRBpx7Ad_Yv_TivQgisKt70e-ju3Qf4eHODVt6vDYilP34SHcxyLue_OjcOfrNbTk9Gllm3NcRUc724dbe8n-wW5na3M_MfEvIuG5AaaxlSYXXUZxxrWVgoKk2jmbgRQZz4kArXNsuMBdMDhzNCWOgJFg2SrqzHzzQp-oi7J3pssrVeiemhJFeax0edkzp1aB5kZa7ihlkDIb65zx1LgUd4l1kkQvOfMyZVFVpXX_fgSraSpqcm41ObdKhZqkomapsF_If6uj |
| ContentType | Journal Article |
| DBID | AAYXX CITATION DOA |
| DOI | 10.20535/1560-8956.47.2025.340167 |
| DatabaseName | CrossRef DOAJ Directory of Open Access Journals |
| DatabaseTitle | CrossRef |
| DatabaseTitleList | CrossRef |
| Database_xml | – sequence: 1 dbid: DOA name: DOAJ Directory of Open Access Journals url: https://www.doaj.org/ sourceTypes: Open Website |
| DeliveryMethod | fulltext_linktorsrc |
| Discipline | Engineering |
| EISSN | 2522-9575 |
| EndPage | 53 |
| ExternalDocumentID | oai_doaj_org_article_5a6c9e6f223543ec9ed364cf40b1ef91 10_20535_1560_8956_47_2025_340167 |
| GroupedDBID | AAYXX ADBBV ALMA_UNASSIGNED_HOLDINGS BCNDV CITATION GROUPED_DOAJ |
| ID | FETCH-LOGICAL-c1677-6dc53a0e9cd7b32086ae972592affe859786d175aad0c670b5c08f241f15c95e3 |
| IEDL.DBID | DOA |
| ISSN | 1560-8956 |
| IngestDate | Tue Oct 07 09:26:50 EDT 2025 Thu Oct 09 00:27:00 EDT 2025 |
| IsDoiOpenAccess | true |
| IsOpenAccess | true |
| IsPeerReviewed | true |
| IsScholarly | true |
| Issue | 47 |
| Language | English |
| License | https://creativecommons.org/licenses/by-nc-sa/4.0 |
| LinkModel | DirectLink |
| MergedId | FETCHMERGED-LOGICAL-c1677-6dc53a0e9cd7b32086ae972592affe859786d175aad0c670b5c08f241f15c95e3 |
| OpenAccessLink | https://doaj.org/article/5a6c9e6f223543ec9ed364cf40b1ef91 |
| PageCount | 13 |
| ParticipantIDs | doaj_primary_oai_doaj_org_article_5a6c9e6f223543ec9ed364cf40b1ef91 crossref_primary_10_20535_1560_8956_47_2025_340167 |
| PublicationCentury | 2000 |
| PublicationDate | 2025-09-28 |
| PublicationDateYYYYMMDD | 2025-09-28 |
| PublicationDate_xml | – month: 09 year: 2025 text: 2025-09-28 day: 28 |
| PublicationDecade | 2020 |
| PublicationTitle | Adaptivni sistemi avtomatičnogo upravlinnâ (Online) |
| PublicationYear | 2025 |
| Publisher | Igor Sikorsky Kyiv Polytechnic Institute |
| Publisher_xml | – name: Igor Sikorsky Kyiv Polytechnic Institute |
| SSID | ssj0002874775 ssib050728385 |
| Score | 2.3049445 |
| Snippet | Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання... |
| SourceID | doaj crossref |
| SourceType | Open Website Index Database |
| StartPage | 41 |
| SubjectTerms | Proximal Policy Optimization локальні оптимуми машинне навчання навчання з підкріпленням рух робота |
| Title | Покращення навчання з підкріпленням для складних задач руху робота |
| URI | https://doaj.org/article/5a6c9e6f223543ec9ed364cf40b1ef91 |
| Volume | 2 |
| hasFullText | 1 |
| inHoldings | 1 |
| isFullTextHit | |
| isPrint | |
| journalDatabaseRights | – providerCode: PRVAON databaseName: DOAJ Directory of Open Access Journals customDbUrl: eissn: 2522-9575 dateEnd: 99991231 omitProxy: false ssIdentifier: ssj0002874775 issn: 1560-8956 databaseCode: DOA dateStart: 20040101 isFulltext: true titleUrlDefault: https://www.doaj.org/ providerName: Directory of Open Access Journals – providerCode: PRVHPJ databaseName: ROAD: Directory of Open Access Scholarly Resources customDbUrl: eissn: 2522-9575 dateEnd: 99991231 omitProxy: false ssIdentifier: ssib050728385 issn: 1560-8956 databaseCode: M~E dateStart: 19980101 isFulltext: true titleUrlDefault: https://road.issn.org providerName: ISSN International Centre |
| link | http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV1LSx0xFA5FpNhF0arUassU3I7mTp6zVKl0IeKiLe7CTB6gi9via-WirYh05c6tf2GUFuVer_6F5B_1ZGaU68qNm0lyyJnJfBw454STLwjNS4JzYSByIyWXKSXGpFJSncrSMRMJ3jr1pX3f1sT6utzczDeGrvqKNWENPXAD3CIruM4td-DGGCUW-oZwqh3FZcc259YziHqGkimwJAhywG22rCzb9RYShM016248OZxKyApeoo-xDjrymyw-CBeoAFHGFgiN9fmPnNUQp3_tfFbH0es2akyWmtVOoBe2-wa9GuISnESH_tzf-l746avwx__zAz8Ipwk0lb8MJ_BsBVeJvwtn_m-cCu2d799P9jcJiPswKfzyPZBXMBz463AMWvWgCicJaB2F43AEHfjehb8Nv301hb6ufvqy8jltr1ZINfyWSLnRjBTY5tqIkgCAvLC5gFQoK5yzErIMyQ1EFkVhsOYCl0xj6cDbuw7TObNkGo10v3ftW5RgSwhoMYmFps7oInc8w6WELmRfzs6g7B5D9aNh0FCQedTAqwi8isArKlQEXjXAz6DliPaDQiTBrgVgGqo1DfWUabx7jpfMorG4rlgiksk5NLK3s2_fo1F9sLe1u_Ohtrr_W0P_Zw |
| linkProvider | Directory of Open Access Journals |
| openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%D0%9F%D0%BE%D0%BA%D1%80%D0%B0%D1%89%D0%B5%D0%BD%D0%BD%D1%8F+%D0%BD%D0%B0%D0%B2%D1%87%D0%B0%D0%BD%D0%BD%D1%8F+%D0%B7+%D0%BF%D1%96%D0%B4%D0%BA%D1%80%D1%96%D0%BF%D0%BB%D0%B5%D0%BD%D0%BD%D1%8F%D0%BC+%D0%B4%D0%BB%D1%8F+%D1%81%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%B8%D1%85+%D0%B7%D0%B0%D0%B4%D0%B0%D1%87+%D1%80%D1%83%D1%85%D1%83+%D1%80%D0%BE%D0%B1%D0%BE%D1%82%D0%B0&rft.jtitle=Adaptivni+sistemi+avtomati%C4%8Dnogo+upravlinn%C3%A2+%28Online%29&rft.au=%D0%93%D1%80%D0%B8%D0%B1%D0%B5%D0%BD%D0%BA%D0%BE%2C+%D0%84.&rft.au=%D0%A2%D0%B0%D1%80%D0%B0%D0%BD%2C+%D0%92.&rft.date=2025-09-28&rft.issn=1560-8956&rft.eissn=2522-9575&rft.volume=2&rft.issue=47&rft.spage=41&rft.epage=53&rft_id=info:doi/10.20535%2F1560-8956.47.2025.340167&rft.externalDBID=n%2Fa&rft.externalDocID=10_20535_1560_8956_47_2025_340167 |
| thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1560-8956&client=summon |
| thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1560-8956&client=summon |
| thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1560-8956&client=summon |