Покращення навчання з підкріпленням для складних задач руху робота

Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота....

Full description

Saved in:
Bibliographic Details
Published in:Adaptivni sistemi avtomatičnogo upravlinnâ (Online) Vol. 2; no. 47; pp. 41 - 53
Main Authors: Грибенко, Є., Таран, В.
Format: Journal Article
Language:English
Published: Igor Sikorsky Kyiv Polytechnic Institute 28.09.2025
Subjects:
ISSN:1560-8956, 2522-9575
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Abstract Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота. В статті зроблено огляд прийомів і методів що покращують навчання, а також виділено прийоми, що допоможуть вирішити поставлену задачу руху робота з конфліктуючими нагородами та складним дослідженням простору. Для досягнення мети статті, на основі досліджених прийомів та власних експериментів запропоновано спосіб динамічної зупинки епізоду, що покращує результат навчання методом PPO на прикладі задачі слідування робота заданим точкам руху. Спосіб було застосовано до задачі слідування роботом точок руху, і порівняно результативність при різних параметрах, а також результат без застосування методу. Випробування способу показало, що він допоміг підвищити результат навчання на поставленій задачі. Запропонований спосіб є простим у застосуванні та підходить для задач машинного навчання з щільними нагородами, в яких дослідження агентом простору станів швидко виходить за рамки бажаної поведінки. Спосіб допомагає утримувати стан агента в околі оптимальної поведінки та допомагає уникнути випадків, коли агент ігнорує частину з підкріплень і результат навчання погіршується. Бібл. 9, іл. 6, табл. 2
AbstractList Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота. В статті зроблено огляд прийомів і методів що покращують навчання, а також виділено прийоми, що допоможуть вирішити поставлену задачу руху робота з конфліктуючими нагородами та складним дослідженням простору. Для досягнення мети статті, на основі досліджених прийомів та власних експериментів запропоновано спосіб динамічної зупинки епізоду, що покращує результат навчання методом PPO на прикладі задачі слідування робота заданим точкам руху. Спосіб було застосовано до задачі слідування роботом точок руху, і порівняно результативність при різних параметрах, а також результат без застосування методу. Випробування способу показало, що він допоміг підвищити результат навчання на поставленій задачі. Запропонований спосіб є простим у застосуванні та підходить для задач машинного навчання з щільними нагородами, в яких дослідження агентом простору станів швидко виходить за рамки бажаної поведінки. Спосіб допомагає утримувати стан агента в околі оптимальної поведінки та допомагає уникнути випадків, коли агент ігнорує частину з підкріплень і результат навчання погіршується. Бібл. 9, іл. 6, табл. 2
Author Грибенко, Є.
Таран, В.
Author_xml – sequence: 1
  givenname: Є.
  surname: Грибенко
  fullname: Грибенко, Є.
– sequence: 2
  givenname: В.
  surname: Таран
  fullname: Таран, В.
BookMark eNo9UctKAzEUDaJg1f5D_YCpecxNJksRHwXBja5Dmkmkoo7MuBFc-EDElTu3_sIoitLa9heSPzJ96Cbn3sO555J7VtDieXFuEVonuE0xMNggwHGSSeDtVESKQpulmHCxgBoUKE0kCFhEjX_ZMmpW1QnGmGYiFQIa6Nq_-pHvhxtfhyf_6Yd-GJ5bEWr_Hh7jOye-Wn4cXvzHRBpx7Ad_Yv_TivQgisKt70e-ju3Qf4eHODVt6vDYilP34SHcxyLue_OjcOfrNbTk9Gllm3NcRUc724dbe8n-wW5na3M_MfEvIuG5AaaxlSYXXUZxxrWVgoKk2jmbgRQZz4kArXNsuMBdMDhzNCWOgJFg2SrqzHzzQp-oi7J3pssrVeiemhJFeax0edkzp1aB5kZa7ihlkDIb65zx1LgUd4l1kkQvOfMyZVFVpXX_fgSraSpqcm41ObdKhZqkomapsF_If6uj
ContentType Journal Article
DBID AAYXX
CITATION
DOA
DOI 10.20535/1560-8956.47.2025.340167
DatabaseName CrossRef
DOAJ Directory of Open Access Journals
DatabaseTitle CrossRef
DatabaseTitleList CrossRef

Database_xml – sequence: 1
  dbid: DOA
  name: DOAJ Directory of Open Access Journals
  url: https://www.doaj.org/
  sourceTypes: Open Website
DeliveryMethod fulltext_linktorsrc
Discipline Engineering
EISSN 2522-9575
EndPage 53
ExternalDocumentID oai_doaj_org_article_5a6c9e6f223543ec9ed364cf40b1ef91
10_20535_1560_8956_47_2025_340167
GroupedDBID AAYXX
ADBBV
ALMA_UNASSIGNED_HOLDINGS
BCNDV
CITATION
GROUPED_DOAJ
ID FETCH-LOGICAL-c1677-6dc53a0e9cd7b32086ae972592affe859786d175aad0c670b5c08f241f15c95e3
IEDL.DBID DOA
ISSN 1560-8956
IngestDate Tue Oct 07 09:26:50 EDT 2025
Thu Oct 09 00:27:00 EDT 2025
IsDoiOpenAccess true
IsOpenAccess true
IsPeerReviewed true
IsScholarly true
Issue 47
Language English
License https://creativecommons.org/licenses/by-nc-sa/4.0
LinkModel DirectLink
MergedId FETCHMERGED-LOGICAL-c1677-6dc53a0e9cd7b32086ae972592affe859786d175aad0c670b5c08f241f15c95e3
OpenAccessLink https://doaj.org/article/5a6c9e6f223543ec9ed364cf40b1ef91
PageCount 13
ParticipantIDs doaj_primary_oai_doaj_org_article_5a6c9e6f223543ec9ed364cf40b1ef91
crossref_primary_10_20535_1560_8956_47_2025_340167
PublicationCentury 2000
PublicationDate 2025-09-28
PublicationDateYYYYMMDD 2025-09-28
PublicationDate_xml – month: 09
  year: 2025
  text: 2025-09-28
  day: 28
PublicationDecade 2020
PublicationTitle Adaptivni sistemi avtomatičnogo upravlinnâ (Online)
PublicationYear 2025
Publisher Igor Sikorsky Kyiv Polytechnic Institute
Publisher_xml – name: Igor Sikorsky Kyiv Polytechnic Institute
SSID ssj0002874775
ssib050728385
Score 2.3049445
Snippet Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання...
SourceID doaj
crossref
SourceType Open Website
Index Database
StartPage 41
SubjectTerms Proximal Policy Optimization
локальні оптимуми
машинне навчання
навчання з підкріпленням
рух робота
Title Покращення навчання з підкріпленням для складних задач руху робота
URI https://doaj.org/article/5a6c9e6f223543ec9ed364cf40b1ef91
Volume 2
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
journalDatabaseRights – providerCode: PRVAON
  databaseName: DOAJ Directory of Open Access Journals
  customDbUrl:
  eissn: 2522-9575
  dateEnd: 99991231
  omitProxy: false
  ssIdentifier: ssj0002874775
  issn: 1560-8956
  databaseCode: DOA
  dateStart: 20040101
  isFulltext: true
  titleUrlDefault: https://www.doaj.org/
  providerName: Directory of Open Access Journals
– providerCode: PRVHPJ
  databaseName: ROAD: Directory of Open Access Scholarly Resources
  customDbUrl:
  eissn: 2522-9575
  dateEnd: 99991231
  omitProxy: false
  ssIdentifier: ssib050728385
  issn: 1560-8956
  databaseCode: M~E
  dateStart: 19980101
  isFulltext: true
  titleUrlDefault: https://road.issn.org
  providerName: ISSN International Centre
link http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV1LSx0xFA5FpNhF0arUassU3I7mTp6zVKl0IeKiLe7CTB6gi9via-WirYh05c6tf2GUFuVer_6F5B_1ZGaU68qNm0lyyJnJfBw454STLwjNS4JzYSByIyWXKSXGpFJSncrSMRMJ3jr1pX3f1sT6utzczDeGrvqKNWENPXAD3CIruM4td-DGGCUW-oZwqh3FZcc259YziHqGkimwJAhywG22rCzb9RYShM016248OZxKyApeoo-xDjrymyw-CBeoAFHGFgiN9fmPnNUQp3_tfFbH0es2akyWmtVOoBe2-wa9GuISnESH_tzf-l746avwx__zAz8Ipwk0lb8MJ_BsBVeJvwtn_m-cCu2d799P9jcJiPswKfzyPZBXMBz463AMWvWgCicJaB2F43AEHfjehb8Nv301hb6ufvqy8jltr1ZINfyWSLnRjBTY5tqIkgCAvLC5gFQoK5yzErIMyQ1EFkVhsOYCl0xj6cDbuw7TObNkGo10v3ftW5RgSwhoMYmFps7oInc8w6WELmRfzs6g7B5D9aNh0FCQedTAqwi8isArKlQEXjXAz6DliPaDQiTBrgVgGqo1DfWUabx7jpfMorG4rlgiksk5NLK3s2_fo1F9sLe1u_Ohtrr_W0P_Zw
linkProvider Directory of Open Access Journals
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%D0%9F%D0%BE%D0%BA%D1%80%D0%B0%D1%89%D0%B5%D0%BD%D0%BD%D1%8F+%D0%BD%D0%B0%D0%B2%D1%87%D0%B0%D0%BD%D0%BD%D1%8F+%D0%B7+%D0%BF%D1%96%D0%B4%D0%BA%D1%80%D1%96%D0%BF%D0%BB%D0%B5%D0%BD%D0%BD%D1%8F%D0%BC+%D0%B4%D0%BB%D1%8F+%D1%81%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%B8%D1%85+%D0%B7%D0%B0%D0%B4%D0%B0%D1%87+%D1%80%D1%83%D1%85%D1%83+%D1%80%D0%BE%D0%B1%D0%BE%D1%82%D0%B0&rft.jtitle=Adaptivni+sistemi+avtomati%C4%8Dnogo+upravlinn%C3%A2+%28Online%29&rft.au=%D0%93%D1%80%D0%B8%D0%B1%D0%B5%D0%BD%D0%BA%D0%BE%2C+%D0%84.&rft.au=%D0%A2%D0%B0%D1%80%D0%B0%D0%BD%2C+%D0%92.&rft.date=2025-09-28&rft.issn=1560-8956&rft.eissn=2522-9575&rft.volume=2&rft.issue=47&rft.spage=41&rft.epage=53&rft_id=info:doi/10.20535%2F1560-8956.47.2025.340167&rft.externalDBID=n%2Fa&rft.externalDocID=10_20535_1560_8956_47_2025_340167
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1560-8956&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1560-8956&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1560-8956&client=summon