Evoluční algoritmy v posilovaném učení ; Evolutionary Algorithms in Reinforcement Learning

Uložené v:
Podrobná bibliografia
Názov: Evoluční algoritmy v posilovaném učení ; Evolutionary Algorithms in Reinforcement Learning
Autori: Gulčíková, Sabína
Prispievatelia: Sekanina, Lukáš, Vašíček, Zdeněk
Informácie o vydavateľovi: Vysoké učení technické v Brně. Fakulta informačních technologií
Rok vydania: 2025
Zbierka: Brno University of Technology (VUT): Digital Library / Vysoké učení technické v Brně: Digitální knihovně
Predmety: posilované učenie, evolučné výpočty, evolučné posilované učenie, evolučný dizajn hodnotiaceho signálu, DQN algoritmus, PPO algoritmus, CartPole úloha, generalizácia, reinforcement learning, evolutionary computation, reward shaping, evolutionary reward design, DQN algorithm, PPO algorithm, CartPole task, generalization
Popis: Funkcia odmeny je jedným z najdôležitejších signálov, ktoré vedú agenta pri učení v konfigurácii bez znalosti modelu prostredia. Prenesenie komplexného cieľa úlohy do ekvivalentného matematického výrazu je netriviálny proces, ktorý pri nesprávnom prístupe môže viesť k neželaným javom, ako je zneužívanie odmeny (reward hacking) alebo úplné zlyhanie učenia. Formovanie odmien (reward shaping) je metóda, ktorá agentovi poskytuje dodatočné informácie o úlohe s cieľom zlepšiť efektivitu a stabilitu jeho učenia. Táto diplomová práca sa zaoberá použitím genetického programovania na evolúciu formovacích funkcií odmeny, čím presúva záťaž návrhu z manuálneho procesu na automatickú evolúciu riadenú vhodne navrhnutou fitness funkciou. Tá umožňuje optimalizáciu zameriavať na požadované správanie agenta a priebeh učenia, výsledkom čoho je možnosť objaviť vhodné formy odmeňovania. Kvalitu tohto prístupu vyhodnocujeme na úlohe CartPole a porovnávame ho s prístupmi založenými na náhodne vygenerovaných aj ručne navrhnutých funkciách, ako aj so základným prístupom bez dodatočnej funkcie odmeny. Okrem štandardného učenia vyhodnocujeme aplikácie vyvinutých funkcií v rámci tzv. transfer učenia, pričom sa zameriavame na ich robustnosť a dopad na agentovu schopnosť učiť sa aj v prostrediach so zmenenou dynamikou, bez potreby dodatočnej zmeny hyperparametrov. ; Reward function is one of the key signals guiding agents during learning in a model-free reinforcement learning setup. Translating a complex task objective into a meaningful mathematical expression is a non-trivial process, which, if done incorrectly, can lead to negative side effects such as reward hacking or complete failure to learn. Reward shaping is a method of providing additional information about the task to improve learning efficiency and stability, offering potential for alleviating problems stemming from incorrect reward design. This thesis explores the use of genetic programming for evolving reward shaping functions, shifting the design burden from manual engineering ...
Druh dokumentu: master thesis
Popis súboru: application/pdf; text/html
Jazyk: English
Relation: GULČÍKOVÁ, S. Evoluční algoritmy v posilovaném učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.; 165202; https://hdl.handle.net/11012/255136
Dostupnosť: https://hdl.handle.net/11012/255136
Rights: Standardní licenční smlouva - přístup k plnému textu bez omezení
Prístupové číslo: edsbas.460DD918
Databáza: BASE
Buďte prvý, kto okomentuje tento záznam!
Najprv sa musíte prihlásiť.