Generování zdrojových kódů na základě popisu v přirozeném jazyce ; Source Code Generation from Descriptions in a Natural Language
Uloženo v:
| Název: | Generování zdrojových kódů na základě popisu v přirozeném jazyce ; Source Code Generation from Descriptions in a Natural Language |
|---|---|
| Autoři: | Pašek, Jan |
| Přispěvatelé: | Konopík Miloslav, Ing. Ph.D., Habernal Ivan, Ing. Ph.D. |
| Informace o vydavateli: | Západočeská univerzita v Plzni |
| Rok vydání: | 2021 |
| Sbírka: | University of West Bohemia Digital Library / Digitální knihovna Západočeské univerzity v Plzni |
| Témata: | strojové učení, zpracování přirozeného jazyka, neuronové sítě, generování zdrojového kódu, syntéza kódu, machine learning, natural language processing, neural networks, source code generation, code synthesis |
| Popis: | Tato diplomová práce představuje CodeFormer, nový model neuronové sítě, schopný na základě popisu úlohy v anglickém jazyce generovat funkce v programovacím jazyce Python. Tento model, založený na architektuře modelu BART, je předtrénovaný na 230 milionech funkcích získaných z veřejných GitHub repozitářů. Po dotrénování na CodeSearchNet datasetu náš model překonává konkurenční modely a nastavuje tak nové state of the art s 46,12 BLEU, což představuje zlepšení o 13,86 BLEU. Vedle CodeFormer modelu tato práce představuje nový Stack Overflow Code Generation Dataset (SOCGD), který je určený k trénování generativních modelů zdrojových kódů. Na tomto datasetu náš model dosahuje výsledku 47,68 BLEU. Výsledný model lze integrovat do vývojových prostředí a umožnit tak programátorům generovat části zdrojových kódů s cílem zvýšit efektivitu jejich práce. V rámci našeho výzkumu jsme také objevili lepší přístup k trénování modelu BART na úloze strojového překladu. Použitelnost tohoto přístupu na jiných doménách je třeba ověřit v navazující práci. ; Obhájeno ; This work introduces CodeFormer, a Python source code generator pre-trained on a massive GitHub crawl consisting of 230M Python functions. The released model, built on BART architecture, generates Python functions based on descriptions in English. On a CodeSearchNet dataset, the CodeFormer sets a new state of the art with 46.12 BLEU, representing an improvement of 13.86 BLEU. We also release a new parallel corpus for code generation called Stack Overflow Code Generation Dataset (SOCGD), on which our model sets a baseline of 47.68 BLEU. The resulting model is ready to be integrated into a source code suggestion system in an IDE, where it can improve software developers' productivity. During our research, we discovered a better way of training the BART for machine translation. However, the applicability of our approach to other domains must be verified in subsequent work. |
| Druh dokumentu: | thesis |
| Popis souboru: | 97 s. (126 800 znaků) |
| Jazyk: | English |
| Relation: | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=89761; 89761; http://hdl.handle.net/11025/49093 |
| Dostupnost: | http://hdl.handle.net/11025/49093 |
| Rights: | Plný text práce je přístupný bez omezení |
| Přístupové číslo: | edsbas.7B99EEFA |
| Databáze: | BASE |
Buďte první, kdo okomentuje tento záznam!
Nájsť tento článok vo Web of Science