Два метода выявления русских заимствований в якутских текстах

Saved in:
Bibliographic Details
Title: Два метода выявления русских заимствований в якутских текстах
Source: International Journal of Open Information Technologies. 10
Publisher Information: Internet Media League, 2022.
Publication Year: 2022
Subject Terms: identification of Russian words, автоматическая обработка текстов, якутский язык, выделение русских заимствований, natural language processing, n-грамм, n-grams, Yakut language
Description: В этой статье рассматриваются два метода выделения русскоязычные заимствований в якутских текстах. Под русскоязычным заимствованием понимаются лексические элементы, корни которых не адаптированы к якутской фонетике и пишутся как в исходном языке. Исходя из того, что большинство заимствований в якутских текстах происходит из русского языка, предполагается, что они имеют определенную форму, по которой их можно отличить от якутских словоформ. Первый метод опирается на правилах. В нем реализован алгоритм, выявляющий сочетания букв, чуждые якутскому языку. Второй метод применяет статистический подход к моделированию сочетаний якутских и русских букв. Эффективность обоих методов извлечения заимствований сравнивается с результатами ручного выделения носителями русского языка в 6 якутских текстах. Данная работа является продолжением предыдущей статьи авторов. The article discusses two methods for extracting foreign words from Yakut texts. Foreign words refer to non-integrated lexical units, which have not been adapted to Yakut orthography and are therefore written as in the original language. Based on the fact that most foreign words in Yakut texts come from the Russian language, it is assumed that they have a particular form by which they can be distinguished from the Yakut word forms. The first method reviewed here is based on rules. It implements an algorithm that detects letter combinations that are foreign to the Yakut language. The second method applies a statistical approach to model and differentiate Yakut and Russian letter combinations. The effectiveness of both methods in extracting Russian foreign words is compared with the results of manual highlighting performed by Russian speakers on 6 Yakut texts. This work is a continuation of the article “Identification of Russian borrowings in Yakut texts”, published in “Computer Linguistics and Computational Ontologies. Number 5 (Proceedings of the XXIV Joint International Conference "Internet and Modern Society, IMS-2022.
Document Type: Article
Language: Russian
ISSN: 2307-8162
DOI: 10.25559/injoit.2307-8162.10.202211.26-34
Accession Number: edsair.doi...........7bf458cd990ff55bd4b1d3adceca71b7
Database: OpenAIRE
Description
Abstract:В этой статье рассматриваются два метода выделения русскоязычные заимствований в якутских текстах. Под русскоязычным заимствованием понимаются лексические элементы, корни которых не адаптированы к якутской фонетике и пишутся как в исходном языке. Исходя из того, что большинство заимствований в якутских текстах происходит из русского языка, предполагается, что они имеют определенную форму, по которой их можно отличить от якутских словоформ. Первый метод опирается на правилах. В нем реализован алгоритм, выявляющий сочетания букв, чуждые якутскому языку. Второй метод применяет статистический подход к моделированию сочетаний якутских и русских букв. Эффективность обоих методов извлечения заимствований сравнивается с результатами ручного выделения носителями русского языка в 6 якутских текстах. Данная работа является продолжением предыдущей статьи авторов. The article discusses two methods for extracting foreign words from Yakut texts. Foreign words refer to non-integrated lexical units, which have not been adapted to Yakut orthography and are therefore written as in the original language. Based on the fact that most foreign words in Yakut texts come from the Russian language, it is assumed that they have a particular form by which they can be distinguished from the Yakut word forms. The first method reviewed here is based on rules. It implements an algorithm that detects letter combinations that are foreign to the Yakut language. The second method applies a statistical approach to model and differentiate Yakut and Russian letter combinations. The effectiveness of both methods in extracting Russian foreign words is compared with the results of manual highlighting performed by Russian speakers on 6 Yakut texts. This work is a continuation of the article “Identification of Russian borrowings in Yakut texts”, published in “Computer Linguistics and Computational Ontologies. Number 5 (Proceedings of the XXIV Joint International Conference "Internet and Modern Society, IMS-2022.
ISSN:23078162
DOI:10.25559/injoit.2307-8162.10.202211.26-34