Об одном подходе к извлечению именованных сущностей из неструктурированных текстов

Uložené v:
Podrobná bibliografia
Názov: Об одном подходе к извлечению именованных сущностей из неструктурированных текстов
Zdroj: Информатика. Экономика. Управление, Vol 2, Iss 3 (2023)
Informácie o vydavateľovi: Krasnoyarsk Science and Technology City Hall, 2023.
Rok vydania: 2023
Predmety: 0202 electrical engineering, electronic engineering, information engineering, обработка информации, неструктурированный текст, именованная сущность, лексема, скрытая марковская цепь, 02 engineering and technology, General Works
Popis: В статье рассматривается один их возможных подходов к извлечению именованных сущностей из неструктурированных текстов. Отмечается сложность и трудоемкость наиболее распространенных методов решения данной задачи, базирующихся на использовании создаваемых вручную конечных автоматов. Возникает ряд сложностей при реализации данного подхода при обработке мультилингвистических текстов, так как для каждого нового языка и для каждого нового класса сущностей требуется вмешательство человека для создания вручную нового набора шаблонов для работы с новыми языками и новыми классами. Предлагаемый подход предполагает использование принципов машинного обучения. Дана постановка задачи и описана используемая модель марковской цепи при распознавании именованных сущностей. На основе данной модели для выделения именованных объектов ставится задача нахождения наиболее вероятной последовательности состояний, генерирующих последовательность лексем. В статье описан лексический материал, включающий состав признаков и их описания, представлена методика декодирования и оценка параметров модели. В данной работе для решения задачи используется алгоритм Витерби, который предназначен для нахождения последовательности состояний, для которых вероятность порождения наблюдаемой цепочки символов максимальна. В качестве экспериментальных результатов представлены характеристики точности распознавания типов лексем при различных размерах обучающей выборки и диаграмма количества ошибок по классам лексем.
Druh dokumentu: Article
ISSN: 2782-5280
DOI: 10.47813/2782-5280-2023-2-2-0301-0313
Prístupová URL adresa: https://doaj.org/article/9c5c3519cb604116a18f988df54291cc
Rights: CC BY
Prístupové číslo: edsair.doi.dedup.....5f398d460ebf12654ac1cc2c8918c4ee
Databáza: OpenAIRE
Popis
Abstrakt:В статье рассматривается один их возможных подходов к извлечению именованных сущностей из неструктурированных текстов. Отмечается сложность и трудоемкость наиболее распространенных методов решения данной задачи, базирующихся на использовании создаваемых вручную конечных автоматов. Возникает ряд сложностей при реализации данного подхода при обработке мультилингвистических текстов, так как для каждого нового языка и для каждого нового класса сущностей требуется вмешательство человека для создания вручную нового набора шаблонов для работы с новыми языками и новыми классами. Предлагаемый подход предполагает использование принципов машинного обучения. Дана постановка задачи и описана используемая модель марковской цепи при распознавании именованных сущностей. На основе данной модели для выделения именованных объектов ставится задача нахождения наиболее вероятной последовательности состояний, генерирующих последовательность лексем. В статье описан лексический материал, включающий состав признаков и их описания, представлена методика декодирования и оценка параметров модели. В данной работе для решения задачи используется алгоритм Витерби, который предназначен для нахождения последовательности состояний, для которых вероятность порождения наблюдаемой цепочки символов максимальна. В качестве экспериментальных результатов представлены характеристики точности распознавания типов лексем при различных размерах обучающей выборки и диаграмма количества ошибок по классам лексем.
ISSN:27825280
DOI:10.47813/2782-5280-2023-2-2-0301-0313