基于上下文相关字向量的中文命名实体识别

TP391.1; 命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类.由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据.为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能.同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统.把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示.文中在6个中文NER数据集上进行...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:计算机科学 Jg. 48; H. 3; S. 233 - 238
Hauptverfasser: 张栋, 陈文亮
Format: Journal Article
Sprache:Chinesisch
Veröffentlicht: 苏州大学计算机科学与技术学院 江苏 苏州 215006 15.03.2021
Schlagworte:
ISSN:1002-137X
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP391.1; 命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类.由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据.为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能.同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统.把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示.文中在6个中文NER数据集上进行了实验.实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F1值提升了4.95%.对实验结果进行进一步分析发现,新系统在OOV实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现.
ISSN:1002-137X
DOI:10.11896/jsjkx.191200074