基于上下文相关字向量的中文命名实体识别
TP391.1; 命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类.由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据.为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能.同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统.把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示.文中在6个中文NER数据集上进行...
Uloženo v:
| Vydáno v: | 计算机科学 Ročník 48; číslo 3; s. 233 - 238 |
|---|---|
| Hlavní autoři: | , |
| Médium: | Journal Article |
| Jazyk: | čínština |
| Vydáno: |
苏州大学计算机科学与技术学院 江苏 苏州 215006
15.03.2021
|
| Témata: | |
| ISSN: | 1002-137X |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
| Abstract | TP391.1; 命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类.由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据.为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能.同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统.把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示.文中在6个中文NER数据集上进行了实验.实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F1值提升了4.95%.对实验结果进行进一步分析发现,新系统在OOV实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现. |
|---|---|
| AbstractList | TP391.1; 命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类.由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据.为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能.同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统.把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示.文中在6个中文NER数据集上进行了实验.实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F1值提升了4.95%.对实验结果进行进一步分析发现,新系统在OOV实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现. |
| Author | 张栋 陈文亮 |
| AuthorAffiliation | 苏州大学计算机科学与技术学院 江苏 苏州 215006 |
| AuthorAffiliation_xml | – name: 苏州大学计算机科学与技术学院 江苏 苏州 215006 |
| Author_FL | CHEN Wen-liang ZHANG Dong |
| Author_FL_xml | – sequence: 1 fullname: ZHANG Dong – sequence: 2 fullname: CHEN Wen-liang |
| Author_xml | – sequence: 1 fullname: 张栋 – sequence: 2 fullname: 陈文亮 |
| BookMark | eNotj81KAzEUhbOoYK3d-wTupt6bTGaapRT_oOBGwV3JJBNxlBQcRB9ArShqi6BgoT6AVBduhkLfJrH6Fg4qZ3HgLL6Ps0AqtmtTQpYQGohNEa1keXZ41kCBFADisEKqCEADZPHePKnn-UEClEVhGawS4V8mbnLnimtX3Hw-9mbDwl98-PGT7w--e_ez53NXjMvdD6a-f-vfRm768PV-6a9eF8mckUd5Wv_vGtldX9tpbQbt7Y2t1mo7yBEYBhJBK8EwNZrzUCihm4ZS4HGUMC6l0oLxyIDkQMHERjNNExUlIjU8kSqMWY0s_3FPpTXS7ney7smxLY2d36MUaOkpTewHFFxfAw |
| ClassificationCodes | TP391.1 |
| ContentType | Journal Article |
| Copyright | Copyright © Wanfang Data Co. Ltd. All Rights Reserved. |
| Copyright_xml | – notice: Copyright © Wanfang Data Co. Ltd. All Rights Reserved. |
| DBID | 2B. 4A8 92I 93N PSX TCJ |
| DOI | 10.11896/jsjkx.191200074 |
| DatabaseName | Wanfang Data Journals - Hong Kong WANFANG Data Centre Wanfang Data Journals 万方数据期刊 - 香港版 China Online Journals (COJ) China Online Journals (COJ) |
| DatabaseTitleList | |
| DeliveryMethod | fulltext_linktorsrc |
| Discipline | Computer Science |
| DocumentTitle_FL | Chinese Named Entity Recognition Based on Contextualized Char Embeddings |
| EndPage | 238 |
| ExternalDocumentID | jsjkx202103031 |
| GrantInformation_xml | – fundername: 国家自然科学基金 funderid: (61876115) |
| GroupedDBID | -0Y 2B. 4A8 5XA 5XJ 92H 92I 93N ABJNI ACGFS ALMA_UNASSIGNED_HOLDINGS CCEZO CUBFJ CW9 GROUPED_DOAJ PSX TCJ TGT U1G U5S |
| ID | FETCH-LOGICAL-s1031-a10dc931efd5549c9d8f220576b35aacd9356f0a5020f7fd3d2bc6b9ef5bac473 |
| ISSN | 1002-137X |
| IngestDate | Thu May 29 04:00:13 EDT 2025 |
| IsPeerReviewed | false |
| IsScholarly | true |
| Issue | 3 |
| Keywords | 命名实体识别 语言模型 上下文相关字向量 |
| Language | Chinese |
| LinkModel | OpenURL |
| MergedId | FETCHMERGED-LOGICAL-s1031-a10dc931efd5549c9d8f220576b35aacd9356f0a5020f7fd3d2bc6b9ef5bac473 |
| PageCount | 6 |
| ParticipantIDs | wanfang_journals_jsjkx202103031 |
| PublicationCentury | 2000 |
| PublicationDate | 2021-03-15 |
| PublicationDateYYYYMMDD | 2021-03-15 |
| PublicationDate_xml | – month: 03 year: 2021 text: 2021-03-15 day: 15 |
| PublicationDecade | 2020 |
| PublicationTitle | 计算机科学 |
| PublicationTitle_FL | Computer Science |
| PublicationYear | 2021 |
| Publisher | 苏州大学计算机科学与技术学院 江苏 苏州 215006 |
| Publisher_xml | – name: 苏州大学计算机科学与技术学院 江苏 苏州 215006 |
| SSID | ssib023646461 ssib051375750 ssib001164759 ssj0057673 |
| Score | 2.319471 |
| Snippet | TP391.1; 命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类.由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据.为解决中文命... |
| SourceID | wanfang |
| SourceType | Aggregation Database |
| StartPage | 233 |
| Title | 基于上下文相关字向量的中文命名实体识别 |
| URI | https://d.wanfangdata.com.cn/periodical/jsjkx202103031 |
| Volume | 48 |
| hasFullText | 1 |
| inHoldings | 1 |
| isFullTextHit | |
| isPrint | |
| journalDatabaseRights | – providerCode: PRVAON databaseName: DOAJ Directory of Open Access Journals issn: 1002-137X databaseCode: DOA dateStart: 20210101 customDbUrl: isFulltext: true dateEnd: 99991231 titleUrlDefault: https://www.doaj.org/ omitProxy: false ssIdentifier: ssj0057673 providerName: Directory of Open Access Journals |
| link | http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwtV3NbtQwELZK4cCFf8Q_e8CnVSCJk9g-JtusOKCKQ0F7q5I4AQoKqFuqFWegCAS0QgIJJHgAVDhwWVXq22wovAUzTrIJ9AA9cLEsezz-7Nlkxt7MDCGXHGZnIpLMgPNPajixrQyRxLHhxUrJjEubay_Xm9f4_LwYDOT1mX1x7Quzeo_nuRiN5IP_KmpoA2Gj6-wexD1lCg1QB6FDCWKH8p8ET0OXyj4NfBo6WIpQVwQVfl0JaOhR6VHBacipDLARRgmXBgwr_hyVXPMxqbRoKJFS9DUxMHQqPkDW8HGRMpirRgld8UMqy9mBIXCGIX0qPD0X1IO2Zax7Q-pbOAsO5Jp5Ty8EWrhGorH509tEbAh61DeRFkoRND2SSonTNBD1dvhh-6LD1l96la6e-qeJMGB_cLHAmmv8MKmDAOrZ9wS13vMQaUAEwqyI_X6LRoP17S72BRbKr8bR3Y2oCwaUaXotfaJzxzA-aCscR7QeLNbWHmVMkMoQscuwN7t1nJB437I0XLo7ugzHbVvbgY0-n35lqSlwJ-FFjqEG9tvclVbr2kGbzBhQrjFpMZ-A1wox6AJ4sOjN2rqB4ykvnVaqhdV__QOoK39A0n5weRblt1om28IRcqg6a3X88hk5SmYe3T5GDtd5TDqVWjtOZPFpa7L1ajJ-Phm_-P52befDuHjyrdh8V6xv_Fx7vfP-8WS8Ce3Fxnax_rL48nGy_ebH16fFs88nyI1-uNC7alQpRYwh5jMxIstUiWRWmimwo2UilcjQ1Zx7MXOjKFGSuV5mRi6cojKeKabsOPFimWZuHCUOZyfJbH4_T0-RjuIiwdBLijPlpJElMtNJGGY0cDzTir3T5GK1-sXq7TBc_F0iZ_5KcZYcbJ6Ec2R2Zflhep4cSFZX7gyXL2hB_gK5nomp |
| linkProvider | Directory of Open Access Journals |
| openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%E5%9F%BA%E4%BA%8E%E4%B8%8A%E4%B8%8B%E6%96%87%E7%9B%B8%E5%85%B3%E5%AD%97%E5%90%91%E9%87%8F%E7%9A%84%E4%B8%AD%E6%96%87%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB&rft.jtitle=%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6&rft.au=%E5%BC%A0%E6%A0%8B&rft.au=%E9%99%88%E6%96%87%E4%BA%AE&rft.date=2021-03-15&rft.pub=%E8%8B%8F%E5%B7%9E%E5%A4%A7%E5%AD%A6%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6%E4%B8%8E%E6%8A%80%E6%9C%AF%E5%AD%A6%E9%99%A2+%E6%B1%9F%E8%8B%8F+%E8%8B%8F%E5%B7%9E+215006&rft.issn=1002-137X&rft.volume=48&rft.issue=3&rft.spage=233&rft.epage=238&rft_id=info:doi/10.11896%2Fjsjkx.191200074&rft.externalDocID=jsjkx202103031 |
| thumbnail_s | http://cvtisr.summon.serialssolutions.com/2.0.0/image/custom?url=http%3A%2F%2Fwww.wanfangdata.com.cn%2Fimages%2FPeriodicalImages%2Fjsjkx%2Fjsjkx.jpg |