SentiBERT:结合情感信息的预训练语言模型

TP391; 在大规模无监督语料上预训练的语言模型正逐渐受到自然语言处理领域研究者的关注.现有模型在预训练阶段主要提取文本的语义和结构特征,针对情感类任务的复杂情感特征,在最新的预训练语言模型BERT(双向transformers编码表示)的基础上,提出了一种侧重学习情感特征的预训练方法.在目标领域的预训练阶段,利用情感词典改进了B E RT的预训练任务.同时,使用基于上下文的词粒度情感预测任务对掩盖词情感极性进行分类,获取偏向情感特征的文本表征.最后在少量标注的目标数据集上进行微调.实验结果表明,相较于原B E RT模型,可将情感任务的精度提升1个百分点,特别是训练样本较少时,能取得更先进的...

Full description

Saved in:
Bibliographic Details
Published in:计算机科学与探索 Vol. 14; no. 9; pp. 1563 - 1570
Main Authors: 杨晨, 宋晓宁, 宋威
Format: Journal Article
Language:Chinese
Published: 江南大学 人工智能与计算机学院,江苏 无锡 214122 01.09.2020
Subjects:
ISSN:1673-9418
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:TP391; 在大规模无监督语料上预训练的语言模型正逐渐受到自然语言处理领域研究者的关注.现有模型在预训练阶段主要提取文本的语义和结构特征,针对情感类任务的复杂情感特征,在最新的预训练语言模型BERT(双向transformers编码表示)的基础上,提出了一种侧重学习情感特征的预训练方法.在目标领域的预训练阶段,利用情感词典改进了B E RT的预训练任务.同时,使用基于上下文的词粒度情感预测任务对掩盖词情感极性进行分类,获取偏向情感特征的文本表征.最后在少量标注的目标数据集上进行微调.实验结果表明,相较于原B E RT模型,可将情感任务的精度提升1个百分点,特别是训练样本较少时,能取得更先进的效果.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1910037