|本期目录/Table of Contents|

[1]柴 悦,赵彤洲*,江逸琪,等.基于Att-iBi-LSTM的新闻主题词提取方法研究[J].武汉工程大学学报,2020,42(05):575-580.[doi:10.19843/j.cnki.CN42-1779/TQ.202003021]
 CHAI Yue,ZHAO Tongzhou*,JIANG Yiqi,et al.Method for Extracting Topic Words of News Based on Att-iBi-LSTM Model[J].Journal of Wuhan Institute of Technology,2020,42(05):575-580.[doi:10.19843/j.cnki.CN42-1779/TQ.202003021]
点击复制

基于Att-iBi-LSTM的新闻主题词提取方法研究(/HTML)
分享到:

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

卷:
42
期数:
2020年05期
页码:
575-580
栏目:
机电与信息工程
出版日期:
2021-01-29

文章信息/Info

Title:
Method for Extracting Topic Words of News Based on Att-iBi-LSTM Model
文章编号:
1674 - 2869(2020)05 - 0575 - 06
作者:
柴 悦赵彤洲*江逸琪高佩东
武汉工程大学计算机科学与工程学院,湖北 武汉 430205
Author(s):
CHAI YueZHAO Tongzhou*JIANG YiqiGAO Peidong
School of Computer Science and Engineering, Wuhan Institute of Technology, Wuhan 430205, China
关键词:
LSTMAttention机制主题词提取
Keywords:
LSTM Attention topic words extraction
分类号:
TP391
DOI:
10.19843/j.cnki.CN42-1779/TQ.202003021
文献标志码:
A
摘要:
针对LSTM网络进行主题词提取时因没有考虑中心词的下文对主题词的影响而导致提取准确率低的问题,提出了一种双向LSTM引入Attention机制模型(Att-iBi-LSTM)的主题词提取方法。首先利用LSTM模型将中心词的上文和下文信息在两个方向上建模;然后在双向LSTM模型中引入注意力机制,为影响力更高的特征分配更高的权重;最后利用softmax层将文档中的词分为主题词或非主题词。并且还提出了一种两阶段模型训练方法,即在自动标注的训练集上进行预训练之后,再利用人工标注数据集训练模型。实验在体育、娱乐和科技3种新闻文本上进行主题词提取任务,实验结果表明本文提出的Att-iBi-LSTM模型与SVM、TextRank和LSTM相比F1值分别提高了13.78%、24.31%和3.32%,使用两阶段训练方法的Att-iBi-LSTM比一阶段训练的F1值提高了1.56%。
Abstract:
Aiming at the problem of low recognition accuracy of topic words extraction due to the lack of partial contextual information based on long short-term memory (LSTM), we presented a bi-directional LSTM network introduced attention mechanism model (Att-iBi-LSTM) for topic words extraction. First, the LSTM model was used to model the context information of the central word in two directions. Then, the attention mechanism was introduced to assign higher weight to the significant features. Finally, the words in the document were divided into topic words or non-topic words by using softmax layer. We also proposed a two-stage model training method, that is, after pre-training on the automatically labeled training set, the model is manually trained using the labeled data set. The topic words extraction task was performed on three types of news texts: sports news, entertainment news and scientific news. Experimental results show that the Att-iBi-LSTM model improves the F1-measure by 13.78%, 24.31% and 3.32% respectively compared with models support vector machine, TextRank, and LSTM. The F1-measure of Att-iBi-LSTM model is 1.56% higher than that of one-stage training.

参考文献/References:

[1] 惠磊. 基于关键词的文本主题分类的研究与设计[D]. 北京:北京邮电大学,2017. [2] 张颖怡,章成志,陈果. 基于关键词的学术文本聚类集成研究[J]. 情报学报,2019,38(8):860-871. [3] 李舟军,李水华. 基于Web的问答系统综述[J]. 计算机科学,2017,44(6):1-7. [4] 张建娥. 基于TFIDF和词语关联度的中文关键词提取方法[J]. 情报科学,2012,30(10):1542-1544. [5] 郎冬冬,刘晨晨,冯旭鹏,等. 一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现[J]. 计算机应用与软件,2018,35(3):54-60. [6] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题词提取方法[J]. 数据分析与知识发现,2019,3(7):52-60. [7] 常耀成,张宇翔,王红,等. 特征驱动的关键词提取算法综述[J]. 软件学报,2018,29(7):2046-2070. [8] 侯丽微,胡珀,曹雯琳. 主题词信息融合的中文生成式自动摘要研究[J]. 自动化学报,2019,45(3):530-539. [9] SCHMIDHUBER J.Deep learning in neural networks:an overview[J]. Neural Networks,2015,61:85-117. [10] 吴小华, 陈莉,魏甜甜,等. 基于Self-Attention和Bi-LSTM的中文短文本情感分析[J]. 中文信息学报,2019,33(6):100-107. [11] 张聪品,方滔,刘昱良. 基于LSTM-CRF命名实体识别技术的研究与应用[J]. 计算机技术与发展,2019,29(2):106-108. [12] 黄丹丹. 基于深度学习的中文分词和关键词抽取模型研究[D]. 北京:北京邮电大学,2019. [13] 陈伟,吴友政,陈文亮,等. 基于BiLSTM-CRF的关键词自动抽取[J]. 计算机科学,2018,45(增刊1):91-96. [14] 邓钰,雷航,李晓瑜,等. 用于目标情感分类的多跳注意力深度模型[J]. 电子科技大学学报,2019,48(5):759-766. [15] 石磊,张鑫倩,陶永才,等. 结合自注意力机制和Tree- LSTM的情感分析模型[J]. 小型微型计算机系统,2019,40(7):1486-1490. [16] 姜恬静,和欣,何军,等. 结合卷积和长短期记忆网络的长文分类方法[J]. 小型微型计算机系统,2019,40(11):2309-2312. [17] 张慧. 深度学习中优化算法的研究与改进[D]. 北京:北京邮电大学,2018. [18] 唐明,朱磊,邹显春. 基于Word2Vec的一种文档向量表示[J]. 计算机科学,2016,43(6):214-217.

相似文献/References:

备注/Memo

备注/Memo:
收稿日期:2020-03-22 基金项目:国家自然科学基金(61601176);武汉研究院开放性课题(IWHS20192031) 作者简介:柴 悦,硕士研究生。E-mail:chai.yue@foxmail.com *通讯作者:赵彤洲,博士,副教授。E-mail:zhao_tongzhou@126.com 引文格式:柴悦,赵彤洲,江逸琪,等. 基于双向LSTM引入Attention的新闻主题词提取[J]. 武汉工程大学学报,2020,42(5):575-580.
更新日期/Last Update: 2020-11-02