|本期目录/Table of Contents|

[1]江逸琪,赵彤洲*,柴 悦,等.基于BiLSTM-CRF的体育新闻主题词抽取方法[J].武汉工程大学学报,2020,42(01):102-107.[doi:10.19843/j.cnki.CN42-1779/TQ.201908018]
 JIANG Yiqi,ZHAO Tongzhou*,CHAI Yue,et al.Topic Word Extraction Based on BiLSTM-CRF for Sport News[J].Journal of Wuhan Institute of Technology,2020,42(01):102-107.[doi:10.19843/j.cnki.CN42-1779/TQ.201908018]
点击复制

基于BiLSTM-CRF的体育新闻主题词抽取方法(/HTML)
分享到:

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

卷:
42
期数:
2020年01期
页码:
102-107
栏目:
机电与信息工程
出版日期:
2021-01-25

文章信息/Info

Title:
Topic Word Extraction Based on BiLSTM-CRF for Sport News
文章编号:
1674 - 2869(2020)01 - 0102 - 06
作者:
江逸琪赵彤洲*柴 悦高佩东
武汉工程大学计算机科学与工程学院,湖北 武汉 430205
Author(s):
JIANG YiqiZHAO Tongzhou*CHAI YueGAO Peidong
School of Computer Science and Engineering, Wuhan Institute of Technology, Wuhan 430205, China
关键词:
体育新闻主题词抽取TextRankBiLSTM-CRF
Keywords:
sport news topic word extraction TextRank BiLSTM-CRF
分类号:
TP391
DOI:
10.19843/j.cnki.CN42-1779/TQ.201908018
文献标志码:
A
摘要:
针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主题句抽取,再使用双向长短期记忆(BiLSTM)模型获取文本的前后特征,最后使用条件随机场(CRF)完成句子级序列标注,得到主题词。在多组体育类新闻数据集上进行实验,该方法较对照组BiLSTM方法F1值提高约0.8%~5.1%,且用时更短。因此,改进的BiLSTM-CRF方法可显著提升主题词的抽取准确率和效率。
Abstract:
To solve the problem of low recognition accuracy caused by the lack of text context information in typical recurrent neural network for extracting topic words, we proposed a novel method for extracting topic words based on Bidirectional Long Short-Term Memory (BiLSTM) network with Conditional Random Field. Firstly, the topic sentences were extracted from news texts by the TextRank model. Then, the forward and backward characters of texts were obtained by BiLSTM network. Finally, the topic words were sequence-tagged in sentence-level by a Conditional Random Field layer. Experiments were performed on multiple sports news datasets. Compared with the control group of BiLSTM method, the F1 value increases by 0.8%-5.1%. The experimental results show that our method can significantly improve the accuracy and efficiency of topic word extraction.

参考文献/References:

[1] 李昕. 新闻事件识别系统的研究与实现[D]. 北京:北京邮电大学,2017. [2] 陈伟鹤,刘云. 基于词或词组长度和频数的短中文文本关键词提取算法[J]. 计算机科学,2016,43(12):50-57. [3] 赵京胜,朱巧明,周国栋,等. 自动关键词抽取研究综述[J]. 软件学报,2017,28(9):2431-2449. [4] 潘华山,严馨,周枫,等. 基于层叠条件随机场的高棉语分词及词性标注方法[J]. 中文信息学报,2016,30(4):110-116. [5] 彭晨. 大数据环境下基于条件随机场的中文分词方法研究[D]. 长沙:湖南大学,2017. [6] 朱艳辉,刘璟,徐叶强,等. 基于条件随机场的中文领域分词研究[J]. 计算机工程与应用,2016,52(15):97-100. [7] TONGLEE C,BIN X,YONGBIN L,et al.Empirical study on character level neural network classifier for Chinese text[J]. Engineering Applications of Artificial Intelligence,2019,80(4):1-7. [8] 王龙,杨俊安,陈雷,等. 基于循环神经网络的汉语语言模型建模方法[J]. 声学技术,2015,34(5):431-436. [9] SHI Y,ZHANG W Q,LIU J,et al.RNN language model with word clustering and class-based output layer[J]. EURASIP Journal on Audio Speech and Music Processing,2013(1):22-28. [10] GOODFELLOW I,BENGIO Y,COURVILLE A. 深度学习[M]. 赵申建,黎彧君,符天凡,译. 北京:人民邮电出版社,2017:230-240. [11] 胡朝举,梁宁. 基于深层注意力的LSTM的特定主题情感分析[J]. 计算机应用研究,2019,36(4):1075-1079. [12] 徐飞,叶文豪,宋英华. 基于BiLSTM-CRF模型的食品安全事件词性自动标注研究[J]. 情报学报,2018,37(12):1204-1211. [13] 武惠,吕立,于碧辉. 基于迁移学习和BiLSTM-CRF的中文命名实体识别[J]. 小型微型计算机系统,2019,40(6):1142-1147. [14] CHIU J P C,NICHOLS E.Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics,2016(4):357-370. [15] 黄丹丹. 基于深度学习的中文分词和关键词抽取模型研究[D]. 北京:北京邮电大学,2019.

相似文献/References:

备注/Memo

备注/Memo:
收稿日期:2019-08-19 基金项目:国家自然科学基金(61601176);武汉工程大学中青年人才项目(Q20191510);武汉工程大学研究生创新基金(CX2018195) 作者简介:江逸琪,硕士研究生。E-mail:Jiangyiqi_email@163.com *通讯作者:赵彤洲,博士,副教授。E-mail:zhao_tongzhou@126.com 引文格式:江逸琪,赵彤洲,柴悦,等. 基于BiLSTM-CRF的体育新闻主题词抽取方法[J]. 武汉工程大学学报,2020,42(1):102-107.
更新日期/Last Update: 2020-06-09