«上一篇/Previous Article|本期目录/Table of Contents|下一篇/Next Article»

HTML)

分享到：

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

卷:: 43
期数:: 2021年01期

页码:: 102-105

栏目:: 机电与信息工程

出版日期:: 2021-02-28

文章信息/Info

Title:: Text Classification Method of Naive Bayes Algorithm Based on MapReduce

文章编号:: 1674 -2869（2021）01 -0102 -04

作者:: 张晨跃; 刘黎志^*; 邓开巍; 刘　杰; 智能机器人湖北省重点实验室（武汉工程大学），湖北武汉 430205

Author(s):: ZHANG Chenyue; LIU Lizhi^*; DENG Kaiwei; LIU Jie; Hubei Key Laboratory of Intelligent Robot（Wuhan Institute of Technology），Wuhan 430205， China

关键词:: 朴素贝叶斯; 分类; 并行化; MapReduce

Keywords:: Naive Bayes; classification; parallelization; MapReduce

分类号:: TP311

DOI:: 10.19843/j.cnki.CN42-1779/TQ.202009022

文献标志码:: A

摘要:: 为了解决传统串行朴素贝叶斯算法分类性能低下的问题，提出一种基于朴素贝叶斯算法的并行化分类方法。选取多项式朴素贝叶斯，搭建Hadoop集群，通过卡方检验选取特征词，利用词频-逆文本频率指数方法计算出每个特征项的权值，并求出每类的权重总和，将权值应用到朴素贝叶斯公式中得到分类结果。实验结果表明：在该集群上设计的并行化朴素贝叶斯分类方法较比传统朴素贝叶斯方法，其精确率，召回率，F1值分别至少提高了7.66%，7.56%，11.98%，且用时更短，说明本文的方法能够提高处理文本的时间效率。

Abstract:: To solve the problem of low classification performance of traditional serial Naive Bayesian algorithms， a parallelized Naive Bayesian classification method was proposed. Polynomial Naive Bayesian was selected and Hadoop cluster was built. First， we selected feature words by the chi-square test. Then， we computed weights of each feature word and sum of weights of each categories by the Term Frequency-inverse document frequency approach. Finally， the weighs were applied to Naive Bayesian formula to get the classification results. Experimental results show that the accuracy， recall and F1 value of the proposed approach are 7.66%， 7.56% and 11.98% higher than those of the traditional Naive Bayes method，respectively. Furthermore， the time is shorter， which shows that the method can improve the time efficiency of text processing.

参考文献/References:

［1］　宋泊东，张立臣，江其洲.基于Spark的分布式大数据分析算法研究［J］.计算机应用与软件，2019，36（1）：39-44.［2］　宋维维，夏绍模，李赞.基于SPARK大数据处理平台的图书馆智慧服务探索与实践［J］.情报科学，2018，36（6）：45-49.［3］　梁俊荣.基于Hadoop的图书馆复合大数据存储系统研究［J］.现代情报，2017，37（2）：63-67.［4］　李婷婷，吕佳.基于加权K最近邻改进朴素贝叶斯自训练算法［J］.武汉大学学报（理学版），2019，65（5）：465-471.［5］　陈凯，黄英来，高文韬，等.一种基于属性加权补集的朴素贝叶斯文本分类算法［J］.哈尔滨理工大学学报，2018，23（4）：69-74.［6］　许甜华，吴明礼.一种基于TF-IDF的朴素贝叶斯算法改进［J］.计算机技术与发展，2020，30（2）：75-79.［7］　叶雪梅，毛雪岷，夏锦春，等.文本分类TF-IDF算法的改进研究［J］.计算机工程与应用，2019，55（2）：104-109，161.［8］　陈磊，吴晓晖.基于Hadoop的分布式集群大数据动态存储系统设计［J］.中国电子科学研究院学报，2019，14（6）：593-598.［9］　丁月，汪学明.基于改进特征加权的朴素贝叶斯分类算法［J］.计算机应用研究，2019，36（12）：3597-3600.［10］　崔良中，郭福亮，宋建新.基于Map/Reduce的朴素贝叶斯数据分类算法研究［J］.海军工程大学学报，2019，31（4）：7-10.［11］　张慧芳，宗彩乐，张晓琳.基于分布式框架下的中文文本特征分类［J］.电脑与电信，2019（5）：1-7.［12］　白治龙. 基于Hadoop的文本分类方法研究［D］.洛阳：河南科技大学，2019.［13］　李鹏鹏，范会敏.文本分类中特征权重算法改进研究［J］.计算机与现代化，2018（2）：66-70.［14］　徐保鑫，怀丽波，崔荣一.基于MapReduce的朴素贝叶斯算法在新闻分类中的应用［J］.延边大学学报（自然科学版），2017，43（1）：55-59.［15］　杨立月，王移芝.Spark在集成学习文本情感分析中的应用［J］.计算机应用与软件，2020，37（6）：130-134.

相似文献/References:

[1]杨海燕,文一凭.一种面向特征选择的分类神经网络[J].武汉工程大学学报,2008,(04):114.
　YANG Hai yan,WEN Yi ping.A classification neural network oriented to feature selection[J].Journal of Wuhan Institute of Technology,2008,(01):114.
[2]姜华艳,朱倩.殷墟甲骨文时称的分类及来源[J].武汉工程大学学报,2010,(06):91.[doi:10.3969/j.issn.16742869.2010.06.022]
　JIANG Huayan,ZHU Qian.Classification and sources of temporal in inscriptions of yin[J].Journal of Wuhan Institute of Technology,2010,(01):91.[doi:10.3969/j.issn.16742869.2010.06.022]

备注/Memo

备注/Memo:: 收稿日期：2020-09-29基金项目：2017年度湖北省教育厅科学研究计划指导性项目（B2017051）作者简介：张晨跃，硕士研究生。E-mail：1556280715@qq.com*通讯作者：刘黎志，硕士，副教授。E-mail：llz73@163.com引文格式：张晨跃，刘黎志，邓开巍，等. 基于MapReduce的朴素贝叶斯算法文本分类方法［J］. 武汉工程大学学报，2021，43（1）：102-105.

更新日期/Last Update: 2021-02-07

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

文章信息/Info

参考文献/References:

相似文献/References:

备注/Memo

常用功能

导航/Navigate

工具/Tools

统计/Statistics