|本期目录/Table of Contents|

[1]李姚舜,刘黎志*.逻辑回归中的批量梯度下降算法并行化研究[J].武汉工程大学学报,2019,(05):499-503.[doi:10. 3969/j. issn. 1674-2869. 2019. 05. 017]
 LI Yaoshun,LIU Lizhi*.Parallel Research on Batch Gradient Descent Algorithm in Logistic Regression[J].Journal of Wuhan Institute of Technology,2019,(05):499-503.[doi:10. 3969/j. issn. 1674-2869. 2019. 05. 017]
点击复制

逻辑回归中的批量梯度下降算法并行化研究(/HTML)
分享到:

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

卷:
期数:
2019年05期
页码:
499-503
栏目:
机电与信息工程
出版日期:
2021-01-24

文章信息/Info

Title:
Parallel Research on Batch Gradient Descent Algorithm in Logistic Regression
文章编号:
20190517
作者:
李姚舜刘黎志*
智能机器人湖北省重点实验室(武汉工程大学),湖北 武汉 430205
Author(s):
LI Yaoshun LIU Lizhi*
Hubei Key Laboratory of Intelligent Robot (Wuhan Institute of Technology), Wuhan 430205, China
关键词:
逻辑回归参数训练MapReduce并行化
Keywords:
logistic regression parameter training MapReduce parallelization
分类号:
TP311
DOI:
10. 3969/j. issn. 1674-2869. 2019. 05. 017
文献标志码:
A
摘要:
逻辑回归中的批量梯度下降算法需要访问全部数据样本,在单节点环境下计算耗时较长。针对大批量数据集的训练问题,提出了一种基于MapReduce框架的并行化算法。首先利用HDFS文件系统存储训练数据集,MapReduce框架会对输入数据集进行分片处理,每一个分片交由一个Map节点进行处理;Map过程的输出结果会传给Combiner节点,进行各个分片内部的数据归并;所有分片的归并结果会通过Shuffle过程,进行各个分片间的数据合并,汇总成一个输出文件;输出文件会传给Reduce节点进行运算,最后将计算结果用于参数更新。实验结果表明,集群环境下的参数训练结果正确,随着数据集的扩大,并行化计算的优势逐渐显现。
Abstract:
Because the batch gradient descent algorithm should access all data samples in logistic regression, it will lead to high computational overhead, which is difficult to be handled by a single computer. To resolve the efficiency problem caused by large-scale training datasets, we proposed a parallel algorithm based on the MapReduce distributed computing framework. Firstly, training datasets were stored by using the Hadoop Distributed File System. Then, MapReduce processed the datasets slice by slice. Each slice was handled by a Map node. After that, the outputs of each node were transmitted to a combiner node, which merged data belonging to a same slice. Next, the merging results of all slices were put into one output file through the Shuffle process. Finally, the out put filewas passed to the Reduce node for calculation and updating parameters. Experimental results show that reliable parameters can be also achieved in the cluster environment. Above all, the parallel computing method has the obvious advantage of high efficiency when the training datasets grow huge.

参考文献/References:

[1] 康同曦. 线性回归与逻辑回归的比较分析[J]. 福建质量管理, 2018(21):205. [2] 郭文锋,樊超,郭新东. 基于二元逻辑回归模型的MOOC退课预测[J]. 计算机时代, 2017(12):50-53. [3] 盛逸凡,李远耀,徐勇,等. 基于有效降雨强度和逻辑回归的降雨型滑坡预测模型[J]. 水文地质工程地质, 2019,46(01):156-162+172. [4] 刘黎志,邓介一,吴云韬. 基于HBase的多分类逻辑回归算法研究[J]. 计算机应用研究, 2018,35(10):3007-3010. [5] 雷大江,杜萌,李智星,等. 稀疏多元逻辑回归问题优化算法研究[J]. 重庆邮电大学学报(自然科学版),2019,31(3):354-366. [6] 李权,曾涛,覃虎,等. 基于多元逻辑回归的兰坪县崩塌滑坡敏感性评价[J]. 测绘与空间地理信息, 2015,38(12):36-39,43. [7] 谭雪敏,吴远峰,袁正午,等. 拉格朗日多项式逻辑回归分类算法并行计算优化[J]. 遥感信息, 2016,31(1):96-101. [8] 吾雨森. 面向GPU集群领域的关键算法研究和实现[D]. 杭州:杭州电子科技大学, 2017. [9] 李辉,王建文,叶明雯. 基于Hadoop的海量气象水文数据并发处理模型[J]. 计算机应用, 2018,38(增刊2):187-191. [10] 马莹,赵辉,崔岩. 基于Hadoop平台的改进KNN分类算法并行化处理[J]. 长春工业大学学报, 2018,39(5):484-489. [11] 张海涛. 基于Hadoop的大数据计算之研究[J]. 电子测试, 2019(4):119-120. [12] 冯祥,张媛媛. 基于Hadoop的MapReduce运行流程研究[J]. 福建电脑, 2018,34(12):118,173. [13] 应毅,刘亚军. MapReduce并行计算技术发展综述[J]. 计算机系统应用, 2014(4):1-6,11. [14] 杭州杨帆科技有限公司. 一种云计算环境下基于MapReduce的分布式并行文本聚类方法:中国,CN201710286671.2[P]. 2017-07-21. [15] 李楠,于孟渤,贾珍珍,等. 基于改进MapReduce模型的BP神经网络并行化研究[J]. 通信技术,2018,51(4):799-804. [16] HILBE J M. 实用逻辑斯谛回归方法[M]. 程晓亮,杨艳秋,译. 北京:机械工业出版社,2019:13-49.

相似文献/References:

[1]刘黎志,彭 贝.Spark集群中还贷问题的逻辑回归模型研究[J].武汉工程大学学报,2020,42(01):113.[doi:10.19843/j.cnki.CN42-1779/TQ.201907020]
 LIU Lizhi,PENG Bei.Logistic Regression Model for Loan Repayment in Spark Cluster[J].Journal of Wuhan Institute of Technology,2020,42(05):113.[doi:10.19843/j.cnki.CN42-1779/TQ.201907020]

备注/Memo

备注/Memo:
收稿日期:2019-06-24基金项目:武汉工程大学第十三期大学生校长基金项目(2018074)作者简介:李姚舜。E-mail:liyaoshuncn@163.com*通讯作者:刘黎志,硕士,副教授。E-mail:llz73@163.com引文格式:李姚舜,刘黎志. 逻辑回归中的批量梯度下降算法并行化研究[J]. 武汉工程大学学报,2019,41(5):499-503.
更新日期/Last Update: 2019-10-29