|本期目录/Table of Contents|

[1]彭 贝,刘黎志*,杨 敏,等.基于Hive的空气质量大数据查询优化方法[J].武汉工程大学学报,2020,42(04):467-472.[doi:10.19843/j.cnki.CN42-1779/TQ.202003009]
 PENG Bei,LIU Lizhi*,YANG Min,et al.Hive-Based Query Optimization for Air Quality Big Data[J].Journal of Wuhan Institute of Technology,2020,42(04):467-472.[doi:10.19843/j.cnki.CN42-1779/TQ.202003009]
点击复制

基于Hive的空气质量大数据查询优化方法(/HTML)
分享到:

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

卷:
42
期数:
2020年04期
页码:
467-472
栏目:
机电与信息工程
出版日期:
2021-01-28

文章信息/Info

Title:
Hive-Based Query Optimization for Air Quality Big Data
文章编号:
1674 - 2869(2020)04 - 0467 - 06
作者:
彭 贝12刘黎志*12杨 敏12张晨跃12
1. 智能机器人湖北省重点实验室(武汉工程大学),湖北 武汉 430205;2. 武汉工程大学计算机科学与工程学院,湖北 武汉 430205
Author(s):
PENG Bei12 LIU Lizhi* 12 YANG Min12 ZHANG Chenyue12
1. Hubei Key Laboratory of Intelligent Robot(Wuhan Institute of Technology), Wuhan 430205, China;2. School of Computer Science and Engineering, Wuhan Institute of Technology, Wuhan 430205, China
关键词:
SparkHive空气质量大数据查询优化
Keywords:
Spark Hive air quality big data query optimization
分类号:
TP311
DOI:
10.19843/j.cnki.CN42-1779/TQ.202003009
文献标志码:
A
摘要:
为了提高对环境空气质量监测系统中省级环境监测中心站里已汇集的海量监测数据的统计和分析效率,提出了一种基于Spark 集群在Hive上进行多维数据分区的查询优化方法。以湖北省环境监测中心站中的空气质量监测数据为研究对象,将数据转移到Spark集群利用Spark SQL连接Hive并进行分区存储。设计了12种查询,查询4个数据集,通过与采用传统查询方法的实验对比得出结论。实验结果表明:基于Hive的分区优化方法对空气质量大数据的查询时间有47%到96%的优化,而随着查询的复杂程度和数据量的增加,该方法的优化效果越明显。
Abstract:
To improve the efficiency of analyzing the massive amount of monitoring data collected from an air quality monitoring system by the provincial environmental monitoring center, a query optimization method based on Spark cluster was proposed to conduct multi-dimensional data partitioning on Hive. The air quality monitoring data from the environmental monitoring center of Hubei province was taken as a research object. First, the data was transferred to Spark cluster. Then, the Spark SQL was used to connect to Hive. Finally, the data was stored into different partitions. Twelve queries were carried out on four datasets and comparison experiments were conducted with traditional query methods. The results show that the partition optimization method in Hive reduces the query time of air quality big data by 47% to 96%. Above all, better optimization effect can be achieved with the increase of query complexity and data volume.

参考文献/References:

[1] 熊丽君,袁明珠,吴建强. 大数据技术在生态环境领域的应用综述[J]. 生态环境学报,2019,28(12):2454-2463. [2] 环境保护部. GB3095-2012 环境空气质量标准[S]. 北京: 中国环境科学出版社, 2012. [3] 环境保护部. HJ633-2012 环境空气质量指数 AQI 技术规定(试行) [S]. 北京: 中国环境科学出版社, 2012. [4] 刘黎志,吴云韬. 环境空气质量监测大数据存储模式研究[J]. 环境科学与技术, 2016, 39(5): 123-128. [5] 刘黎志,何经纬. 空气质量监测大数据区间的统计问题[J]. 武汉工程大学学报,2019,41(2):179-183. [6] 孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013, 50(1): 146-169. [7] 程学旗,靳小龙,王元卓,等. 大数据系统和分析技术综述[J]. 软件学报, 2014, 25(9): 1889-1908. [8] 冯兴杰,王文超. Hadoop与Spark应用场景研究[J]. 计算机应用研究,2018,35(9):2561-2566. [9] 何经纬,刘黎志,彭贝,等. 基于Spark并行SVM参数寻优算法的研究[J]. 武汉工程大学学报,2019,41(3):283-289. [10] 廖湖声,黄珊珊,徐俊刚,等. Spark性能优化技术研究综述[J]. 计算机科学,2018,45(7):7-15,37. [11] 陈建尧. 一种基于Hive数据仓库的调度优化研究[J]. 科技通报,2018,34(8):113-117. [12] 杨宁,黄婷婷. 基于Spark的大数据分析工具Hive的研究[J]. 计算机时代,2018(11):31-35. [13] 李翀, 张彤彤, 杜伟静, 等. 基于Hive的高可用双引擎数据仓库[J]. 计算机系统应用, 2019,28(9):65-71. [14] 崔光范,许利杰,刘杰,等. 基于Spark SQL的分布式全文检索框架的设计与实现[J]. 计算机科学,2018,45(9):104-112,145. [15] 郭慈,廖振松. 基于Spark核心架构的大数据平台技术研究与实践[J]. 电信工程技术与标准化,2016,29(10):40-45. [16] 葛微. 大数据索引和查询优化技术与系统研究[D]. 南京:南京大学,2019.

相似文献/References:

[1]何经纬,刘黎志*,彭 贝,等.基于Spark并行SVM参数寻优算法的研究[J].武汉工程大学学报,2019,(03):282.[doi:10. 3969/j. issn. 1674-2869. 2019. 03. 015]
 HE Jingwei,LIU Lizhi*,PENG Bei,et al.Spark Parallel SVM Parameter Optimization Algorithm[J].Journal of Wuhan Institute of Technology,2019,(04):282.[doi:10. 3969/j. issn. 1674-2869. 2019. 03. 015]
[2]杨 敏,刘黎志*,邓开巍,等.基于Spark的自适应差分进化极限学习机研究[J].武汉工程大学学报,2021,43(03):318.[doi:10.19843/j.cnki.cn42-1779/tq.202101009]
 YANG Min,LIU Lizhi*,DENG Kaiwei,et al.Self-Adaptive Differential Evolution Extreme Learning Machine Based on Spark[J].Journal of Wuhan Institute of Technology,2021,43(04):318.[doi:10.19843/j.cnki.cn42-1779/tq.202101009]

备注/Memo

备注/Memo:
收稿日期:2020-03-15基金项目:武汉工程大学第十一届研究生教育创新基金(CX2019242)作者简介:彭 贝,硕士研究生。E-mail:1454343985@qq.com*通讯作者:刘黎志,硕士,副教授。E-mail:llz73@163.com引文格式:彭贝,刘黎志,杨敏,等. 基于Hive的空气质量大数据查询优化方法[J]. 武汉工程大学学报,2020,42(4):467-472.
更新日期/Last Update: 2020-08-13