ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2019Äź03ĘŚ 282-289 ³ö°ęČÕĘŚ£ŗ2019-06-20 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚSpark²¢ŠŠSVM²ĪŹżŃ°ÓÅĖć·ØµÄŃŠ¾æ

Ėę×Å»�ĮŖĶųµÄ·¢Õ¹£¬Ō½Ą´Ō½Ą´µÄÖĒÄÜÉč±ø±»½ÓČėµ½ĶųĀēÖŠĄ´£¬ŹżŅŌĶņ¼ĘµÄÉč±øĆæĢģ¶¼ŌŚ²śÉś´óĮæµÄŹż¾Ż£¬ČēŗĪ´Óŗ£ĮæµÄŹż¾ŻÖŠ»ńČ�ÓŠ¼ŪÖµµÄŠÅĻ¢³ÉĪŖµ±Ē°ŃŠ¾æµÄČČµć�£Ö§³ÖĻņĮæ»ś£Ū1-5£Ż£Øsupport vector machine£¬SVM£©Ėć·ØŌŚ²ĪŹżÉčÖĆŗĻĄķµÄĒéæöĻĀ£¬´¦ĄķŠ�Ńł±¾�¢øßĪ¬¶ČŹż¾Ż¼ÆŹ±±ķĻÖ³öŗÜŗĆµÄŠŌÄÜŗĶ×¼Č·ĀŹ£¬¶ų²»ŗĻĄķµÄ²ĪŹżÉčÖĆ½«»įµ¼ÖĀŌćøāµÄŠŌÄÜŗĶ¼«µĶµÄ×¼Č·ĀŹ£¬ĖłŅŌ²ĪŹżµÄŃ�Č�ŹĒSVMĖć·ØÖŠÖĮ¹ŲÖŲŅŖµÄŅ»»·�£´«Ķ³µÄSVM²ĪŹżŃ°ÓÅĖć·ØŌŚ´¦Ąķ´ó¹ęÄ£Źż¾Ż¼ÆŹ±ĶłĶł»įÓöµ½¼ĘĖć»śŠŌÄÜµÄĘæ¾±£¬¼ĘĖć»śµÄ´¦ĄķĘ÷×ŹŌ´�¢ÄŚ´ę×ŹŌ´Č«²æ±»Õ¼ÓĆ£¬ŌŚŗÄ·ŃĻąµ±³¤µÄŹ±¼äŗó²ÅÄÜµĆµ½´¦Ąķ½į¹ū�£¼ÆČŗ»·¾³ĻĀµÄ²¢ŠŠ¼ĘĖć·½Ź½ĪŖ´óŹż¾ŻµÄ´¦ĄķĢį¹©ĮĖŠĀµÄĖ¼Ā·£¬ÄæĒ°Ö÷Į÷µÄ´óŹż¾Ż´¦Ąķ¼¼Źõ»ł±¾¶¼ÓĆµ½ĮĖ¼ÆČŗ»·¾³£Ū6-13£Ż�£¼ÆČŗ»·¾³²¢ŠŠ¼ĘĖćŹĒĢįøß´ó¹ęÄ£Źż¾Ż¼ÆSVM²ĪŹżŃ°ÓÅĖŁ¶ČµÄŅ»ÖÖÓŠŠ§Ķ¾¾¶£¬¶ą¼ĘĖć»ś²¢ŠŠµÄSVM²ĪŹżŃ°ÓÅĖć·ØæÉŅŌÓŠŠ§½ā¾ö¼ĘĖć»śµ�»ś¼ĘĖćÄÜĮ¦²»×ć�¢å´»śµČĪŹĢā�£ÄæĒ°Ö÷Į÷µÄ¼ÆČŗ¼ĘĖćĘ½ĢØÓŠHadoopŗĶSpark£¬»łÓŚÄŚ´ę¼ĘĖćµÄSparkÄæĒ°Ó¦ÓĆ·Ē³£¹ć·ŗ£¬ČēŃÅ»¢�¢UberµČ¹«Ė¾¶¼ŌŚŹ¹ÓĆSparkĘ½ĢØ´¦Ąķ×Ō¼ŗµÄŅµĪń£¬ĖłŅŌŹ¹ÓĆSparkŹµĻÖ²¢ŠŠ»ÆµÄSVM²ĪŹżŃ°ÓÅĖć·ØŹĒæÉŠŠµÄ·½°ø�£ĮõŌóöµČ£Ū14£ŻŹ¹ÓĆSparkŹµĻÖĮĖ²¢ŠŠµÄSVMĖć·Ø£¬ĄīĄ¤µČ£Ū15£ŻŹ¹ÓĆSpark¼ÆČŗ½ØĮ¢ĮĖSVM²ĪŹż²¢ŠŠŃ°ÓÅÄ£ŠĶ£¬µ«ŹĒĖūĆĒ¶¼ŗöĀŌĮĖ¼ÆČŗTask·ÖÅä�¢øŗŌŲ¾łŗāµČ·½Ćę¶Ō²ĪŹżŃ°ÓÅŠ§ĀŹµÄÓ°Ļģ�£ĪŖĮĖøü¼ÓŗĻĄķµŲĄūÓĆ¼ÆČŗ×ŹŌ´£¬Ķ¬Ź±Ź¹¼ÆČŗÖŠµÄExecutor´ļµ½øŗŌŲ¾łŗā£¬±¾ĪÄ¶ŌSVMĖć·Ø×īÓÅ²ĪŹżĶųøńĖŃĖ÷µÄ¹ż³ĢŅŌ¼°Spark²¢ŠŠ¼ĘĖćŅżĒęµÄĢŲµć½ųŠŠĮĖ·ÖĪö£¬µ÷ÕūÓÅ»ÆĶųøńĖŃĖ÷Ėć·ØµÄ½į¹¹£¬Ź¹ÓĆSparkĘ½ĢØŹµĻÖ¾ßĢåµÄ²¢ŠŠĖć·Ø£¬²¢ĶØ¹żµ÷½ŚTaskµÄ²¢ŠŠ¶Č¶ŌSparkµÄTask·ÖÅä½ųŠŠÓÅ»Æ£¬Ź¹¼ÆČŗÖŠø÷øöExecutor´ļµ½øŗŌŲ¾łŗā£¬´Ó¶ų´ó·ł¶ČµŲ¼õÉŁŃ°ÓÅŹ±¼ä�£1��øÅ Źö1.1 ��SVMĖć·ØSVMĖć·ØŹĒŅ»ÖÖ»łÓŚ½į¹¹·ēĻÕ×īŠ�»Æ£¬½ØĮ¢ŌŚĶ³¼ĘŃ§ĄķĀŪÉĻµÄÓŠ¼ą¶½»śĘ÷Ń§Ļ°Ėć·Ø£¬¾ßÓŠŗÜŗĆµÄ·ŗ»ÆÄÜĮ¦£¬ŌŚ·ÖĄąÓė»Ų¹é·ÖĪöÖŠÓŠ×Å¹ć·ŗµÄÓ¦ÓĆ£¬ČēČĖĮ³Ź¶±š�¢ĪÄ±¾·ÖĄą�¢ŹÖŠ´×ÖĢåŹ¶±šµČ·½Ćę�£SVMĖć·ØµÄÄæµÄŹĒĒó½ā×īÓÅ³¬Ę½Ćę£¬±¾ÖŹÉĻŹĒŅ»øöĶ¹¶ž´Ī¹ę»®ĪŹĢā£¬¼ŁÉčŃµĮ·Ńł±¾¼ÆĪŖ[D={(xi,yi)|xi�ŹRn,yi�Ź{-1,1}}mi=1]£¬Éč³¬Ę½ĆęĻµŹżĪŖ[w=(w0,w1,?,wn)]£¬½Ų¾ąĪŖb£¬Ēó½ā×īÓÅ³¬Ę½ĆęŌĪŹĢāĆčŹöČēĻĀ£ŗŹ½£Ø1£©±ķŹ¾ŌŚĀś×ćĢõ¼ž[yi(w?xi+b)-1«Ń0]µÄŌ¼ŹųĻĀ£¬³¬Ę½ĆęĻµŹżĻņĮæ[w]µÄÄ£×īŠ�£¬´Ó¶ųŹ¹µĆ³¬Ę½Ćę¾ąĄėÖ§³ÖĻņĮæµÄĪļĄķ¼ä¾ą×ī´ó�£ŌĪŹĢā²»ČŻŅ×Ēó½ā£¬æÉŅŌĶØ¹żŌĪŹĢāµÄ¶ŌÅ¼ĪŹĢāĒó½ā£¬ŅżČėĄøńĄŹČÕĖć×Ó²¢ĒŅ¶Ō²ĪŹżĒóĘ«µ¼£¬½ų¶ųĒó³öÓėŌĪŹĢā¶ŌÓ¦µÄ¶ŌÅ¼ĪŹĢā£¬¾ßĢå¶ŌÅ¼ĪŹĢāČēĻĀĖłŹ¾£ŗ Ź½£Ø2£©ÖŠmĪŖÖ§³ÖĻņĮæµÄøöŹż£¬[¦Įi]ĪŖÖ§³ÖĻņĮæ¶ŌÓ¦µÄĄøńĄŹČÕĖć×Ó£¬cĪŖ³Ķ·£²ĪŹż£¬±ķŹ¾¶Ō·ÖĄą´ķĪóŃł±¾µćµÄ³Ķ·£´ś¼Ū�£ ÓÉŹ½£Ø2£©æÉŅŌæ´³ö£¬·Ē±ß½ēŃł±¾µć¶ŌÓ¦µÄ²ĪŹż[¦Įi]¶¼ŹĒ0£¬Ņņ´ĖÖ»ÓŠÖ§³ÖĻņĮæŃł±¾µć¶ŌĪŹĢāµÄĒó½āÓŠÓĆ£¬³Ķ·£²ĪŹżcæÉŅŌĢŽ³żŃł±¾¼ÆÖŠµÄŅ»Š©ŌėÉłµć�£¶ŌÓŚŃł±¾¼ÆĻßŠŌæÉ·ÖµÄĒéæö£¬×īÓÅ³¬Ę½ĆęæÉŅŌŗÜČŻŅ×Ēó½ā³öĄ´£»ČōŃł±¾¼ÆĻßŠŌ²»æÉ·Ö£¬´ĖŹ±ŠčŅŖŅż½ųŗĖŗÆŹż£¬½«µĶĪ¬æÕ¼äĻßŠŌ²»æÉ·ÖĪŹĢāÓ³Éä³ÉøßĪ¬æÕ¼äĻßŠŌæÉ·ÖµÄĪŹĢā�£SVMŗĖŗÆŹżÖ÷ŅŖÓŠĖÄÖÖ£¬·Ö±šĪŖĻßŠŌŗĖŗÆŹż£Ølinear Kernel£©�¢¶ąĻīŹ½ŗĖŗÆŹż£Øpolynomial kernel£©�¢¾¶Ļņ»łŗĖŗÆŹż£ØRBF kernel£©�¢SigmoidŗĖŗÆŹż£Øsigmoid kernel£©�£¾¶Ļņ»łŗĖŗÆŹżŅ²³ĘøßĖ¹ŗĖŗÆŹż£¬ŹĒ±Č½Ļ³£ÓĆµÄŅ»ÖÖŗĖŗÆŹż£¬¹«Ź½ĪŖ£ŗ[H(x,x)=exp(1-gx-x2)]�£ĘäÖŠ±¾ĪÄ²ĪŹżŃ°ÓÅÉę¼°µÄ2øö²ĪŹżc�¢g£¬c´ś±ķŹ½£Ø2£©ÖŠµÄ³Ķ·£²ĪŹż£¬g´ś±ķ¾¶Ļņ»łŗĖŗÆŹżÖŠµÄ²ĪŹżg�£1.2��SparkApache sparkŹĒŅ»ÖÖ»łÓŚÄŚ´ę¼ĘĖćµÄĶØÓĆ¼ĘĖćŅżĒę£¬³£ÓĆĄ´´¦Ąķ´ó¹ęÄ£Źż¾Ż¼Æ�£ÓėHadoopĻąĶ¬µÄŹĒ£¬SparkæÉŅŌÖ´ŠŠMap�¢ReduceµČ²Ł×÷£¬µ«Spark»¹°üŗ¬ĮĖŗÜ¶ąHadoop²»¾ß±øµÄĖć×Ó£¬ŌŚŹż¾Ż´¦Ąķ·½ĆęŅŖ±ČHadoopĮé»īŗÜ¶ą�£SparkµÄø÷ÖÖ²Ł×÷Ö÷ŅŖ¼ÆÖŠŌŚÄŚ´ę£¬µ«HadoopŌŚŹż¾Ż´¦Ąķ¹ż³ĢÖŠŠčŅŖĘµ·±¶ĮŠ´HDFS£¬Ōģ³É´óĮæµÄ´ÅÅĢI/OŗĶĶØŠÅæŖĻś£¬ĖłŅŌŌŚ¼ĘĖćĖŁ¶ČÉĻ£¬SparkŅŖ±ČHadoopæģŗÜ¶ą�£Ķ¬Ź±SparkÓėHadoopĶźČ«¼ęČŻ£¬SparkæÉŅŌŹ¹ÓĆHadoop¼ÆČŗÉĻµÄHDFS×öĪŖ·Ö²¼Ź½ĪÄ¼ž´ę´¢ĻµĶ³�£SparkµÄŗĖŠÄ²æ·ÖŹĒµÆŠŌ·Ö²¼Ź½Źż¾Ż¼Æ £Øresilient distributed datasets£¬ RDD£©£¬RDDŹĒŅ»øö»łÓŚÄŚ´ę¾ßÓŠČŻ´ķŠŌµÄ·ÖĒųÖ»¶Į¼ĒĀ¼¼ÆŗĻ£¬ĶØ¹żRDD·ÖĒų£Øpartition£©Ą´¾ö¶Ø¼ÆČŗÖŠWorkerµÄČĪĪń·ÖÅä�£RDD°üŗ¬×Ŗ»»£Øtransformation£©ŗĶ¶Æ×÷£Øaction£©Į½ÖÖĖć×Ó£¬×Ŗ»»£¬Čēmap£Ø£©�¢flatmap£Ø£©�¢filter£Ø£©µČ£¬ĖüŹĒ½«Ņ»ÖÖøńŹ½µÄRDD×Ŗ»»ĪŖĮķĶāŅ»ÖÖøńŹ½µÄRDD£»¶ų¶Æ×÷£¬Čēcollect£Ø£©�¢count£Ø£©�¢take£Ø£©µČ£¬ĖüµÄ¹¦ÄÜŌņŹĒµĆµ½¾ßĢåµÄ½į¹ū�£ĘäÖŠ×Ŗ»»²Ł×÷²»»į±»Į¢¼´Ö´ŠŠ£¬Ö»ÓŠÓöµ½¶Æ×÷Ź±£¬¶Æ×÷Ö®Ē°µÄ×Ŗ»»²Ł×÷ŗĶ¶Æ×÷²Å»į±»Ö´ŠŠ�£SparkµÄŌĖŠŠÄ£Ź½ÓŠLocal�¢StandaloneŗĶYarnµČÄ£Ź½£¬±¾ĪÄÖŠ²ÉÓĆµÄŹĒStandaloneÄ£Ź½£¬ŌŚStandaloneÄ£Ź½ĻĀ£¬Driver³ĢŠņæÉŅŌŌŚMaster½ŚµćŌĖŠŠŅ²æÉŅŌŌŚ±¾µŲµÄClient¶ĖŌĖŠŠ£¬±¾ĪÄŹ¹ÓĆEclipseĻņ¼ÆČŗĢį½»Application£¬ĖłŅŌDriver³ĢŠņŌĖŠŠŌŚClient¶Ė�£1.3��Ö§³ÖĻņĮæ»śČķ¼ž°üÖ§³ÖĻņĮæ»śČķ¼ž°ü£Ølibrary for support vector machines£¬LIBSVM£©ŹĒĢØĶå´óŃ§ĮÖÖĒČŹ½ĢŹŚµČæŖ·¢µÄŅ»øöÓĆÓŚSVMæģĖŁ½ØÄ£³ĢŠņ°ü£¬ĖüĢį¹©ĮĖ´óĮæµÄAPIøųæŖ·¢Õß½ųŠŠµ÷ÓĆ£¬ø÷øö·½·ØµÄ²ĪŹżÉčÖĆ·Ē³£Įé»ī£¬ÄæĒ°ŗÜ¶ąSVMĖć·ØĻą¹ŲµÄŃŠ¾æ¶¼ŹĒ»łÓŚLIBSVMµÄ¶ž´ĪæŖ·¢�£ŌŚSVM·ÖĄąÄ£ŠĶ½ØĮ¢¹ż³ĢÖŠ£¬³Ķ·£²ĪŹżcŗĶŗĖŗÆŹż²ĪŹżgµÄŃ�Č�Ö±½ÓÓ°ĻģÄ£ŠĶ·ÖĄąµÄ×¼Č·ĀŹ�£ÓÉÓŚ²»ÄÜČ·¶ØŹ¹Ä£ŠĶ·ÖĄą×¼Č·ĀŹ×īøßµÄ²ĪŹż£¬ĪŖĮĖ»ńµĆ×īÓÅµÄ£Øc£¬ g£©²ĪŹż£¬ĶØ³£Ź¹ÓĆLIBSVM×Ō´ųµÄĶųøńĖŃĖ÷£Øgrid search£©Ėć·Ø½ųŠŠ²ĪŹżŃ°ÓÅ£¬ĶųøńĖŃĖ÷¼´ĶØ¹żĒī¾Ł½«ĖłÓŠµÄ²ĪŹż×éŗĻ½ųŠŠ½»²ęŃéÖ¤£Øcross-validation£©£¬ÕŅ³ö·ÖĄą×¼Č·ĀŹ×īøßµÄ²ĪŹż×éŗĻ£¬ŹĒŅ»øö·Ē³£ŗÄŹ±µÄ¹ż³Ģ�£2��²ĪŹżŃ°ÓÅĖć·Ø²¢ŠŠÓėÓÅ»Æ2.1��Ėć·Ø²¢ŠŠ»ÆµÄĖ¼Ā·ĶųøńĖŃĖ÷¹ż³ĢÖŠ£¬ŅņĪŖĆæ×é£Øc£¬ g£©²ĪŹż×éŗĻµÄ½»²ęŃéÖ¤¹ż³ĢĻą»�¶ĄĮ¢£¬ĖłŅŌæÉŅŌĶØ¹żSpark²¢ŠŠ¼ĘĖćŅżĒę½«ĖŃĖ÷¹ż³Ģ²¢ŠŠ»Æ�£ĄūÓĆRDD µÄMapReduceŌĄķ£¬½«ĖłÓŠµÄ²ĪŹż×éŗĻ´ęČėRDDÖŠ£¬RDD´�·¢¶Æ×÷ŗó±»·Ö½āĪŖŗÜ¶ąĀß¼ĻąĶ¬µÄTask£¬ÕāŠ©Task»į±»·ÖÅäµ½ĻąĶ¬»ņÕß²»Ķ¬µÄExecutorÉĻ²¢ŠŠÖ´ŠŠ�£Ėć·Ø½«½»²ęŃéÖ¤µÄ¹ż³Ģ·ÅŌŚRDDµÄMap½×¶Ī£¬Ź¹½»²ęŃéÖ¤ŌŚø÷øöTaskÉĻ²¢ŠŠÖ´ŠŠ£¬µČ´żĖłÓŠExecutorÖŠµÄTaskĶź³É½»²ęŃéÖ¤ŗó£¬ĄūÓĆReduce¶Æ×÷»ć×ÜĖłÓŠ½į¹ū²¢¼ĘĖć³ö×īøß×¼Č·ĀŹŗĶ²ĪŹż×éŗĻ�£Ėć·ØÖŠŹ¹ÓĆLIBSVM°üĢį¹©µÄ½»²ęŃéÖ¤·½·Ø¶Ō²ĪŹż½ųŠŠ½»²ęŃéÖ¤£¬ÓÉÓŚŌÉśLIBSVM½»²ęŃéÖ¤Ėć·ØµÄŹäČėŹä³ö²»ÄÜ¹»Āś×ćŹµŃéŠčĒó£¬ĖłŅŌŹµ¼ŹĖć·Ø¶Ōsvm_train.javaµÄŃµĮ·¼Æ¶ĮČ�·½Ź½ŅŌ¼°½»²ęŃéÖ¤½į¹ūµÄŹä³öŠĪŹ½½ųŠŠĮĖøÄŠ´£¬Ź¹ĘäÄÜŹŹÓ¦²¢ŠŠĶųøńĖŃĖ÷µÄŹäČėŗĶŹä³ö�£½»²ęŃéÖ¤µÄ»ł±¾Į÷³ĢĪŖ£ŗ1£©½«ŌŹ¼ŃµĮ·¼Æ¾łŌČ»®·Ö³Ék·ŻµÄŹż¾Ż¼Æ£»2£©Ń�Č�ĘäÖŠ1·ŻŹż¾Ż¼Æ£ØĪ´±»×÷ĪŖ²āŹŌ¼ÆµÄŹż¾Ż¼Æ£©×÷ĪŖ²āŹŌ¼Æ£¬ĘäĖūµÄk-1·Ż×÷ĪŖŃµĮ·¼Æ£»3£©ÓĆŃµĮ·¼ÆŃµĮ·³öÄ£ŠĶ£¬ŌŁÓĆ²āŹŌ¼ÆČ�²āŹŌÄ£ŠĶµÄ×¼Č·ĀŹ£»4£©ÖŲø´ÉĻŹöµŚ¶ž²½ŗĶµŚČż²½£¬Ö±µ½ŌŹ¼ŃµĮ·¼ÆÖŠĖłÓŠµÄŹż¾Ż¼Æ¶¼±»×÷ĪŖ²āŹŌ¼Æ½ųŠŠ²āŹŌĪŖÖ¹£»5£©Ēó³öĖłÓŠ²āŹŌĖłµĆ×¼Č·ĀŹµÄ¾łÖµ×÷ĪŖ×īÖÕ×¼Č·ĀŹ�£ÉĻŹö²½Öč¼´ĪŖkÕŪ½»²ęŃéÖ¤£Øk-fold cross-validation£©£¬±¾ĪÄĖłĢįµ½µÄ½»²ęŃéÖ¤¶¼ĪŖkÕŪ½»²ęŃéÖ¤£¬kÕŪ½»²ęŃéÖ¤µÄ¹ż³ĢÖŠ¶ŌŃµĮ·¼ÆÖŠĖłÓŠµÄŹż¾Ż¶¼½ųŠŠĮĖ²āŹŌ£¬æÉŅŌÓŠŠ§µŲ±ÜĆā¹żÄāŗĻŗĶĒ·ÄāŗĻĪŹĢā�£2.2�� ¹ć²�±äĮæµÄŹ¹ÓĆ²¢ŠŠĶųøńĖŃĖ÷Ē°£¬½«Driver¶Ė¶ĮČ�µÄŃµĮ·¼ÆŅŌ¹ć²�±äĮæµÄŠĪŹ½¹ć²�øųø÷øöExecutor£¬ĆæøöExecutor±£´ęŅ»·ŻŃµĮ·¼Æø±±¾£»Čē¹ūDriver¶Ė¶ĮČ�µÄŃµĮ·¼ÆŅŌListŠĪŹ½±£´ę¹²Ļķ£¬ExecutorµÄĆæøöTask¶¼»į±£´ęŅ»·ŻŃµĮ·¼Æø±±¾�£¼ŁÉčŌŚ1øöApplicationÖŠ·ÖÅämøöExecutor£¬ĆæøöExecutorÖŠÓŠnøöTaskŌŚÖ´ŠŠ£¬µ±ŃµĮ·¼ÆŹ¹ÓĆ¹ć²�±äĮæµÄŠĪŹ½½ųŠŠ¹ć²�Ź±£¬ÕūøöApplicationÖŠ×Ü¹²±£´ęm·ŻŃµĮ·¼Æø±±¾£»µ«µ±ŃµĮ·¼ÆŹ¹ÓĆListŠĪŹ½ŌŚDriver¶Ė±£´ę¹²ĻķŹ±£¬ÕūøöApplicationÖŠ×Ü¹²±£´ęm�¤n·ŻŃµĮ·¼Æø±±¾£¬ĖłŅŌ²ÉÓĆListŠĪŹ½±£´ę¹²ĻķŃµĮ·¼Æ»į±Č¹ć²�±äĮæŠĪŹ½¶ą²śÉśm�¤n-m=£Øn-1£©�¤m·ŻŃµĮ·¼Æø±±¾�£µ±ŃµĮ·¼Æ½Ļ´ó�¢TaskµÄŹżĮæ½Ļ¶ąŹ±£¬ÖŲø´±£´ęµÄ£Øn-1£©�¤m·ŻŃµĮ·¼Æø±±¾»įÕ¼ÓĆ´óĮæµÄÄŚ´ę£¬ÉõÖĮ»įµ¼ÖĀÄŚ´ęŅē³ö�£2.3��Task²¢ŠŠ¶ČÓėExecutorøŗŌŲ¾łŗā ŌŚSpark¼ÆČŗÖŠ£¬øł¾ŻActionµÄ²»Ķ¬Application±»»®·ÖĪŖ²»Ķ¬µÄJob£¬JobÖŠµÄĆæ´¦æķŅĄĄµ±»»®·ÖŅ»øöStage£¬ĆæøöStageÖŠ°üŗ¬¶ąøöTask£¬TaskŹĒŌĖŠŠŌŚExecutor´¦ĄķĘ÷ÄŚŗĖÖŠ£¬Ö´ŠŠJobµÄ×īŠ�Āß¼µ�ŌŖ�£²¢ŠŠĶųøńĖŃĖ÷¼ĘĖćĮæ×ī´ó£¬×īŗÄŹ±µÄ½»²ęŃéÖ¤½×¶ĪŹĒÓÉExecutorÖŠµÄTaskĄ´Ķź³ÉµÄ£¬ĪŖĮĖČĆApplicationÖŠ·ÖÅäµÄĖłÓŠExecutorÄÜ¹»·¢»Ó×ī´óŠ§ÄÜ£¬±¾ĪÄĶØ¹żŌŚMap½×¶ĪæŲÖĘTaskµÄ²¢ŠŠ¶Č£¬ČĆĆæøöExecutor·ÖÅäµ½µÄTaskŹżÄæŅ»ÖĀ»ņÕß½Ó½üŅ»ÖĀ£¬¾�æÉÄÜµÄŹ¹ExecutorÖ®¼ä´ļµ½øŗŌŲ¾łŗā£¬´Ó¶ų¼ÓæģĖŃĖ÷µÄĖŁ¶Č�£ExecutorµÄTask·ÖÅäĒéæöČēĶ¼1µÄMap½×¶ĪĖłŹ¾£¬Ķ¼1ĆčŹöµÄĪŖĄķĻėĒéæö£¬ĖłÓŠExecutor·ÖÅäµÄTaskŹżÄæŅ»ÖĀ£¬´ĖŹ±µÄŃ°ÓÅĖŁ¶Č½Ļæģ�£ĪŖ½«Task²¢ŠŠ¶Č±äĪŖ×ŌÖ÷æÉæŲ²ĪŹż£¬±¾ĪÄ°ŃSpark¼ÆČŗÅäÖĆĪÄ¼žÖŠµÄspark.default.parallelism²ĪŹżĢįČ�³öĄ´²¢ÖŲŠ´ø²øĒ£¬½«Ęä¶ØŅåĪŖŅ»øö±äĮæ£ØParallelism£©£¬Ėć·ØÖŠµÄĶØ¹żæŲÖĘParallelismĄ´æŲÖĘ²¢ŠŠTaskµÄŹżĮæ�£²¢ŠŠæÉµ÷µÄĶųøńĖŃĖ÷Ėć·ØÖ÷ŅŖĮ÷³ĢČēĶ¼1ĖłŹ¾£¬ŹµĻÖ²½ÖčČēĻĀ£ŗ1£©ŹäČėApplicationµÄTask²¢ŠŠ¶Č£¬c�¢g²ĪŹżŹżÄæ£¬½»²ęŃéÖ¤ÕŪŹż�£2£©øł¾Żc�¢gµÄŹżĮæŗĶ²½³¤×Ō¶ÆÉś³É²ĪŹż×éŗĻ£¬²¢½«Ęä´ęČėRDDÖŠ�£3£©¶ĮČ�ŃµĮ·Ńł±¾£¬²¢½«Ęä×Ŗ»»ĪŖ¹ć²�±äĮæ�£4£©øł¾ŻŹäČėµÄTask²¢ŠŠ¶ČŅŌ¼°´ę´¢²ĪŹż×éŗĻµÄRDDĪŖĆæøöExecutor·ÖÅäTask�£5£©¶Ō´ęÓŠc�¢g²ĪŹż×éŗĻµÄRDDÖ´ŠŠmapToPair£Ø£©×Ŗ»»£¬²¢ŌŚ×Ŗ»»¹ż³ĢÖŠ¶Ō¹ć²�±äĮæÖŠµÄŃµĮ·Ńł±¾½ųŠŠ½»²ęŃéÖ¤£¬½«²ĪŹż×éŗĻŗĶ×¼Č·ĀŹŅŌ¼üÖµ¶ŌµÄŠĪŹ½·µ»Ų�£6£©ĶØ¹żReduce£Ø£©¶Æ×÷¼ĘĖć³ö×īÓÅ²ĪŹż×éŗĻŅŌ¼°×¼Č·ĀŹ£¬Driver¼ĘĖć³öŃ°ÓÅ×ÜŹ±¼ä�£²¢ŠŠæÉµ÷ĶųøńĖŃĖ÷Ėć·ØµÄŗĖŠÄĖć·Ø£ŗFig. 2��Trend diagram of total optimization time for different parallelisms[64][24][2]Ķ¼3��ČżÖÖ²¢ŠŠ¶ČŃ°ÓÅ×ÜŹ±¼ä¶Ō±ČĶ¼Fig. 3��Comparison diagram of total optimization time for three parallelisms´Ó±ķ2ŗĶĶ¼2æÉŅŌæ´³ö£¬TaskµÄ²¢ŠŠ¶Č²¢·ĒÉčÖĆŌ½´óŌ½ŗĆ£¬µ±²¢ŠŠµÄTaskŹżĮæŠ�ÓŚ12Ź±£¬ŃµĮ·×ÜŹ±¼äĖę×Å²¢ŠŠµÄTaskŹżĮæµÄŌö¼Ó¶ų½µµĶ£»µ«µ±²¢ŠŠµÄTaskŹżĮæ³¬¹ż12Ź±£¬×ÜŃµĮ·Ź±¼äæŖŹ¼ÉĻÉż£¬ŌŚ²¢ŠŠµÄTaskŹżĮæĪŖ24Ź±£¬×ÜŃµĮ·Ź±¼ä½Ó½üTask²¢ŠŠŹżĮæĪŖ12Ź±�£ŌŚÉčÖĆŗĻĄķµÄ²¢ŠŠTaskŹżĮæŗó£¬²ĪŹżŃ°ÓÅµÄ×¼Č·ĀŹ»ł±¾²»±ä£ØÉĻĻĀ²Ø¶Æ²»³¬¹ż0.1%£©£¬Ź±¼äŠŌÄÜĢįÉżĮĖ£Ø4 890-1 961£©/1 961�Ö149%�£´ÓĶ¼3æÉŅŌæ´³ö£¬ŌŚ²¢ŠŠµÄTaskŹżĮæĪŖ24µÄŹ±ŗņ£¬Ń°ÓÅµÄŹ±¼äŠŌÄÜĻą¶ŌŌŚ²»ÉčÖĆ²¢ŠŠ¶Č�¢²¢ŠŠ¶Č×ī´óµÄĒéæöĻĀ¶¼ÓŠŅ»¶ØµÄĢįÉż£¬Ļą¶ŌŌŚ²»Éč²¢ŠŠ¶ČµÄĒéæöĻĀĢįÉżĮĖ£Ø6 731-1 961£©/1 961�Ö243%£¬Ļą¶ŌŌŚ×ī´ó²¢ŠŠ¶ČµÄĒéæöĻĀĢįÉżĮĖ£Ø2 544- 1 961£©/1 961�Ö30%�£ĪŖĮĖ½ųŅ»²½²āŹŌ²¢ŠŠTaskŹżĮæĪŖ12ÕūŹż±¶¶ŌŃ°ÓÅ×ÜŹ±¼äµÄÓ°Ļģ£¬ÉčÖĆParallelism²ĪŹżĪŖ36ŌŁ´Ī½ųŠŠ²āŹŌ£¬½į¹ūČē±ķ3ĖłŹ¾£¬²¢ŠŠTaskŹżĮæĪŖ12»ņ12µÄÕūŹż±¶µÄŹ±ŗņ£¬×ÜŃ°ÓÅŹ±¼ä±Č½Ļ½Ó½ü�£±ķ3��²¢ŠŠ¶ČĪŖ12ÕūŹż±¶µÄŹµŃé½į¹ūTab. 3��Experimental results of parallelisms in integer multiples of 12[²¢ŠŠTaskŹżĮæ / øö\&Ń°ÓÅ×ÜŹ±¼ä / s\&12\&1 974\&24\&1 961\&36\&2 013\&]´Ó±ķ1ŗĶ±ķ3ŅŌ¼°Ķ¼2Ļą¹ŲŹż¾ŻæÉŅŌæ´³ö£¬Task²¢ŠŠ¶ČµÄÉčÖĆ¶ŌŃ°ÓÅ×ÜŹ±¼äÓŠŗÜ´óµÄÓ°Ļģ£¬½ųŅ»²½·ÖĪöTask²¢ŠŠ¶Č¶ŌExecutorøŗŌŲ¾łŗāµÄÓ°Ļģ£¬ŌŚ³ĢŠņÖŠÉčÖĆ±źĒ©Ą´Ķ³¼ĘĆæøöExecutorĶź³ÉµÄTaskŹżĮæ£¬½«Ļą¹ŲŹż¾ŻŌŚLogsŹä³ö£¬Ķ³¼ĘŹż¾ŻČē±ķ4ĖłŹ¾�£±ķ4��²»Ķ¬²¢ŠŠ¶Čø÷Executor·ÖÅäTaskŹżĮæTab. 4��Numbers of tasks assigned to each executor under different parallelisms øö[²¢ŠŠTaskŹżĮæ \&Executor 0 TaskŹżĮæ\&Executor 1TaskŹżĮæ\&Executor 2 TaskŹżĮæ\&Executor 3 TaskŹżĮæ\&4\&48\&0\&0\&16\&8\&24\&0\&16\&24\&12\&16\&16\&16\&16\&16\&12\&20\&16\&16\&20\&19\&14\&16\&15\&24\&16\&16\&16\&16\&]ĶØ¹ż±ķ4ŗĶĶ¼2ŅŌ¼°Ķ¼4æÉŅŌæ´³ö£¬µ±TaskŹżĮæŹĒ12»ņÕß12µÄÕūŹż±¶µÄŹ±ŗņ£¬ø÷øöExecutor·ÖÅäµÄTaskŹżĮæĻąĶ¬£¬´ļµ½øŗŌŲ¾łŗā£¬´ĖŹ±µÄŃ°ÓÅ×ÜŹ±¼äŅ²ŹĒ×ī¶ĢµÄ£»µ±TaskŹżĮæ²»ŹĒ12»ņÕß12µÄÕūŹż±¶µÄŹ±ŗņ£¬ø÷øöExecutor·ÖÅäµÄTaskŹżĮæ²»Ņ»ÖĀ£¬·ÖÅäTaskŹżĮæ½Ļ¶ąµÄExecutorµÄ½»²ęŃéÖ¤µÄ×ÜŹ±¼ä»įĻą¶Ō½Ļ³¤£¬·ÖÅäTaskŹżĮæ½ĻÉŁµÄExecutorŌŚĶź³É½»²ęŃéÖ¤Taskŗó»įµČ´ż·ÖÅäTask½Ļ¶ąµÄExecutor£¬Ö±µ½ĖłÓŠExecutorĶź³É½»²ęŃéÖ¤Task£¬ĶųøńĖŃĖ÷½įŹų£¬ĖłŅŌĶųøńĖŃĖ÷µÄ×ÜŹ±¼äŹĒÓÉ½»²ęŃéÖ¤×ÜÓĆŹ±×ī³¤µÄÄĒøöExecutor¾ö¶ØµÄ�£Ä¬ČĻĒéæöĻĀ£¬ExecutorµÄŅ»øöÄŚŗĖŌŚĶ¬Ņ»Ź±¼äÖ»´¦ĄķŅ»øöTask£¬ĖłŅŌÉčÖĆ²¢ŠŠTaskµÄŹżĮæĪŖApplicationµÄExecutorÄŚŗĖ×ÜŹż»ņ×ÜŹżµÄÕūŹż±¶æÉŅŌŹ¹ø÷øöExecutor·ÖÅäµ½µÄTaskŹżÄæĻąµČ£¬´ļµ½øŗŌŲ¾łŗā£¬´Ó¶ųŹ¹²¢ŠŠĶųøńĖŃĖ÷µÄĖŁ¶Č´ļµ½×īæģ�£4��½į��ÓļSVM´óŹż¾Ż¼Æ²ĪŹżŃ°ÓÅµÄ¼ĘĖćĮæĻąµ±´ó£¬ÓĆ´«Ķ³µÄµ�»ś²ĪŹżŃ°ÓÅĖć·ØĄ´´¦Ąķ´óŹż¾Ż¼ÆĻŌČ»²»ĻÖŹµ�£±¾ĪÄĢį³öĮĖŅ»ÖÖ»łÓŚSparkĶØÓĆ¼ĘĖćŅżĒęµÄ²¢ŠŠæÉµ÷SVM²ĪŹżŃ°ÓÅĖć·Ø£¬ĶØ¹ż·ÖĪöĖć·ØŌŚTask²»Ķ¬²¢ŠŠ¶ČĻĀµÄŃ°ÓÅŹ±¼ä£¬·¢ĻÖ²¢·ĒTask²¢ŠŠ¶ČÉčÖĆµÄŌ½´óŃ°ÓÅĖŁ¶ČŌ½æģ£¬ŠčŅŖøł¾ŻApplication·ÖÅäµÄ¼ÆČŗ×ŹŌ´£¬µ÷ÕūTaskµÄ²¢ŠŠ¶Č£ØÉčApplicationµÄExecutorÄŚŗĖŹżĮæĪŖm£¬ExecutorŹżĮæĪŖn£¬ŌņTask×īÓÅ²¢ŠŠ¶ČĪŖm�¤n»ņm�¤nµÄÕūŹż±¶£©£¬Ź¹ø÷øöExecutor´ļµ½øŗŌŲ¾łŗā£¬´Ó¶ųĻŌÖųĢįøßŃ°ÓÅĖŁ¶Č�£´Ó¼ÆČŗµÄ½Ē¶ČĄ´æ´£¬ŌŚApplicationÖŠĆæøöTaskŗÄŹ±Ļą²ī²»´óµÄĒéæöĻĀ£¬Task·ÖÅäµÄŌ½¾łŌČ£¬ApplicationµÄ×ÜŗÄŹ±Ō½ÉŁ£¬µ±TaskĶźČ«¾łŌČ·ÖÅäŹ±£¬¼´øŗŌŲ¾łŗāµÄŹ±ŗņ£¬Application×ÜŗÄŹ±×īÉŁ�£²ĪŹżŃ°ÓÅ¹ż³ĢÖŠ¼ÆČŗÄŚ´ę×ŹŌ´µÄĻūŗÄÓÅ»ÆŹĒ½ńŗóŃŠ¾æµÄÖŲµćÖ®Ņ»£¬ĶØ¹ż¶ÆĢ¬ĘĄ¹ĄÄŚ´ęĻūŗÄ£¬øųExecutorÉčÖĆŗĻĄķµÄÄŚ´ę£¬ŌŚ²»½µµĶŃ°ÓÅĖŁ¶ČµÄĒ°ĢįĻĀ£¬ĻūŗÄ¾�æÉÄÜÉŁµÄÄŚ´ę×ŹŌ´Ķź³ÉSVM²ĪŹżŃ°ÓÅĖć·Ø�£