ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2022Äź01ĘŚ 85-91 ³ö°ęČÕĘŚ£ŗ2022-02-28 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚMapReduceµÄÖ§³ÖĻņĮæ»ś²ĪŹżŃ�ŌńŃŠ¾æ

Ö§³ÖĻņĮæ»ś£Øsupport vector machine£¬SVM£©·ÖĄąÄ£ŠĶµÄ½ØĮ¢ŠčŅŖ¾¹ż´óĮæµÄ¼ĘĖć£¬Ėę×ÅŃµĮ·Ńł±¾¼Æ¹ęÄ£µÄŌö³¤£¬²»½ö»į´óĮæĻūŗÄÖ÷»śµÄCPU¼°ÄŚ´ę×ŹŌ´£¬¶ųĒŅŃµĮ·Ä£ŠĶĖłŠčŅŖŹ±¼äŅ²»į¼±¾ēŌö¼Ó£¬´Ó¶ųŹ¹µĆŌŚµ�»ś»·¾³ĻĀµĆµ½Ä£ŠĶ±äµĆŹ®·ÖĄ§ÄŃ£¬Ņņ´ĖČēŗĪÕė¶Ō´ó¹ęÄ£Źż¾Ż¼Æ£¬Ź¹ÓĆ²¢ŠŠ»Æ·½Ź½»ńµĆ×īÓÅÖ§³ÖĻņĮæ»ś·ÖĄąÄ£ŠĶ£¬Ņ»Ö±ŹĒŃŠ¾æµÄČČµćĪŹĢā£Ū1-3£Ż�£»łÓŚHadoopĘ½ĢØµÄ·Ö²¼Ź½¼ĘĖćæņ¼ÜMapReduce¼°SparkĪŖ²¢ŠŠ»ÆŃµĮ·´ó¹ęÄ£Źż¾Ż¼ÆĢį¹©ĮĖŠĀµÄ·½·ØŗĶŹÖ¶Ī£Ū4-7£Ż£¬ŌŚ·Ö²¼Ź½¼ĘĖćæņ¼ÜµÄÖ§³ÖĻĀ£¬SVM·ÖĄąÄ£ŠĶµÄŃµĮ·¹ż³ĢæÉŅŌ²¢ŠŠ»Æ£¬´Ó¶ųĻŌÖųĖõ¶ĢĮĖµĆµ½Ä£ŠĶĖłŠčŅŖµÄŹ±¼ä£Ū8-10£Ż£¬²ćµž»ÆSVM¾ĶŹĒ»łÓŚMapReduceæņ¼Ü²¢ŠŠ»ńČ�Ö§³ÖĻņĮæµÄµäŠĶÓ¦ÓĆ£Ū11-12£Ż�£ĪŖĮĖČĆSVM·ÖĄąÄ£ŠĶÄÜ¹»øüĀ³°ōµŲÓĆÓŚŹµ¼ŹŹż¾ŻµÄŌ¤²ā¼°½ā¾öĻßŠŌ²»æÉ·ÖĪŹĢā£¬ŌŚÄ£ŠĶµÄŃµĮ·¹ż³ĢÖŠ£¬ŠčŅŖ¶ŌÄ£ŠĶµÄ²ĪŹż½ųŠŠŃ�Ōń£¬´Ó¶ųµĆµ½×īÓÅµÄÄ£ŠĶ£Ū13-14£Ż�£Ļą¹ŲŃŠ¾æŌĖÓĆ MapReduceæņ¼Ü½ØĮ¢·Ö²¼Ź½²ĪŹżŃ°ÓÅÄ£ŠĶ£¬Ķź³ÉĮĖÄ£ŠĶŃµĮ·�¢Ō¤²āŗĶ²ĪŹżŃ�ŌńÓÅ»Æ�£ĪāŌĘĪµµČ£Ū15£ŻÕė¶ŌŹ¹ÓĆĶųøńĖŃĖ÷¶ŌSVM²ĪŹż½ųŠŠČ«¾ÖŃ°ÓÅŹ±´ęŌŚµÄŃ°ÓÅŹ±¼ä³¤µÄĪŹĢā£¬Ģį³öĮĖŅ»ÖÖ»łÓŚHadoop·Ö²¼Ź½ĪÄ¼žĻµĶ³£Øhadoop distributed file system£¬HDFS£©Ę½ĢØµÄ·Ö²¼Ź½²ĪŹżŃ°ÓÅ·½·Ø£¬ĢįøßĮĖŃ°ÓÅŠ§ĀŹ�£°×ÓńŠĮ£Ū16£Ż»łÓŚFlink²¢ŠŠĶųøńĖŃĖ÷Ėć·Ø¶ŌSVM²ĪŹż½ųŠŠŃ°ÓÅ£¬½«Č«¾Ö²ĪŹż¶ŌĪÄ¼žĒŠ·Ö³ÉČōøÉŠ�æé½»øųø÷øö¼ĘĖć½Śµć²¢ŠŠŃ°ÓÅ£¬×īŗó»ć×ÜŃ°ÓÅ½į¹ū£¬¼õÉŁĮĖŃ°ÓÅŹ±¼ä�£ĄīĄ¤µČ£Ū17£Ż»łÓŚSpark¼ÆČŗŹµĻÖĮĖlibsvm²ĪŹżÓÅŃ�µÄ²¢ŠŠ»Æ£¬Ģį³öĮĖ²¢ŠŠ´ÖĮ£¶ČĶųøńĖŃĖ÷²ĪŹżÓÅŃ�Ėć·Ø£¬Ļą±Č´«Ķ³Ėć·ØŌĖŠŠĖŁ¶ČĢįÉżĮĖ½ü7±¶£¬ĒŅĖę×Å¼ÆČŗ¹ęÄ£µÄĄ©´ó¶ų½ųŅ»²½¼Ó´ó�£µ«µ±Ē°µÄÕāŠ©ŃŠ¾æ¶¼Č±ÉŁŌŚŃµĮ·¹ż³Ģ¶Ō¼ÆČŗÄŚ´ę×ŹŌ´ĻūŗÄĒéæöµÄĀŪŹö�£Ņņ´Ė±¾ĪÄĢį³öŅ»ÖÖŌŚMapReduceæņ¼ÜĻĀ½ųŠŠ×īÓÅÄ£ŠĶ²ĪŹżŃ�ŌńµÄŠĀĖć·Ø£¬øĆĖć·ØÄÜ¹»ŌŚŗĻĄķĄūÓĆ¼ÆČŗÄŚ´ę×ŹŌ´¼°±£Ö¤½ųŠŠ½»²ęŃéÖ¤µÄReduceČĪĪń³ä·Ö²¢ŠŠÖ´ŠŠµÄĒ°ĢįĻĀ£¬ĻŌÖų¼õÉŁ×īÓÅÄ£ŠĶ²ĪŹżµÄ»ńČ�Ź±¼ä�£1 SVM·ÖĄą×īÓÅÄ£ŠĶ²ĪŹżŃ�Ōń¶ŌÓŚøų¶ØµÄŃµĮ·Źż¾Ż¼Æ£ŗ[D={(xi,yi) | xi�ŹRn,][yi�Ź(-1,1)}mi=1]£¬Ēó½āSVM×īÓÅ³¬Ę½ĆęµÄ¶ŌÅ¼ĪŹĢāĆčŹöĪŖ£ŗ [maxa i=1mai-12i=1m j=1maiajyiyjKxi, xj ][subject to 0�Üai�Ü c; i=1,2,�,m] £Ø1£©[i=1maiyi=0]ĘäÖŠ[m]ĪŖÖ§³ÖĻņĮæµÄøöŹż£¬[ai]ĪŖÖ§³ÖĻņĮæ¶ŌÓ¦µÄĄøńĄŹČÕĖć×Ó�£[c]ĪŖ³Ķ·£²ĪŹż£¬æŲÖĘSVMÄ£ŠĶČēŗĪ´¦Ąķ´ķĪó£¬¶ŌÓŚĻßŠŌæÉ·ÖĪŹĢā£¬ŗĻŹŹµÄ[c]ÖµæÉŅŌŹ¹µĆ³¬Ę½Ćę¼ä¾ą×ī´ó£¬Ķ¬Ź±³öĻÖµÄ·ÖĄą´ķĪó×īÉŁ�£Ć»ÓŠŅ»øöĢŲ¶ØµÄ[ c ]ÖµæÉŅŌ½ā¾öĖłÓŠµÄĻßŠŌæÉ·ÖĪŹĢā£¬¶ŌÓŚ¾ßĢåµÄĪŹĢā£¬×īÓÅµÄ[ c ]ÖµÖ»ÄÜĶØ¹żŹµŃéµÄ·½·ØµĆµ½�£¶ŌÓŚĻßŠŌ²»æÉ·ÖĪŹĢā£¬æÉŅŌĶØ¹żŗĖŗÆŹż½«Źż¾ŻÓ³Éäµ½¶ąĪ¬æÕ¼ä£¬Ź¹ĘäĻßŠŌæÉ·Ö�£ŗĖŗÆŹż[ K ]µÄ·µ»ŲÖµŹĒŹż¾ŻµćŌŚ×Ŗ»»ĪŖ¶ąĪ¬æÕ¼äĻņĮæŗóµÄÄŚ»żÖµ£¬ŗĖŗÆŹż[K]µÄŠĪŹ½»Æ¶ØŅåĪŖ£ŗøų¶ØŅ»øöÓ³ÉäŗÆŹż[¦Õ: x �śv]£¬ŗÆŹż[K:x �śR]£¬¶ØŅåĪŖ£ŗ[Kx, x�Æ=][<¦Õx,¦Õx�Æ>v] ĘäÖŠ£¬[<¦Õx,¦Õx�Æ>v]±ķŹ¾[x, x�Æ]ŌŚ×Ŗ»»ĪŖ[¦Õx, ][¦Õx�Æ]ŗóŌŚ[v]ÖŠµÄÄŚ»ż�£ŗĖŗÆŹżµÄĄąŠĶÓŠĻßŠŌŗĖŗÆŹż�¢¶ąĻīŹ½ŗĖŗÆŹż�¢øßĖ¹ŗĖŗÆŹżµČ�£Źµ¼łÖ¤Ć÷£¬Ź¹ÓĆøßĖ¹ŗĖŗÆŹż¶ŌĻßŠŌ²»æÉ·ÖĪŹĢā½ųŠŠ·ÖĄą£¬Ņ»°ćæÉŅŌČ�µĆ½ĻŗĆµÄŠ§¹ū£¬¹ŹŌŚŃ�ŌńŗĖŗÆŹżŹ±£¬øßĖ¹ŗĖŗÆŹżŅ»°ćŹĒŹ×Ń��£øßĖ¹ŗĖŗÆŹżµÄĆčŹöĪŖ£ŗ[Kx, x�Æ =exp-¦Ć x-x�Æ2 ] £Ø2£©[¦Ć]ŗĶ[c]ÖµŅ»ŃłŠčŅŖĶØ¹żŹµŃéµĆµ½Ęä×īÓÅÖµ£¬Č�µĆ×īÓÅÖµµÄŹµŃéĪŖ²ÉÓĆ½»²ęŃéÖ¤µÄĶųøńĖŃĖ÷·½·Ø£Øgrid search£©�£¶ŌÓŚµŚ[i]×éøų¶ØµÄ[ci, ¦Ći]£¬½»²ęŃéÖ¤µÄ¹ż³ĢĪŖ½«ŃµĮ·¼Æ»®·ÖĪŖ´óŠ�ĻąĶ¬µÄ[n]øöµČ·Ż£¬ŅĄ´ĪČ�ĘäÖŠµÄµŚ[j]·ŻĪŖ²āŹŌ¼Æ[Tj , j=(1,2,�,n)]£¬Ź£ĻĀµÄ [n-1]·ŻĪŖŃµĮ·¼Æ£¬Ź¹ÓĆøł¾ŻŃµĮ·¼ÆµĆµ½µÄ·ÖĄąÄ£ŠĶŌ¤²ā[Pj]£¬µĆµ½Ō¤²ā×¼Č·ĀŹ[Aj]£¬Õūøö½»²ęŃéÖ¤µÄ×¼Č·ĀŹ[Ai]ĪŖ£ŗ[Ai=j=1nAjn ] £Ø3£©ÉĻŹöµÄ¹ż³Ģ³ĘĪŖ[n]ÖŲ½»²ęŃéÖ¤£Øn-fold cross validation£©�£[n]ÖŲ½»²ęŃéÖ¤Ź¹µĆÕūøöŃµĮ·¼ÆÖŠµÄŹż¾Ż¾ł±»Ō¤²ā£¬Ęä×¼Č·ĀŹĪŖÕūøöŃµĮ·¼ÆÖŠµÄŹż¾Ż±»ÕżČ··ÖĄąµÄ°Ł·Ö±Č£¬¹Ź[n]ÖŲ½»²ęŃéÖ¤ÄÜÓŠŠ§µÄ±ÜĆāÄ£ŠĶµÄ¹żÄāŗĻĪŹĢā�£×īÓÅÄ£ŠĶ²ĪŹżµÄŃ�Ōń¾ĶŹĒŌŚ¼ÆŗĻ[p={(ci, ¦Ći) | ci , ¦Ći�ŹR}mi=1]ÖŠ£¬Ź¹ÓĆ½»²ęŃéÖ¤µĆµ½Ćæ×é²ĪŹżµÄ[Ai]£¬Č�×¼Č·ĀŹ×īøßµÄ²ĪŹż[(ci, ¦Ći)]ĪŖ×īÓÅÄ£ŠĶ²ĪŹż�£Ź¹ÓĆĶųøńĖŃĖ÷µĆµ½×īÓÅÄ£ŠĶŹĒøö·Ē³£ŗÄŹ±µÄ¹ż³Ģ£¬¼ŁÉč²ĪŹż¼ÆŗĻ[p]µÄ²ĪŹż×éŹżĪŖ[m]£¬Ćæ×é²ĪŹż½ųŠŠ[n]ÖŲ½»²ęŃéÖ¤£¬ĆæŅ»´Ī½»²ęŃéÖ¤µÄĘ½¾łŹ±¼äĪŖ[w]£¬ČōĪŖ´®ŠŠÖ´ŠŠ£¬ĶųøńĖŃĖ÷µÄ×ÜŹ±¼ä[t]ĪŖ£ŗ[t=m�¤n�¤w] £Ø4£©ÓÉ´ĖæÉ¼ūĶųøńĖŃĖ÷µÄŹ±¼äĖę×Å²ĪŹż×éŹż[m]¼°½»²ęŃéÖ¤µÄÖŲŹż[n]¶ųĻßŠŌŌö³¤�£ŌŚĶųøńĖŃĖ÷µÄ¹ż³ĢÖŠ£¬ÓÉÓŚ¶ŌÄ³×é²ĪŹż½ųŠŠ½»²ęŃéÖ¤µÄ¹ż³ĢÓėĘäĖü²ĪŹż×éĪŽ¹Ų£¬¹Ź¶ą×é²ĪŹżµÄ½»²ęŃéÖ¤¹ż³ĢæÉŅŌ²¢ŠŠÖ´ŠŠ£¬´Ó¶ųĖõ¶ĢĶųøńĖŃĖ÷µĆµ½×īÓÅÄ£ŠĶĖłŠčŅŖµÄŹ±¼ä�£2��·Ö²¼Ź½¼ÆČŗ»·¾³ĻĀµÄ×īÓÅÄ£ŠĶ²ĪŹżŃ�Ōń2.1��×īÓÅÄ£ŠĶ²ĪŹżµÄŃ�Ōń¹ż³ĢŌŚ·Ö²¼Ź½¼ÆČŗ»·¾³ĻĀ£¬MapReduceæņ¼ÜøŗŌš´¦Ąķ²¢ŠŠ¼ĘĖćÖŠµÄ·Ö²¼Ź½´ę´¢�¢¹¤×÷µ÷¶Č�¢øŗŌŲ¾łŗā�¢ČŻ´ķ¾łŗā�¢ČŻ´ķ´¦ĄķŅŌ¼°ĶųĀēĶØŠÅµČø´ŌÓĪŹĢā�£MapReduceæņ¼Ü²ÉÓĆ�°·Ö¶ųÖĪÖ®�±µÄ²ßĀŌ£¬ĘäŗĖŠÄ²½ÖčÖ÷ŅŖ·ÖĮ½²æ·Ö£ŗMap ŗĶReduce�£ŌŚĻņMapReduce æņ¼ÜĢį½»Ņ»øö¼ĘĖć×÷Ņµŗó£¬MapReduce»įŹ×ĻČ°Ń×÷Ņµ²š·Ö³ÉČōøÉøöMap ČĪĪń£¬Č»ŗóÕāŠ©MapČĪĪń±»·ÖÅäµ½²»Ķ¬µÄ»śĘ÷ÉĻÖ´ŠŠ£¬ÕāŠ©Map ČĪĪńĶź³Éŗó»į²śÉśŅ»Š©¼üÖµ¶Ō¹¹³ÉµÄÖŠ¼äĪÄ¼ž£¬ĖüĆĒ½«»į×÷ĪŖReduceČĪĪńµÄŹäČėŹż¾Ż�£Reduce ČĪĪńµÄÖ÷ŅŖÄæ±ź¾ĶŹĒ°ŃĒ°ĆęČōøÉøöMap µÄŹä³ö½ųŠŠ´¦Ąķ²¢øų³ö½į¹ū�£MapReduceæņ¼ÜµÄ×÷ŅµÅäÖĆ·Ē³£Įé»ī£¬æÉŅŌÖø¶ØÖ»µ�¶ĄŌĖŠŠMap»ņÕßReduceČĪĪń£»Öø¶ØĶź³É¾ßĢåČĪĪńµÄReduceµÄøöŹż£»ĶØ¹żkeyÖµÖø¶ØMapČĪĪńÓėReduceČĪĪńµÄ¶ŌÓ¦¹ŲĻµµČ�£±¾ĪÄĢį³öµÄ×īÓÅÄ£ŠĶ²ĪŹżŃ�Ōń·½·ØŹ×ĻČŌŚMapČĪĪńÖŠ¶ĮČ�´ę´¢ŌŚHDFSĪÄ¼žĻµĶ³ÖŠµÄ²ĪŹżĪÄ¼ž£¬Č»ŗóŌŚReduceČĪĪńÖŠ½ųŠŠÄ£ŠĶµÄŃµĮ·¼°½»²ęŃéÖ¤£¬µĆµ½Ä£ŠĶµÄ×¼Č·ĀŹ�£»łÓŚMapReduceµÄSVM×īÓÅ·ÖĄąÄ£ŠĶ²ĪŹżŃ�ŌńµÄ¹ż³ĢČēĶ¼1ĖłŹ¾�£·Ö²¼Ź½¼ÆČŗ»·¾³ĻĀµÄ×īÓÅÄ£ŠĶŃ�ŌńµÄŗĖŠÄĖ¼Ļė¾ĶŹĒČĆ¶ą×é²ĪŹżæÉŅŌĶ¬Ź±ŃµĮ·£¬ŅŌĖõ¶ĢµĆµ½×īÓÅÄ£ŠĶ²ĪŹżµÄŹ±¼ä�£½«ŠčŅŖŃµĮ·µÄ²ĪŹż¼ÆŗĻ²ĪŹż[p={(ci, ¦Ći) | ci , ¦Ći�ŹR}mi=1]ÖŠµÄĆæ×é²ĪŹż[(ci, ¦Ći)]ŅŌŅ»øöĪÄ¼žµÄ·½Ź½Š´Čėµ½HDFSĪÄ¼žĻµĶ³£¬µ±ĪÄ¼žµÄøöŹż´ļµ½Öø¶ØµÄćŠÖµ[nn�Üm ]Ź±£¬Ęō¶ÆMapReduce×÷Ņµ£¬ĶØ¹żÖŲŌŲMapČĪĪń¶ĮČ�ĪÄ¼žµÄÄ£Ź½£¬Ź¹µĆĆæøöMapČĪĪń¶ĮČ�ŹäČė²ĪŹżĪÄ¼žµÄĖłÓŠÄŚČŻ£¬ŌŚČ·±£keyĪØŅ»ŗó£¬½«[]Š´Čėµ½ÖŠ¼ä½į¹ū�£ÓÉÓŚĆæ×é²ĪŹżµÄkeyÖµ²»Ķ¬£¬ĒŅReduceµÄøöŹżÉčÖĆĪŖ[ n]£¬ĖłŅŌJobTrackæÉŅŌ±£Ö¤ĆæøöReduceČĪĪńÖ»ŃµĮ·Ņ»×é²ĪŹż�£ĆæøöReduceČĪĪń¶ĮČ�»ŗ´ęŌŚ¼ÆČŗÄŚ´ęÖŠµÄŃµĮ·Źż¾Ż¼ÆĪÄ¼ž¼°µ÷ÓĆ»ŗ´ęŌŚ¼ÆČŗÖŠµÄlibsvm°üÖŠµÄ·½·ØŃµĮ·Ä£ŠĶ²¢½ųŠŠ½»²ęŃéÖ¤£¬Ä£ŠĶŃµĮ·µÄ½į¹ūŠ´ČėHBaseŹż¾Żæā£¬ŅŌ±ć¶ŌŃµĮ·¹ż³Ģ½ųŠŠĶ³¼Ę·ÖĪö�£2.2��×īÓÅÄ£ŠĶŃ�ŌńĖć·ØÉč¼ĘÓÉÓŚĆæ×é²ĪŹżµÄ½»²ęŃéÖ¤¹ż³ĢŅŖŌŚReduceČĪĪńÖŠĶź³É£¬Ōö¼ÓReduceµÄČĪĪń²¢·¢ŹżĻŌČ»æÉŅŌ¼Óæģ»ńµĆ×īÓÅÄ£ŠĶ²ĪŹżµÄĖŁ¶Č�£µ«ŹĒ£¬µ±²¢·¢Ö´ŠŠµÄReduceČĪĪńøöŹżµ½´ļŅ»¶ØćŠÖµŗó£¬¼ÆČŗµÄÄŚ´ę×ŹŌ´½«±»Č«²æÕ¼ÓĆ£¬´Ó¶ųµ¼ÖĀĘäĖüµÄMapReduce×÷ŅµÓÉÓŚČ±ÉŁÄŚ´ę×ŹŌ´¶ųĪŽ·ØÖ´ŠŠ�£Ņņ´Ė£¬±ŲŠėĻŽÖĘ²¢·¢Ö´ŠŠµÄReduceµÄČĪĪńøöŹż�£Ņ»ÖÖĻŽÖĘReduceČĪĪńøöŹżµÄ·½Ź½ĪŖ£ŗ½«ŠčŅŖŃ�ŌńµÄ[m]øö²ĪŹż»®·ÖĪŖ[n]øöMapReduce×÷Ņµ[(J1, J2, �, ][Jn-1, Jn), n�Ż1]£¬ĘäÖŠ£Ø[J1, J2, �, Jn-1)]Ö´ŠŠ[ mn ]øö²ĪŹżµÄŃéÖ¤£¬[Jn]Ö´ŠŠ[ m%n ]øö²ĪŹżµÄŃéÖ¤£¬£Ø[J1, J2, �, Jn-1)]ŌŚJobTrackµÄæŲÖĘĻĀ´®ŠŠÖ´ŠŠ£¬Ö´ŠŠ¹ż³ĢČēĶ¼2ĖłŹ¾�£Ķ¼2£Øa£©ÖŠµÄĆæøö[Ji]ÖŠ²¢ŠŠÖ´ŠŠ[mn ]øö»ņÕß[m%n]øöReduceČĪĪń£¬¾ŲŠĪĢõ±ķŹ¾ĆæøöReduceČĪĪńµÄĶź³ÉŹ±¼ä�£¶ŌÓŚµŚ[i]øö×÷Ņµ[Ji]£¬Ö´ŠŠ½»²ęŃéÖ¤ŗÄŹ±×ī³¤µÄReduceČĪĪńĶź³ÉŹ±¼äĪŖ[Ri]£¬ÓÉÓŚ[Ji]ĪŖ´®ŠŠÖ´ŠŠ·½Ź½£¬ĖłŅŌŹ¹ÓĆøĆ·½Ź½½ųŠŠ×īÓÅ²ĪŹżŃ�ŌńµÄ×ÜŹ±¼ä[ G]ĪŖ£ŗ[G=i=1nRi] £Ø5£©ĮķŅ»ÖÖ·½Ź½ĪŖµ�øöMapReduce ×÷Ņµ·½Ź½£¬¼´Ö»Ęō¶ÆMapReduce×÷ŅµŅ»´Ī£¬ČĆ[m]øöReduceČĪĪńČ«²æ´¦ÓŚ¾ĶŠ÷×´Ģ¬£¬µ«ĻŽÖĘÄÜ»ńµĆ×ŹŌ´²¢ŠŠÖ´ŠŠµÄReduceµÄČĪĪńøöŹżĪŖ[k , k�Üm]�£µ±Ä³øöReduceČĪĪńÖ´ŠŠĶź³Éŗó£¬´¦ÓŚ¾ĶŠ÷µČ´ż¶ÓĮŠÖŠµÄÄ³øöReduceČĪĪń»ńµĆ×ŹŌ´æŖŹ¼Ö´ŠŠ£¬Ö±µ½¾ĶŠ÷¶ÓĮŠÖŠµÄĖłÓŠReduceČĪĪńÖ´ŠŠĶź³É�£µ�øöMapReduce ×÷Ņµ·½Ź½µÄÖ´ŠŠ¹ż³ĢČēĶ¼2£Øb£©ĖłŹ¾�£[Ķ¼2��£Øa£©´®ŠŠMapReduce×÷Ņµ·½Ź½£»£Øb£©µ�øöMapReduce×÷Ņµ·½Ź½Fig. 2��£Øa£© Serial MapReduce job mode£»£Øb£© Single MapReduce job mode]

µ�øöMapReduce×÷Ņµ·½Ź½Ö»ŌŚÖ´ŠŠ×īŗóŅ»Åś[k]øöReduceČĪĪńŹ±£¬ŠčŅŖµČ´żŗÄŹ±ĘäÖŠ×ī³¤µÄČĪĪńÖ´ŠŠĶź³É£¬ĘäĖüĒéæöĻĀ£¬ŗÄŹ±³¤µÄČĪĪń½«ŗĶĘäĖüČĪĪńŅ»Ęš²¢ŠŠÖ´ŠŠ�£ĶØ¹ż±Č½ĻĮ½ÖÖMapReduce×÷Ņµ·½Ź½æÉŅŌ·¢ĻÖ£¬´®ŠŠMapReduce×÷Ņµ·½Ź½µ÷¶Č¼ņµ�£¬²»ŠčŅŖĪ¬»¤¶īĶāµÄReduceČĪĪń¾ĶŠ÷¶ÓĮŠ»ņÕßµČ´żČĪĪńÖ´ŠŠ£¬µ«µ±×÷ŅµÖŠ´ęŌŚŗÄŹ±µÄReduceČĪĪńŹ±£¬»įĻŌÖųŌö¼ÓÕūøö×÷ŅµµÄĶź³ÉŹ±¼ä£¬Ņņ´Ė´®ŠŠMapReduce×÷Ņµ·½Ź½ŹŹŗĻ²¢ŠŠÖ´ŠŠµÄø÷øöReduceČĪĪńµÄĶź³ÉŹ±¼ä²ī¾ą²»´óµÄĻøĮ£¶Č×īÓÅ²ĪŹżĖŃĖ÷�£µ�øöMapReduce×÷Ņµ·½Ź½Ö»Ļņ¼ÆČŗĢį½»Ņ»´Ī×÷Ņµ£¬Čē¹ūŌĖŠŠŹ§°Ü£¬Õūøö²ĪŹżŃ�ŌńµÄ¹ż³Ģ±ŲŠėÖŲ×ö�£µ«µ±×÷ŅµÖŠ°üĄØŗÄŹ±µÄReduceČĪĪńŹ±£¬øĆ×÷Ņµ·½Ź½æÉŅŌŹ¹µĆŗÄŹ±µÄČĪĪńŗĶĘäĖüČĪĪńĶ¬Ź±Ö´ŠŠ£¬´Ó¶ų¼Óæģ×īÓÅ²ĪŹżµÄ»ńČ�ĖŁ¶Č£¬Ņņ´Ėµ�øöMapReduce×÷Ņµ·½Ź½ŹŹŗĻReduceČĪĪńµÄĶź³ÉŹ±¼ä²ī¾ą½Ļ´óµÄ´ÖĮ£¶Č×īÓÅ²ĪŹżĖŃĖ÷�£SVM×īÓÅÄ£ŠĶ²ĪŹżŃ�ŌńµÄĖć·ØĮ÷³ĢČēĶ¼3ĖłŹ¾£¬ĘäÖŠ[reduceNums]²ĪŹżÓĆÓŚæŲÖĘ×÷ŅµÖŠ²¢·¢Ö´ŠŠµÄReduceČĪĪńµÄøöŹż£¬[reduceNumsAllowed]²ĪŹżÓĆÓŚæŲÖĘ¼ÆČŗÖŠŌŹŠķÖ´ŠŠµÄReduceČĪĪńµÄøöŹż�£µ±reduceNums<=cnum*gnum£¬ reduceNums-Allowed<=reduceNumsŹ±ĪŖ´®ŠŠMapReduce×÷Ņµ·½Ź½�£µ±reduceNums<=cnum*gnum£¬reduceNums-Allowed<=reduceNumsŹ±ĪŖµ�øöMapReduce×÷Ņµ·½Ź½�£MapReduce×÷ŅµÖŠµÄMapČĪĪń¶ĮČ�´ę´¢ŌŚHDFSĪÄ¼žĻµĶ³ÖŠµÄ²ĪŹżĪÄ¼ž£¬²¢ŅŌµÄŠĪŹ½Š´³É£¬½»øųReduce´¦Ąķ£¬ĘäĖć·ØĆčŹöČēĶ¼4ŗĶĶ¼5ĖłŹ¾£¬ĘäÖŠparamFile±ķŹ¾µ±Ē°²ĪŹżĪÄ¼ž£¬context±ķŹ¾MapReduce×÷ŅµÉĻĻĀĪÄ�£Ķ¼4��MapReduce×÷ŅµÖŠµÄMapČĪĪńĮ÷³ĢĶ¼Fig. 4��Flow chart of Map task in MapReduce jobĶ¼5��MapReduce×÷ŅµÖŠµÄReduceČĪĪńĮ÷³ĢĶ¼Fig. 5��Flow chart of Reduce task in MapReduce job´ę´¢ŌŚHDFSĪÄ¼žĻµĶ³ÖŠµÄ²ĪŹżĪÄ¼ž¾¹żMapČĪĪń´¦Ąķŗó£¬ÓÉÓŚø÷×ŌµÄkeyÖµ²»Ķ¬£¬ĖłŅŌMapReduceæņ¼ÜµÄJobTrack°ŃĆæ×é²ĪŹż½»øųŅ»øöReduceČĪĪńĄ´´¦Ąķ£¬´Ó¶ųŹ¹µĆÄ£ŠĶµÄŃ�Ōń¹ż³Ģ²¢ŠŠ»Æ£¬ŌŚReduceČĪĪńµÄĖć·ØĆčŹöÖŠ£¬paramStr±ķŹ¾²ĪŹż×Ö·ū´®£¬context±ķŹ¾MapReduce×÷ŅµÉĻĻĀĪÄ�£ReduceČĪĪńÖŠµÄ½»²ęŃéÖ¤¹ż³ĢÖ±½Óµ÷ÓĆlibsvm°üÖŠµÄ·½·ØĶź³É£¬ŃµĮ·Źż¾Ż¼ÆÖŠµÄŹäČėĢŲÕ÷ŠčŅŖ°´libsvm¹ę¶ØµÄĻ�Źč¾ŲÕóøńŹ½½ųŠŠŃ¹Ėõ£¬ŹäČėĢŲÕ÷ÖµŅ»°ćŠčŅŖ½ųŠŠ¹éŅ»»Æ´¦Ąķ£¬±ÜĆāĢŲÕ÷ÖµÖ®¼äµÄŹżĮæ¼¶²ī¾ą¹ż´ó¶ŌŃµĮ·Ėć·ØµÄÓ°Ļģ�£ŌŚĆæ×é²ĪŹż¶ŌÓ¦µÄReduceČĪĪńĶź³Éŗó£¬½«Ęä½»²ęŃéÖ¤µÄ½į¹ūŠ´ČėHBase±ķ£¬ŅŌ±ć¶ŌŹż¾Ż½ųŠŠĶ³¼Ę·ÖĪö£¬µĆµ½×īÓÅÄ£ŠĶµÄ²ĪŹż¼°ĘäĖüŠŌÄÜÖø±ź�£HBaseµÄ±ķ½į¹¹ČēĶ¼6ĖłŹ¾�£[±ķ-BMSResult? Key = °´ReduceČĪĪńµÄĶź³ÉŹ±¼ä×Ō¶ÆÉś³ÉŠŠ¼ü ĮŠ×å-ResultInfo [ci] [¦Ći] costTime: ½»²ęŃéÖ¤Ź±¼ä accu£ŗ½»²ęŃéÖ¤×¼Č·ĀŹ ĮŠ-Experiment:Num ¼ĒĀ¼ŹµŃéµÄ´ĪŹż ]Ķ¼6��ŹµŃé½į¹ū´ę´¢HBase±ķ½į¹¹Fig. 6��Structure of HBase table of storing experiment results3��ŹµŃé²æ·ÖŹµŃéÓĆ·žĪńĘ÷ĪŖDELL PowerEdge R720£¬ ĘäÅäÖĆĪŖ2øöĪļĄķCPU£ØIntel Xeon E5-2620 V2 2.10 GHz£¬ĆæøöCPUŗ¬6øöÄŚŗĖ£¬¹²12øöÄŚŗĖ£©£¬32 GBÄŚ´ę£¬8 TBÓ²ÅĢ£¬4øöĪļĄķĶųæØ�£·žĪńĘ÷°²×°VMWare esxi6.0.0²Ł×÷ĻµĶ³£¬ŠéÄā»ÆÕūøö·žĪńĘ÷»·¾³�£æĶ»§¶ĖŹ¹ÓĆVMWare VSphere client 6.0.0½«·žĪńĘ÷»®·ÖĪŖ4øöŠéÄā»ś£¬ĆæøöŠéÄā»śµÄÅäÖĆĪŖ3ÄŚŗĖCPU£¬8 GBÄŚ´ę£¬2 TBÓ²ÅĢ£¬1øöĪļĄķĶųæØ�£ĆæøöŠéÄā»ś°²×°ubuntu-16.04.1-server-amd64²Ł×÷ĻµĶ³£¬Hadoop 2.7.3·Ö²¼Ź½¼ĘĖćĘ½ĢØ£¬×é³Éŗ¬1øöÖ÷½Śµć£¬4øöŹż¾Ż½Śµć£ØÖ÷½ŚµćŅ²ŹĒŹż¾Ż½Śµć£©µÄ¼ÆČŗ�£ŹµŃéŃ�ÓĆhttps£ŗ//www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/ÖŠµÄa8a¶ž·ÖĄąŃµĮ·Źż¾Ż¼Æ£¬a8a¹²°üŗ¬22 696ĢõŹż¾Ż£¬´óŠ�ŌŚ1.6 MB×óÓŅ�£½ųŠŠ´ÖĮ£¶Č²ĪŹżŃ�Ōń£¬±Č½ĻŌŚReduceČĪĪńĶź³ÉŹ±¼ä²ī¾ą½Ļ´óŹ±£¬´®ŠŠMapReduce×÷Ņµ·½Ź½ŗĶµ�øöMapReduce×÷Ņµ·½Ź½ŌŚ×īÓÅÄ£ŠĶ²ĪŹżŃ�ŌńŹ±µÄŹ±¼äŠŌÄÜŗĶ¼ÆČŗÄŚ´ęĻūŗÄÉĻµÄ²ī±š�£ÉčÖĆ²ĪŹż[nrFold=4]£¬[cnum=8]£¬[c]³õŹ¼ÖµĪŖ0£¬µŻŌö²½³¤ĪŖ1£¬ĖŃĖ÷·¶Ī§ĪŖ[0~7]�£²ĪŹżgnum=8£¬[¦Ć]µÄ³õŹ¼ÖµĪŖ0£¬µŻŌö²½³¤ĪŖ[10-1]£¬ĖŃĖ÷·¶Ī§ĪŖ[0~10-7]�£[ci]ŗĶ[¦Ći]µÄµŃæØ¶ū»żĪŖ64£¬ŌŚÕā64×é²ĪŹżÖŠ½ųŠŠ´ÖĮ£¶ČĖŃĖ÷�£ÉčÖĆreduceNums/reduceNumsAllowed²ĪŹż·Ö±šĪŖ4/4£¬8/8£¬16/16£¬32/32£¬64/64£¬¼´reduceNums<=cnum*gnum£¬reduceNums=reduceNumsAllowed£¬½ųŠŠ´®ŠŠMapReduce×÷Ņµ·½Ź½ŹµŃé£¬µĆµ½µÄŹµŃéŹż¾ŻČē±ķ1ĖłŹ¾�£±ķ1ÖŠµÄReduceČĪĪńµÄ×īæģ�¢×īĀż¼°Ę½¾łĶź³ÉŹ±¼ä£¬¾łĶØ¹ż²éŃÆĶ³¼ĘBMSResult±ķµĆµ½£¬¾ßĢå¹ż³ĢŌŚ´Ė²»ĻźĻøĆčŹö�£·ÖĪö±ķ1æÉŅŌ·¢ĻÖ£¬1£©¼ÆČŗÄŚ´ę×ŹŌ´µÄĻūŗÄĖę×Å²¢ŠŠÖ´ŠŠµÄReduceµÄČĪĪńøöŹżµÄŌö¼Ó¶ųŌö¼Ó£¬µ±ReduceµÄČĪĪńŹżĮæ´ļµ½32øöŹ±£¬ÄŚ´ę±»100%Č«²æÕ¼ÓĆ£¬ĪŽ·ØµĆµ½ÄŚ´ę×ŹŌ´µÄReduceČĪĪńÖ»ÄÜµČ´żÕżŌŚÖ´ŠŠµÄČĪĪńĶź³Éŗó£¬ŌŁÓÉJobTrackµ÷¶ČÖ´ŠŠ�£2£©ReduceČĪĪńµÄĘ½¾łĶź³ÉŹ±¼ä£¬Ėę×Å²¢ŠŠÖ´ŠŠµÄČĪĪńŹżµÄŌö¼Ó¶ųŌö¼Ó£¬ĖµĆ÷µ±¼ÆČŗ²¢·¢ČĪĪńŹż¶ąŹ±£¬CPUµÄµ÷¶ČŗĶÄŚ´ę×ŹŌ´µÄ·ÖÅä½ōÕÅ£¬ReduceĶź³ÉČĪĪńµÄŹ±¼äŌö¼Ó�£3£©»ńČ�×īÓÅ²ĪŹżµÄ×ÜŃµĮ·Ź±¼ä£¬Ėę×Å²¢ŠŠÖ´ŠŠµÄReduceµÄČĪĪńµÄøöŹżµÄŌö¼Ó£¬MapReduce×÷ŅµĘō¶ÆµÄ´ĪŹżµÄ¼õÉŁ¶ųĻĀ½µ£¬ĖµĆ÷ĖäČ»ČĪĪń²¢·¢øöŹż¶ąŹ±£¬Ķź³ÉĆæøöReduceČĪĪńµÄĘ½¾łŹ±¼äĖäČ»Ōö¼Ó£¬µ«ÓÉÓŚReduceČĪĪńµÄ²¢·¢¶ČŌö¼Ó£¬»ńµĆ×īÓÅ²ĪŹżµÄ×ÜŹ±¼äĻą·´»įĻĀ½µ�£ÉčÖĆreduceNums/reduceNumsAllowed²ĪŹż·Ö±šĪŖ64/4£¬64/8£¬64/16£¬¼´reduceNums=cnum*gnum£¬reduceNumsAllowed

undefinedundefined