ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2021Äź01ĘŚ 102-105 ³ö°ęČÕĘŚ£ŗ2021-02-28 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚMapReduceµÄĘÓĖŲ±´Ņ¶Ė¹Ėć·ØĪÄ±¾·ÖĄą·½·Ø

½üÄźĄ´£¬Ėę×ÅĶųĀēµÄŃøĖŁ·¢Õ¹ŗĶ´óŹż¾ŻŹ±´śµÄµ½Ą´£Ū1-3£Ż£¬ĪÄ±¾ŹżÄæŅ²²»¶ĻŌö¶ą�£Ćę¶Ō¾Ž´óµÄŹż¾ŻĮæ£¬ŠčŅŖŹ¹ÓĆĒ�µ±µÄ·½·Ø¶ŌĪÄ±¾½ųŠŠ·ÖĄą�£ĘÓĖŲ±´Ņ¶Ė¹Ėć·ØŅŌĘäæÉææµÄŹżŃ§»ł´�³ÉĪŖ×īÖ÷ŅŖµÄ·ÖĄąĖć·ØÖ®Ņ»�£ÓÉÓŚĘäŅĄ¾Żø÷øöĢõ¼žĻą»�¶ĄĮ¢£¬¶ųø÷ĢŲÕ÷´ŹÖ®¼äĶłĶł¾ßÓŠŅ»¶ØĮŖĻµ£¬ĖłŅŌĢŲÕ÷Ļī¼ÓČØ£Ū4-5£ŻŅŃ³ÉĪŖÖŲŅŖµÄŃŠ¾æÄŚČŻ�£´ŹĘµ-ÄęĪÄ±¾ĘµĀŹÖøŹż£Øterm frequency-inverse document frequency£¬TF-IDF£©£Ū6-7£ŻŹĒĪÄ±¾·ÖĄąÖŠ³£ÓĆµÄĢŲÕ÷ČØÖŲĖć·Ø£¬Ķ»³öĢŲÕ÷´ŹŌŚĄąÄŚŗĶĄą¼äµÄ·Ö²¼Ņ²ÓŠÖśÓŚĢįÉżĖć·ØŠŌÄÜ�£±¾ĪÄŃ�Č�¶ąĻīŹ½ĘÓĖŲ±´Ņ¶Ė¹Ėć·Ø£Ønaive bayes£¬NB£©£¬ŌŚHadoop£Ū8£Ż¼ÆČŗÉĻ²¢ŠŠ´¦ĄķĪÄ±¾Źż¾Ż£¬ŹµĻÖ¶ŌĪÄ±¾µÄ·ÖĄą£¬ĶØ¹żŹµŃéŃéÖ¤ĮĖŌŚøĆ¼ÆČŗÉĻÉč¼ĘµÄ²¢ŠŠ»ÆĘÓĖŲ±´Ņ¶Ė¹·ÖĄą·½·ØÄÜ¹»Õ¹ĻÖ³öĮ¼ŗĆµÄŠŌÄÜ�£1��Ļą¹ŲŃŠ¾æ1.1��ĘÓĖŲ±´Ņ¶Ė¹·ÖĄąĖć·ØĘÓĖŲ±´Ņ¶Ė¹Ėć·Ø£Ū9-10£Ż¼ŁÉčø÷ĢŲÕ÷Ö®¼äŹĒĻą»�¶ĄĮ¢µÄ£¬ŹĒŅ»ÖÖÓŠŠ§µÄ·ÖĄą·½·Ø�£³£ÓĆµÄÄ£ŠĶĪŖ¶ąĻīŹ½Ä£ŠĶŗĶ²®Å¬ĄūÄ£ŠĶ£¬±¾ĪÄ²ÉÓĆ¶ąĻīŹ½Ä£ŠĶ£¬¼ŁČē´ż·ÖĄąµÄĪÄ±¾ĢŲÕ÷ĻīĪŖ[Xx1,x2,�,xn]£¬Ąą±š¼ÆŗĻĪŖ[Cc1,c2,�,cm]�£øĆĖć·ØŅŌ´ŹĢõŌŚ[ca]ĄąÓė[cb]ĄąÖ®¼äĻą»�¶ĄĮ¢ĪŖĒ°Ģį£¬¼ĘĖć³ö´ŹĢõŹōÓŚĆæĄąĪÄµµµÄøÅĀŹ[Pcm|X]£¬ŅŌøÅĀŹ×ī´óĖłŌŚĄą±š×÷ĪŖŌ¤²āĪÄµµĖłŹōµÄĄą±š[cm]�£¶ąĻīŹ½ĘÓĖŲ±´Ņ¶Ė¹¼ĘĖć¹«Ź½ČēĻĀĖłŹ¾£ŗ [CNB=argmax P(cj)k=1nPxk|cj] £Ø1£©ĘäÖŠ£¬[P(cj)]ĪŖŠĀĪÄ±¾ŹōÓŚ[cj]ĄąµÄøÅĀŹ£»[Pxk|cj]ĪŖ[cj]ĄąÖŠ°üŗ¬´ŹĢõ[xk]µÄøÅĀŹ�£[P(cj)=SjS] £Ø2£©ĘäÖŠ£¬[Sj]ĪŖĄą[cj]ĻĀµÄ´ŹÓļŹżÄæ£¬SĪŖĖłÓŠĄąĻĀµÄ´ŹÓļŹżÄæ�£[pxk|cj=wjki=1|n|wji] £Ø3£©ĘäÖŠ£¬[wjk]±ķŹ¾´ŹĢõ[xk]ŌŚ[cj]ĄąÖŠµÄČØÖŲ£¬[i=1nwji]±ķŹ¾[cj]ĄąÖŠĖłÓŠ´ŹĢõČØÖŲÖ®ŗĶ�£ĪŖĮĖ·ĄÖ¹ĢŲÕ÷´Ź[xk]ŌŚĄą±š[cj]ÖŠæÉÄÜ³öĻÖĮć´Ī£¬µ¼ÖĀĮćøÅĀŹĪŹĢā£¬Ņ»°ć²ÉČ�ŅŌĻĀ½ā¾ö·½Ź½£ŗ[pxk|cj=wjk+1i=1|n|wjk+|n|] £Ø4£©1.2��æØ·½ĢŲÕ÷Ń�ŌńÓÉÓŚŌŚŌ¤´¦Ąķ½×¶ĪĖłÉøŃ�µÄ´ŹÓļĪ¬¶Č½Ļøß£¬ŠčŅŖ×ØĆÅ½ųŠŠĢŲÕ÷Ń�Ōń£¬µĆ³öĒų·Ö¶Čøß¶ųĪ¬¶Č½ĻŠ�µÄĢŲÕ÷´Ź£Ū11£Ż¼ÆŗĻ�£±¾ĪÄÓĆ[¦Ö2]Ķ³¼Ę£Ū12£ŻµÄ·½·Ø½ųŠŠĢŲÕ÷Ń�Ōń�£øĆ·½·Ø¼ŁÉčĮ½øöŃł±¾Ö®¼ä»�²»¹ŲĮŖ£¬æØ·½Öµ´óŠ�¾ö¶ØĮĖĮ½ÕßĘ«Ąė³Ģ¶ČµÄ´óŠ��£æØ·½ÖµŌ½´ó£¬´ś±ķĢŲÕ÷Ō½Ć÷ĻŌ�£øĆ·½·Ø¼ĘĖć¹«Ź½ČēĻĀ£ŗ[¦Ö2(k, c)=] [N�Į(AD-BC)2(A+C)�Į(A+B)�Į(B+D)�Į(C+D)] £Ø5£©ĘäÖŠ£¬NĪŖĪÄµµŹżĮæ£¬k´ś±ķĢŲÕ÷Ļī£¬c´ś±ķĄą±š�£BĪŖ·ĒĄą±šcÖŠ°üŗ¬ĢŲÕ÷ĻīkµÄĪÄ±¾×ÜŹż£¬CĪŖcĄąÖŠ²»°üŗ¬ĢŲÕ÷ĻīkµÄĪÄ±¾×ÜŹż£¬AĪŖcĄąÖŠ°üŗ¬ĢŲÕ÷ĻīkµÄĪÄ±¾×ÜŹż£¬DĪŖ·ĒĄą±šcÖŠ²»°üŗ¬ĢŲÕ÷ĻīkµÄĪÄ±¾×ÜŹż�£1.3��TF-IDFČØÖŲTF-IDF£Ū13-14£Ż±ķŹ¾´ŹĘµ-ÄęĪÄµµĘµĀŹ£¬TF±ķŹ¾´ŹĘµ£¬IDF±ķŹ¾ÄęĪÄµµĘµĀŹ�£ŌŚŅ»ĘŖĪÄÕĀÖŠ£¬¼ŁČēŅ»øö´ŹÓļµÄTFøß£¬ĖüŌŚ±šµÄĪÄµµÖŠÓÖŗÜÉŁ³öĻÖ£¬ÄĒĆ´øĆ´ŹÓļÄÜ½ĻŗĆµŲ´ś±ķÕāŅ»ĄąĪÄÕĀ�£Ęä±ķ´ļŹ½ĪŖ£ŗ[wdt=fdt�Įlg(Nnt)] £Ø6£©ĘäÖŠ£¬[Wdt]´ś±ķĢŲÕ÷ĻītŌŚĪÄµµdÖŠĖłÕ¼ČØÖŲ£¬[fdt]´ś±ķĢŲÕ÷ĻītŌŚĪÄµµdÖŠµÄ´ŹĘµ£¬N´ś±ķĖłÓŠĪÄµµŹżÄæ£¬[nt]´ś±ķÓŠ¶ąÉŁĪÄµµŗ¬ÓŠĢŲÕ÷Ļīt�£µ«ŌŚŹµ¼Ź¼ĘĖćµÄ¹ż³ĢÖŠ£¬¼ŁČēĢŲÕ÷Ļī³öĻÖµÄĪÄµµŹżĪŖ0£¬·ÖÄøĪŖ0£¬Ņņ´Ė£¬æÉŅŌ°Ń·ÖÄø¼Ó1£¬¼´[wdt=fdt�Įlg(Nnt+1)] £Ø7£©1.4��MapReduce±ą³Ģæņ¼ÜMapReduce£Ū15£ŻµÄŗĖŠÄĖ¼ĻėŹĒÓÉŠķ¶ą·Ö½ŚµćČ�´¦Ąķ´ó¹ęÄ£Źż¾Ż£¬ÕāŠ©·Ö½ŚµćÓÉŅ»øöÖ÷½ŚµćĶ³Ņ»Ą´¹ÜĄķ�£½«ø÷·Ö½ŚµćµÄ´¦Ąķ½į¹ū½ųŠŠÕūĄķ£¬¾ĶæÉŅŌµĆµ½×īÖÕµÄ½į¹ū�£MapŗĶReduceŹĒøĆæņ¼ÜµÄĮ½øöÖ÷ŅŖ²æ·Ö�£ĘäŌŚ[]ŠĪŹ½µÄ¼üÖµ¶ŌÉĻ¹¤×÷�£ÓÉÓŚNBĖć·Ø¼ŁÉčø÷ĢŲÕ÷ĻīÖ®¼äŹĒĻą»�¶ĄĮ¢µÄ£¬Ņņ´ĖøĆĖć·ØŹĒæÉŅŌĶØ¹ż²¢ŠŠŹµĻÖµÄ�£2��ĘÓĖŲ±´Ņ¶Ė¹Ėć·Ø²¢ŠŠ»Æ½«NBµÄ²¢ŠŠ»Æ¹ż³Ģ·ÖĪŖ£ŗĢŲÕ÷Ń�Ōń�¢ČØÖŲ¼ĘĖć�¢Ä£ŠĶŃµĮ·ŗĶ²āŹŌ4øö½×¶Ī�£Ź×ĻČÓĆÖŠĪÄ·Ö´Ź¹¤¾ßjieba¶ŌĪÄ±¾ÄŚČŻ½ųŠŠ·Ö´ŹŌ¤´¦Ąķ£¬²¢ĶØ¹ż±¾ĪÄ¹¹½ØµÄÖŠĪÄĶ£ÓĆ´Ź±ķČ�µōĪŽŅāŅå´ŹÓļ£¬¼ĘĖćĶ¬Ņ»Ąą±šµÄ´ŹĘµÖ®ŗĶ£¬²¢¹żĀĖµō´ŹĘµ¹żøß»ņ¹żµĶµÄ´Ź£¬×īÖÕµĆµ½totalnewsŗĶwordcountĮ½øöĪÄ¼ž�£2.1��ĢŲÕ÷Ń�ŌńĢŲÕ÷Ń�ŌńJobµÄ¹¤×÷Į÷³Ģ£ŗ1£©ŹäČėtotalnewsŗĶwordcountĪÄ¼ž£¬¶ĮČ�·Ö²¼Ź½ĪÄ¼žĻµĶ³ÖŠµÄÄŚČŻ£»2£©Map½×¶Ī£¬Ė³Šņ¶ĮČ�Į½øöĪÄ¼ž£¬Źż¾Ż·Ö±šŠ´Čėwords_listŗĶnews_listŌŖ×é�£¶ØŅåflag£¬ĶØ¹żforŃ»·ÅŠ¶ĻĆæøö´ŹŌŚĆæĄąĪÄ±¾ÖŠŹĒ·ń³öĻÖ£¬³öĻÖflagĪŖ1£¬·ńŌņĪŖ0£¬Ēó³öNŗĶĆæøöĢŲÕ÷ĻīxkµÄA£¬B£¬C£¬D£¬ĄūÓĆ¹«Ź½£Ø5£©¼ĘĖćchi£¬ŌŁĶØ¹żsqrt¶ŌĘä½ųŠŠæŖ·½£¬°´ÕÕ¼üÖµ¶ŌµÄŠĪŹ½Ņē³öµ½HDFS±¾µŲ´ÅÅĢÖŠ±£´ęĪŖŅ»øöĪÄ¼ž£»3£©ĖłÓŠ·ÖĘ¬Źä³öµÄ¼üÖµ¶Ō»įŌŚShuffle¹ż³Ģ°´ÕÕs_CHI´óŠ�½µŠņÅÅŠņ�¢¹é²¢´¦Ąķ£¬ Reduce½×¶Ī½ÓŹÕÅÅŠņŗĶ¹é²¢½į¹ū¼ĢŠų´¦Ąķ�£ÕūĄķ½į¹ū»į°´ÕÕ�°�±µÄ¼üÖµ¶ŌŠĪŹ½½ųŠŠŹä³ö£»4£©Reduce½×¶Ī£¬»ńµĆÉĻŅ»²½Źä³öÄŚČŻ£¬ĆæĄąŃ�Č�topĒ°V×÷ĪŖøĆĄą×īÖÕĢŲÕ÷´Ź£¬¹żĀĖµōÖŲø´µÄxk£¬µĆµ½×īÖÕµÄČ«¾ÖĢŲÕ÷ĻīX£Øx1£¬x2£¬�£¬xn£©£¬ŅŌ¼üÖµ¶ŌŠĪŹ½±£´ęµ½CHIĪÄ¼ž²¢Źä³ö£¬wordIDĪŖĢŲÕ÷´ŹID£¬xkĪŖĢŲÕ÷´Ź�£2.2�� ČØÖŲ¼ĘĖćČØÖŲ¼ĘĖćJobµÄ¹¤×÷Į÷³Ģ£ŗ1£©ŹäČėtotalnewsŗĶCHIĪÄ¼ž£¬¶ĮČ�·Ö²¼Ź½ĪÄ¼žĻµĶ³ÖŠµÄÄŚČŻ£»2£©Map½×¶Ī£¬Ė³Šņ¶ĮČ�Į½øöĪÄ¼ž£¬Źż¾Ż·Ö±šŠ´Čėwords_listŗĶnews_listŌŖ×é�£ĄūÓĆ¹«Ź½£Ø7£©Ź×ĻČ¼ĘĖć³öxkµÄTFŗĶIDFÖµ£¬°´ÕÕ< wordID_xk£¬newCategory_TF_IDF>¼üÖµ¶ŌµÄŠĪŹ½Ņē³öµ½HDFS±¾µŲ´ÅÅĢÖŠ±£´ęĪŖŅ»øöĪÄ¼ž£»3£©Shuffle¹ż³Ģøł¾ŻĻąĶ¬µÄkeyÖµ½ųŠŠ¹é²¢£¬Reduce½×¶Ī½ÓŹÕ¹é²¢½į¹ū¼ĢŠų´¦Ąķ�£ÕūĄķ½į¹ū»į°´ÕÕ�°< wordID_xk£¬newCategory_TF_IDF>�±µÄ¼üÖµ¶ŌŠĪŹ½½ųŠŠŹä³ö£»4£©Reduce½×¶Ī£¬»ńµĆÉĻŅ»²½Źä³öÄŚČŻ£¬¼ĘĖćĆæøöxkŌŚĆæĢõĪÄ±¾ÖŠµÄČØÖŲÖµ£¬ŅŌŠĪŹ½±£´ęµ½TF-IDFĪÄ¼ž²¢Źä³ö�£2.3��ŃµĮ··ÖĄąÄ£ŠĶŃµĮ··ÖĄąÄ£ŠĶJobµÄ¹¤×÷Į÷³Ģ£ŗ1£©ŹäČėTF-IDFĪÄ¼ž£¬¶ĮČ�·Ö²¼Ź½ĪÄ¼žĻµĶ³ÖŠµÄÄŚČŻ£»2£©Map½×¶Ī£¬¶ĮČ�ĪÄ¼ž£¬¼ĘĖćxkŌŚĆæøöĄą±šµÄTF-IDFÖµ£¬°´ÕÕ¼üÖµ¶ŌµÄŠĪŹ½Ņē³öµ½HDFS±¾µŲ´ÅÅĢÖŠ±£´ęĪŖŅ»øöĪÄ¼ž£»3£©ĖłÓŠ·ÖĘ¬Źä³öµÄ¼üÖµ¶Ō»įŌŚShuffle¹ż³Ģ°´ÕÕwordID_xk¹é²¢´¦Ąķ£¬Reduce½×¶Ī½ÓŹÕ¹é²¢½į¹ū¼ĢŠų´¦Ąķ�£ÕūĄķ½į¹ū»į°´ÕÕ�°>�±µÄ¼üÖµ¶ŌŠĪŹ½½ųŠŠŹä³ö£»4£©Reduce½×¶Ī£¬»ńµĆÉĻŅ»²½Źä³öÄŚČŻ£¬Ö±½ÓŅŌµÄ¼üÖµ¶ŌŠĪŹ½±£´ęµ½weightĪÄ¼ž²¢Źä³ö¼´æÉ�£2.4�� ²āŹŌ·ÖĄąÄ£ŠĶ²āŹŌ·ÖĄąÄ£ŠĶJobµÄ¹¤×÷Į÷³Ģ£ŗ1£©ŹäČė²āŹŌŹż¾ŻtotalTestNewsĪÄ¼žŗĶČØÖŲÖµweightĪÄ¼ž£¬¶ĮČ�·Ö²¼Ź½ĪÄ¼žĻµĶ³ÖŠµÄÄŚČŻ£»2£©Map½×¶Ī£¬°´Ė³Šņ¶ĮČ�Į½øöĪÄ¼ž£¬øł¾Ż¹«Ź½£Ø1£©Ō¤²āŠĀĪÄ±¾øÅĀŹ�£°´ÕÕ¼üÖµ¶ŌµÄŠĪŹ½±£´ę£»3£©ĖłÓŠ·ÖĘ¬Źä³öµÄ¼üÖµ¶Ō»įŌŚShuffle¹ż³Ģ°´ÕÕnewID¹é²¢´¦Ąķ£¬Reduce½×¶Ī½ÓŹÕ¹é²¢½į¹ū¼ĢŠų´¦Ąķ�£ÕūĄķ½į¹ū»į°´ÕÕ�°>�±µÄ¼üÖµ¶ŌŠĪŹ½½ųŠŠŹä³ö£»4£©Reduce½×¶Ī£¬»ńµĆÉĻŅ»²½Źä³öÄŚČŻ£¬Źä³ö×ī´óÖµ¶ŌÓ¦µÄĄą±š�£3��ŹµŃé²æ·Ö3.1��»·¾³ÅäÖĆÓĆĮŖĻėz40-70±Ź¼Ē±¾Ņ»ĢØ£¬øĆ±Ź¼Ē±¾°üŗ¬Ņ»ĢØÓ¢ĢŲ¶ūi5-4210UĪļĄķCPU£¬øĆCPUÓŠ2øöÄŚŗĖ£¬Ö÷Ęµ1.70 GHz£¬ÄŚ´ę8 GB£¬Ó²ÅĢ1 TB£¬ĪļĄķĶųæØ1øö�£±Ź¼Ē±¾°²×°win10×ØŅµ°ę²Ł×÷ĻµĶ³£¬Ź¹ÓĆVmware Workstation?Pro14Čķ¼ž´´½Ø4øöŠéÄā»ś£¬ĆæøöŠéÄā»ś°üŗ¬Ņ»øöÄŚŗĖ CPU£¬ÄŚ´ę1 GB£¬Ó²ÅĢ20 GBŗĶŠéÄāĶųæØ1øö�£´ī½ØHadoop·Ö²¼Ź½¼ÆČŗ£¬Ź¹ÓĆAnaconda3�¢Python3.7ŗĶPyCharm×÷ĪŖæŖ·¢»·¾³�£Ķ¬Ź±£¬±¾ĪÄĶØ¹ż±ąŠ´ÅĄ³ę³ĢŠņ£¬´ÓŠĀĄĖŠĀĪÅĶųÕ¾ÅĄČ�ĮĖ4ĄąŠĀĪÅŹż¾Ż×÷ĪŖŹµŃéÓļĮĻ£¬·Ö±šĪŖÓéĄÖ�¢¾üŹĀ�¢ĢåÓżŗĶæĘ¼¼4øöĄą±š£¬øńŹ½ĪŖŠĀĪÅĄą±š�¢±źĢā�¢URLŗĶÄŚČŻ�£ĆæĄąŠĀĪÅŹżÄæĪŖ4 500Ģõ£¬¹²°üŗ¬1.8ĶņĢõŠĀĪÅ£¬ĘäÖŠŃµĮ·Źż¾ŻÓė²āŹŌŹż¾Ż±ČÖµĪŖ2�Ć1£¬¼´°üŗ¬1.2ĶņĢõŃµĮ·Źż¾ŻŗĶ6 000Ģõ²āŹŌŹż¾Ż�£3.2��ŹµŃé½į¹ū¼°·ÖĪöµŚ1×éŹµŃéŹĒ²»Ķ¬½ŚµćŌĖŠŠŹ±¼ä¶Ō±ČŹµŃé�£Ń�Ōń4øö½Śµć¶Ō±¾ĪÄŹż¾Ż¼Æ½ųŠŠŃµĮ·£¬¼ĒĀ¼²¢ŠŠ»Æ´¦ĄķµÄ×ÜŹ±¼ä�£µ±½ŚµćŹżĪŖ1Ź±£¬ŌĖŠŠŹ±¼äĪŖ658 s£»½ŚµćŹżĪŖ2Ź±£¬ŌĖŠŠŹ±¼äĪŖ534 s£»½ŚµćŹżĪŖ3Ź±£¬ŌĖŠŠŹ±¼äĪŖ397 s£»½ŚµćŹżĪŖ4Ź±£¬ŌĖŠŠŹ±¼äĪŖ274 s�£½ŚµćŹżÄæŌ½¶ą£¬´¦ĄķŹ±¼äŌ½ÉŁ£¬Ņņ´ĖøĆ·½·ØŅ»¶Ø³Ģ¶ČÉĻæÉŅŌĢįøßĖć·ØµÄŹ±¼äŠ§ĀŹ�£µŚ2×éŹµŃéŹĒ´«Ķ³ĘÓĖŲ±´Ņ¶Ė¹·ÖĄąĖć·ØÓė±¾ĪÄ²¢ŠŠ»ÆĖć·ØµÄ·ÖĄąŹ±¼ä¶Ō±Č�£ČēĶ¼1£Øa£©ĖłŹ¾�£Ķ¼1£Øa£©±ķĆ÷£ŗŌŚ³õĘŚŃµĮ·¼Æ½ĻÉŁŹ±£¬²¢ŠŠĖć·Ø¶ĮČ�Źż¾ŻŠčŅŖĻūŗÄŅ»¶ØŹ±¼ä£¬´®ŠŠĘÓĖŲ±´Ņ¶Ė¹Ėć·Ø·ÖĄąµÄŠ§ĀŹÓÅÓŚ²¢ŠŠµÄĘÓĖŲ±´Ņ¶Ė¹Ėć·Ø�£Ėę×ÅŃµĮ·Źż¾Ż¼ÆµÄĄ©´ó£¬¼ÆČŗŌĖŠŠÓÅŹĘÖš²½ĢåĻÖ£¬ĒŅŹż¾Ż¹ęÄ£Ō½´óÓÅŹĘŌ½Ć÷ĻŌ�£µŚ3×éŹµŃéŹĒ¶Ō±¾ĪÄĖć·Ø·ÖĄąŠ§¹ūµÄĘĄ¹Ą�£ŌŚµ�»śŗĶ¼ÆČŗ»·¾³ĻĀ£¬·Ö±šŃ�Č�¾«Č·ĀŹU�¢ÕŁ»ŲĀŹRŗĶĖüĆĒµÄµ÷ŗĶĘ½¾łÖµF1½ųŠŠ±Č½Ļ�£·ÖĄąĘ÷ŌŚĄą[cj]ÉĻµÄ¾«Č·ĀŹ¶ØŅåČēĻĀ£ŗ[Uj=NcujNuj] £Ø8£©ĘäÖŠ£¬[Ncuj] ´ś±ķÕżČ··Öµ½[cj]ĄąÖŠµÄĪÄµµŹżÄæ£¬[Nuj]´ś±ķ·Öµ½ [cj]ĄąÖŠµÄČ«²æĪÄµµŹżÄæ�£·ÖĄąĘ÷ŌŚĄą[cj]ÉĻµÄÕŁ»ŲĀŹ¶ØŅåČēĻĀ£ŗ[Rj=NcujNcj] £Ø9£© ĘäÖŠ£¬[Ncj]±ķŹ¾Źµ¼ŹĄą±š[cj]ÖŠÓ¦ÓŠµÄĪÄ±¾Źż�£·ÖĄąĘ÷ŌŚĄą[cj]ÉĻµÄF1Öµ¶ØŅåČēĻĀ£ŗ[F1=2UjRjUj+Rj] £Ø10£©½«ÓéĄÖ£¬¾üŹĀ£¬ĢåÓż£¬æĘ¼¼Ąą·Ö±š¼ĒĪŖĄą±š1£¬2£¬3£¬4�£´«Ķ³µÄĘÓĖŲ±´Ņ¶Ė¹ŗĶ±¾ĪÄ²¢ŠŠ»ÆµÄĘÓĖŲ±´Ņ¶Ė¹·ÖĄą¾«Č·ĀŹ�¢ÕŁ»ŲĀŹŗĶF1Öµ¶Ō±Č·Ö±šČēĶ¼1£Øb£©£¬Ķ¼1£Øc£©£¬Ķ¼1£Ød£©ĖłŹ¾�£

[2 000 4 000 6 000 8 000 10 000 12 000Data][5004003002001000][t / s][Parallel NBTraditional NB][1009590858075][U / %][1 2 3 4Classification][Parallel NBTraditional NB][ b ][ a ]

[1009590858075][1009590858075R / %][1009590858075R / %][F1 / %][1 2 3 4Classification][1 2 3 4Classification][Parallel NBTraditional NB][Parallel NBTraditional NB][ c ][ d ]Ķ¼1��´«Ķ³ŗĶ²¢ŠŠĘÓĖŲ±´Ņ¶Ė¹µÄ±Č½Ļ£ŗ£Øa£©ŌĖŠŠŹ±¼ä£¬£Øb£©¾«Č·ĀŹ£¬£Øc£©ÕŁ»ŲĀŹ£¬£Ød£©F1ÖµFig. 1��Comparison of traditional method and parallelized naive bayes method£ŗ£Øa£©runtime£¬£Øb£©precision£¬£Øc£©recall£¬£Ød£©F1 valuesÓÉÓŚ½ųŠŠĮĖ×ØĆÅµÄĢŲÕ÷´ŹŃ�Č�¹¤×÷£¬ÓÉĶ¼1£Øb£©æÉÖŖ£¬4ĄąŠĀĪÅµÄ·ÖĄą¾«Č·ĀŹ¶¼ÓŠĖłĢįøß£¬¾üŹĀĄą¾«Č·ĀŹĢįøßĮĖ7.66%�£ÓÉĶ¼1£Øc£©æÉÖŖ£¬·ÖĄąÕŁ»ŲĀŹ²»µ«ÓŠĖłĢįøß£¬Ąą¼äµÄ²ī¾ąŅ²ŌŚ²»¶ĻĖõŠ�£¬Öš½�Ē÷ÓŚĘ½ĪČ�£ĘäÖŠ£¬ĢåÓżĄąÕŁ»ŲĀŹĢįøßĮĖ7.56%�£ÓÉĶ¼1£Ød£©æÉÖŖ£¬²¢ŠŠ»ÆµÄĘÓĖŲ±´Ņ¶Ė¹Ėć·ØÕūĢåÉĻĢįøßĮĖF1Öµ£¬ĢåÓżĄąµÄF1ÖµĢįøßĮĖ11.98%�£ÓÉ´ĖæÉÖŖ£¬øĆ·½·Ø½Ļ¶ŌÕÕ×é´«Ķ³ĘÓĖŲ±´Ņ¶Ė¹·½·Ø¾«Č·ĀŹ£¬ÕŁ»ŲĀŹ£¬F1Öµ·Ö±šÖĮÉŁĢįøßĮĖ7.66%�¢7.56%ŗĶ11.98%�£´Ó×ÜĢåÉĻæ´·ÖĄąŠ§¹ū½ĻŗĆ�£4��½į��ĀŪ±¾ĪÄĄūÓĆNBĖć·Ø£¬ĶØ¹żHadoopĘ½ĢØŹµĻÖĮĖĪÄ±¾·ÖĄąµÄ²¢ŠŠ»Æ�£ŌŚĢŲÕ÷Ń�Ōń£¬ČØÖŲ¼ĘĖćµČ½×¶Ī·Ö±šŹ¹ÓĆMapReduceæņ¼ÜĄ´¼ĘĖć�£ŹµŃéÖ¤Ć÷£¬Óė´®ŠŠNBĖć·ØĻą±Č£¬ŌŚĶ¬ŃłµÄŹż¾Ż¹ęÄ£ĻĀ£¬±¾ĪÄ·ÖĄąĖć·ØŌŚ¾«Č·ĀŹ�¢ÕŁ»ŲĀŹŗĶF1ÖµÉĻ¾łÓŠĖłĢįøß£¬¾ßÓŠøüŗĆµÄ·ÖĄąŠ§¹ū�£Ķ¬Ź±£¬½ŚµćŹżÄæŌ½¶ą£¬Ėć·ØŌĖŠŠŹ±¼äŌ½ÉŁ£¬ŌĖĖćŠ§ĀŹĻŌÖųĢįÉż�£Ņņ´Ė£¬HadoopĘ½ĢØ¶Ō´ó¹ęÄ£µÄĪÄ±¾´¦Ąķ¾ßÓŠ½Ļ´óµÄÓÅŹĘ�£µ«ÓÉÓŚŹµŃéÖŠÓļĮĻæāµÄ¹ęÄ£½ĻŠ�£¬ŌŚ½ńŗóµÄŃŠ¾æÖŠ£¬½«³¢ŹŌÓėĘäĖü´óŹż¾ŻĘ½ĢØ�¢ÓÅ»ÆĖć·ØĻą½įŗĻ£¬Ą©´óŹż¾Ż¹ęÄ££¬²¢ŹŹµ±Ōö¼Ó¼ÆČŗµÄ½ŚµćŹż£¬²»µ«ŅŖĢįÉżŹ±¼äŠ§ĀŹ£¬»¹ŅŖ´Óøł±¾ÉĻĢįÉżĖć·Ø·ÖĄąµÄ×¼Č·ĀŹ�£