ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2010Äź07ĘŚ 89-93 ³ö°ęČÕĘŚ£ŗ2010-07-31 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚSVMµÄ¶ąĄą·ÖĄąĖć·ØøÄ½ų

0ŅżŃŌÖ§³ÖĻņĮæ»ś£ØSupport Vector Machine,¼ņ³ĘSVM£©£Ū1Ŗ²3£ŻĖć·ØµÄŃŠ¾æĘšŌ´ÓŚ¶ŌŹż¾Ż·ÖĄąĪŹĢāµÄ´¦Ąķ£¬ŹĒĶ³¼ĘŃ§Ļ°ĄķĀŪµÄŅ»ÖÖŹµĻÖ·½·Ø£¬Ėü½ØĮ¢ŌŚŃł±¾ŹżĮæÓŠĻŽµÄ»ł´�Ö®ÉĻ£¬ÄÜŌŚĻÖÓŠŃµĮ·ĪÄ±¾°üŗ¬µÄŠÅĻ¢ĻĀµĆµ½×ī¼Ń·ÖĄąŠ§¹ū.Ķ¬Ź±£¬SVMŌ´ÓŚĶ³¼ĘŃ§Ļ°ĄķĀŪÖŠµÄVCĪ¬ĄķĀŪŗĶ½į¹¹·ēĻÕ×īŠ�»Æ£ØStructure Risk Minimization, ¼ņ³ĘSRM£©ŌĄķ£Ū4£Ż£¬ÓŠŠ§µŲ½ā¾öĮĖĘäĖü»śĘ÷Ń§Ļ°Ėć·ØÖŠµÄ¹żŃ§Ļ°ĪŹĢā£¬¼´SVMŌŚŹżĮæÓŠĻŽµÄŃµĮ·Ńł±¾ÉĻ£¬ÓÉŃµĮ·Īó²ī×īŠ�»ÆæÉŅŌČ·±£²āŹŌĪó²ī×īŠ�»Æ.Č»¶ų£¬±ź×¼µÄSVMĖć·ØÖ»ÄÜ½ā¾öĮ½Ąą·ÖĄąĪŹĢā£¬ĖäČ»·ÖĄą¾«¶Čøß£¬µ«ĶØ³£²»ÄÜĀś×ćĻÖŹµÖŠ¶ąĄą·ÖĄąĪŹĢāµÄŠčŅŖ.½«SVMĖć·ØĶĘ¹ćµ½¶ąĄą·ÖĄąĪŹĢāÖŠ£¬¾ßÓŠÖŲŅŖµÄŅāŅå£¬ŅżĘšĮĖČĖĆĒµÄ¹ć·ŗ¹Ų×¢.¶ąĄą·ÖĄąĪŹĢāæÉÓĆŹżŃ§ÓļŃŌĆčŹöĪŖ£ŗøų¶ØŃµĮ·æā
TR=(xi,yi)|xi�ŹRn,yi�ŹY,i=1,2,�,n£Ø1£©ŗĶ²āŹŌĪÄ±¾¼ÆŗĻX�ŹRn.ŠčŅŖĒó½ā·ÖĄąŗÆŹżf(x)£¬Ź¹µĆf(x)�ĆX�śY£Ø2£©xiĪŖĪÄ±¾ĻņĮæ£¬yiĪŖĄą±š±ź¼Ē£¬YĄą±š¼ÆŗĻ£¬|Y|£¾2.ŌŚÄæĒ°µÄŃŠ¾æÖŠ£¬³£ÓĆµÄSVM¶ąĄą·ÖĄą·½·ØÓŠŅ»¶Ō¶ą�¢Ņ»¶ŌŅ»�¢¾ö²ßÓŠĻņĪŽ»·Ķ¼�¢¶ž²ęŹ÷·½·ØŗĶŅ»´ĪŠŌĒó½āŗÆŹż²ĪŹżµÄ·½·Ø£Ū5Ŗ²7£ŻµČ.ĘäÖŠ£¬»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØŌŚŃµĮ·Ź±²»ŠčŅŖ×ÜŌŚÕūøöŃµĮ·æāÉĻ½ųŠŠ£¬ĘäŃµĮ·×Óæā¹ęÄ£Öš²½¼õŠ�£¬¶ųŌŚ²āŹŌŹ±Ņ²²»±ŲŅŖ×ÜŹĒ±éĄśÕūøö¶ž²ęŹ÷£Ū8£Ż£¬ĖłŅŌĘäŃµĮ·ŗĶ²āŹŌĖŁ¶Č¶¼±Č½Ļæģ£¬²¢ĒŅ½ā¾öĮĖ²»æÉ·ÖĒųÓņĪŹĢā.ÄæĒ°ĪŖÖ¹£¬ŅŃÓŠŗÜ¶ą¶ŌĖüµÄøÄ½ųŗĶÓ¦ÓĆ£¬µ«Ö÷ŅŖ¼ÆÖŠŌŚ¶ŌŃµĮ·æāµÄ´¦ĄķŗĶ¶ž²ęŹ÷µÄ½į¹¹µÄøÄ½ųÉĻ£¬Č�µĆĮĖ²»ÉŁ³É¹ū.±¾ĪÄŌŚÉīČėŃŠ¾æ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØµÄ»ł´�ÉĻ£¬´Ó·ÖĄą½×¶Ī³ö·¢£¬¶ŌĖüĢį³öĮĖøÄ½ų.1»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć
·Ø·ÖĪöŹ×ĻČøų³ö±ź×¼µÄ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØĆčŹöČēĻĀ£Ū9£Ż£ŗ£Ø1£©¼ĘĖćŃµĮ·æāTRÖŠĄą±šŹżk.£Ø2£©Čōk£¾2×ŖÖĮ£Ø3£©£¬Čōk�Ü2×ŖÖĮ£Ø6£©.£Ø3£©½«ŃµĮ·æāĖę»ś·Ö³ÉĮ½øö×Ó¼ÆAŗĶB£¬ŅŌA£Ø»ņB£©ĪŖÕżĄą£¬B£Ø»ņA£©ĪŖøŗĄą¹¹Ōģ·ÖĄąŗÆŹżf(x).£Ø4£©ŅŌf(x)ĪŖøł½įµć¹¹Ōģ¶ž²ęŹ÷.£Ø5£©¶Ō×Ó¼ÆAŗĶBÖŲø´²½Öč£Ø1£©�¢£Ø2£©�¢£Ø3£©£¬²¢½«ŅŌA£Ø»ņB£©ĪŖŃµĮ·æāÉś³ÉµÄ·ÖĄąŗÆŹżĪŖ×ó×ÓŹ÷£¬ŅŌB£Ø»ņA£©ĪŖŃµĮ·æāÉś³ÉµÄ·ÖĄąŗÆŹżĪŖÓŅ×ÓŹ÷£¬¹¹Ōģ·ÖĄąŗÆŹż.£Ø6£©Čōk=2×ŖÖĮ£Ø7£©£¬Čōk=1×ŖÖĮ£Ø8£©.£Ø7£©ŅŌĘäÖŠŅ»ĄąĪŖÕżŃł±¾£¬ĮķŅ»ĄąĪŖøŗŃł±¾¹¹Ōģ·ÖĄąŗÆŹżf(x)£¬²¢ŅŌf(x)ĪŖøø½įµć£¬Õż£Ø»ņøŗ£©Ńł±¾±ąŗÅĪŖ×ó×ÓŹ÷£¬øŗ£Ø»ņÕż£©Ńł±¾±ąŗÅĪŖÓŅ×ÓŹ÷¹¹Ōģ×Ó¶ž²ęŹ÷£¬½«´Ė×Ó¶ž²ęŹ÷¼ÓČėµ½ĻąÓ¦µÄÄŚ²æ½įµćÖŠ×÷ĪŖŗ¢×Ó½įµć.£Ø8£©ŅŌøĆŃł±¾±ąŗÅĪŖŅ¶×Ó½įµć£¬¼ÓČėµ½ĻąÓ¦µÄÄŚ²æ½įµćÖŠ×÷ĪŖĘäŗ¢×Ó½įµć.£Ø9£©½«²āŹŌŹż¾ŻxcŹäČėµ½ŅŃ½ØŗĆµÄ¶ž²ęŹ÷øł½įµćÖŠ.£Ø10£©Čōf(xc)�Ż0×ŖÖĮ£Ø11£©£¬Čōf(xc)£¼0×ŖÖĮ£Ø12£©.£Ø11£©½ųČė×ó×ÓŹ÷£¬ČōøĆ½įµćĪŖŅ¶×Ó½įµćŹä³öxcĄą±š£¬·ńŌņ×ŖÖĮ£Ø10£©.£Ø12£©½ųČėÓŅ×ÓŹ÷£¬ČōøĆ½įµćĪŖŅ¶×Ó½įµćŹä³öxcĄą±š£¬·ńŌņ×ŖÖĮ£Ø10£©.
Ėć·Ø1±ź×¼µÄ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·Ø¶ŌÓŚÓŠkøöĄą±šµÄĪŹĢā¶ųŃŌ£¬»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØŠčŅŖ¹¹Ōģk-1øö·ÖĄąŗÆŹż£¬ĘäÖŠµŚiøö·ÖĄąŗÆŹżŅŌµŚiĄąĪŖÕżŃµĮ·Ńł±¾£¬ŅŌi+1µ½kĄąĪŖøŗŃµĮ·Ńł±¾£¬1�Üi�Ük.Č»ŗó½«k-1øöĮ½Ąą·ÖĄąŗÆŹż×÷ĪŖÄŚ²æ½įµć×éŗĻ³É¶ž²ęŹ÷ŠĪŹ½£¬²¢ŅŌkøöĄą±š±ź¼ĒĪŖŅ¶×Ó½įµć.²āŹŌŹ±£¬´Óøł½įµćæŖŹ¼¼ĘĖć·ÖĄąŗÆŹż£¬øł¾ŻÖµµÄÕżøŗ¾ö¶ØĻĀŅ»²½µÄ×ßĻņ£¬Čē´ĖĻĀČ�£¬Ö±µ½µ½´ļÄ³Ņ»Ņ¶½įµćĪŖÖ¹£¬´ĖŅ¶½įµćĖł´ś±ķµÄĄą±š¾ĶŹĒ²āŹŌŃł±¾µÄĄą±š.ŌŚ´Ė¹ż³ĢÖŠ£¬æÉÄÜŹ¹ÓĆµ½µÄ·ÖĄąŗÆŹżŹżÄæ½éÓŚ1ŗĶ¶ž²ęŹ÷µÄÉī¶ČÖ®¼ä.æÉŅŌæ´³ö£¬»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·Ø¾ßÓŠ²ć´Ī½į¹¹£¬Ćæøö²ć´ĪµÄ·ÖĄąŗÆŹżµÄ¼¶±šŗĶÖŲŅŖŠŌ²»Ķ¬£¬ŌŚ¹¹Ōģ¶ž²ęŹ÷µÄ¹ż³ĢÖŠæÉŅŌæ¼ĀĒø÷øöĄą±šµÄĻČŃéÖŖŹ¶.ÓÉÓŚŌŚŃµĮ·Ź±Ėü²»ŠčŅŖ×ÜŌŚÕūøöŃµĮ·æāÉĻ½ųŠŠ£¬ĘäŃµĮ·×Óæā¹ęÄ£Öš²½¼õŠ�£¬¶ųŌŚ²āŹŌŹ±Ņ²²»±ŲŅŖ×ÜŹĒ±éĄśÕūøö¶ž²ęŹ÷£¬ĖłŅŌĘäŃµĮ·ŗĶ²āŹŌĖŁ¶Č¶¼±Č½Ļæģ£¬²¢ĒŅ½ā¾öĮĖ²»æÉ·ÖĒųÓņĪŹĢā£Ū5£Ż.Ļą¶ŌÓŚĘäĖü»łÓŚSVMµÄ¶ąĄą·ÖĄąĖć·Ø¶ųŃŌ£¬»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØÖ÷ŅŖÓŠČēĻĀĢŲµć£ŗ£Ø1£©Õė¶ŌkĄą·ÖĄąĪŹĢā£¬Ö»Šč¹¹Ōģk-1·ÖĄąŗÆŹż£¬ŹżÄæĻą¶Ō½ĻÉŁ£¬ŃµĮ·ĖŁ¶Č½Ļæģ.£Ø2£©ŃµĮ··ÖĄąŗÆŹżŹ±£¬²»ŠčŅŖ×ÜŹĒŌŚÕūøöŃµĮ·æāÉĻ½ųŠŠ£¬¶ž´Ī¹ę»®ĪŹĢāµÄ¹ęÄ£Ėę×ÅŃµĮ·¹ż³ĢµÄ½ųŠŠÖš½�¼õŠ�.£Ø3£©²āŹŌŹ±²»ŠčŅŖ×ÜŹĒ±éĄśÕūøö¶ž²ęŹ÷£¬¶ųŹĒŃŲ×Å´Óøł½įµćµ½ĪÄ±¾Ąą±šµÄ·½ĻņĒ°½ų£¬æÉÄÜŹ¹ÓĆµ½µÄSVM·ÖĄąŗÆŹżŹżÄæ½éÓŚ1µ½¶ž²ęŹ÷µÄÉī¶ČÖ®¼ä£¬·ÖĄąĖŁ¶ČĻą¶Ō½Ļæģ.£Ø4£©½ā¾öĮĖĘäĖü·½·ØÖŠµÄ²»æÉ·ÖĪŹĢā.µŚ7ĘŚĶõÖŅ£¬µČ£ŗ»łÓŚSVMµÄ¶ąĄą·ÖĄąĖć·ØøÄ½ų
Īäŗŗ¹¤³Ģ´óŃ§Ń§±ØµŚ32¾ķ
ĖäČ»»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·Ø¾ßÓŠĮ¼ŗĆµÄ·ÖĄąŠŌÄÜ£¬Č»¶ų£¬ŌŚ²āŹŌ¹ż³ĢÖŠ£¬´óĮæµÄ²āŹŌĪÄ±¾¶¼±ŲŠė´Ó¶ž²ęŹ÷µÄøł½įµćæŖŹ¼£¬Öš²½ÅŠ¶Ļ£¬´ųÓŠŅ»¶ØµÄĆ¤ÄæŠŌ.ĄżČē£¬Čē¹ū½«¶ž²ęŹ÷ÄŚ²æ½įµć°´ÕÕĒ°Šņ±éĄśµÄĖ³Šņ£¬ŅĄ´Ī±ąŗÅĪŖiµ½k-1£¬ÕāŃłÕāk-1øö·ÖĄąŗÆŹż¶ŌÓ¦µÄĄą±šŅ²±»´Ó1±ź¼Ēµ½k-1.µ±²āŹŌĪÄ±¾xŹōÓŚ¶ž²ęŹ÷ÖŠµŚiĄąŹ±£¬ŌŚÄ³Š©ĒéæöĻĀ²āŹŌĪÄ±¾±ŲŠėŅĄ´Ī¼ĘĖćf0(x),f1(x),��£¬Ö±µ½fi-1(x)ĪŖÖ¹£¬0�Üi�Ük-2.ŌŚ´Ė¹ż³ĢÖŠ£¬Ē°ĆęµÄi´Ī¼ĘĖć¶¼²»ÄÜČ·¶ØxµÄĄą±š£¬´ÓÄ³ÖÖŅāŅåÉĻĖµŹĒĪŽÓĆµÄ¼ĘĖć.²¢ĒŅŌŚŹµ¼ŹĒéæöÖŠ£¬ŹōÓŚ¶ž²ęŹ÷ÖŠµŚŅ»øöĄą±šµÄ²āŹŌĪÄ±¾×ÜŹĒÓŠĻŽµÄ£¬ĖüĆĒŌŚ²āŹŌĪÄ±¾¼ÆŗĻÖŠ½öÕ¼Ņ»¶ØµÄ±ČÖŲ£¬ÉõÖĮ½ö½öÕ¼ŗÜŠ�µÄ±ČÖŲ£¬ÄĒĆ´ĘäĖü²»ŹōÓŚøĆĄą±šµÄĪÄ±¾¶¼´ÓµŚŅ»øöĄą±šæŖŹ¼½ųŠŠ¼ĘĖć£¬ŹĒĆ»ÓŠ±ŲŅŖµÄ.¶ŌÓŚ¶ž²ęŹ÷ÖŠĘäĖüĄą±š£¬Ņ²ŹĒČē´Ė.æÉŅŌ·¢ĻÖ£¬Čē¹ū²āŹŌĪÄ±¾ŹżĮæŌ½´ó£¬ŃµĮ·æāÖŠĄą±šŹżŌ½¶ą£¬ŌņÓÉÓŚĆ¤Äæ¼ĘĖćĖłĄĖ·ŃµÄ×ŹŌ´Ō½¶ą.½«ÉĻŹöĪŹĢā×Ü½įČēĻĀ£ŗ£Ø1£©ĖłÓŠµÄ²āŹŌĪÄ±¾¶¼±ŲŠė´Ó¶ž²ęŹ÷µÄøł½įµćæŖŹ¼£¬Öš²½ÅŠ¶Ļ£¬´ųÓŠŅ»¶ØµÄĆ¤ÄæŠŌ.ÕāÖÖĆ¤ÄæŠŌ»įŌģ³ÉŗÜ¶ąĪŽÓĆµÄ¼ĘĖć£¬ĄĖ·Ń´óĮæ×ŹŌ´.£Ø2£©²āŹŌĪÄ±¾ŹżĮæŌ½¶ąŹ±£¬ĪŽÓĆµÄ¼ĘĖćŌ½¶ą.£Ø3£©ŃµĮ·æāÖŠĄą±šŹżŌ½¶ąŹ±£¬·ÖĄąŗÆŹżŌ½¶ą£¬ĪŽÓĆµÄ¼ĘĖćŌ½¶ą.Ņņ´Ė£¬ÓŠ±ŲŅŖŃ°ÕŅŅ»ÖÖÄÜ¼õÉŁÕāÖÖĆ¤ÄæŠŌµÄ·½·Ø£¬Ģįøß»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØµÄ·ÖĄąŠ§ĀŹ.±¾ĪÄĢį³ö£¬µ±²āŹŌĪÄ±¾ŹżĮæÅÓ´ó£¬ŃµĮ·æāĄą±š½Ļ¶ąŹ±£¬æÉŅŌĻČ¶Ō²āŹŌĪÄ±¾½ųŠŠ¾ŪĄą£¬Č»ŗó·ÖĄą£¬Ź¹µĆ·ÖĄą´ųÓŠŅ»¶ØµÄÖøµ¼ŠŌ.¾ßĢå²½Öč½«ŌŚĻĀĪÄÖŠøų³ö.2»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć
·ØµÄøÄ½ųŌŚ¶Ō»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØµÄøÄ½ų·½·ØÖŠ£¬±¾ĪÄŹ¹ÓĆµ½ĮĖĪÄ±¾¾ŪĄąĖć·Ø£Ū9£Ż£¬Ęä»ł±¾Ė¼ĻėŹĒÖø°ŃŅ»×é¶ŌĻó¼ÆŗĻøł¾ŻĘäĢŲÕ÷¹é³ÉČōøÉĄą±š£¬ĘäÄæµÄŹĒ½«Ņ»øö´óµÄ¼ÆŗĻ·ÖĪŖČōøÉŠ�Ąą±š£¬Ź¹µĆŹōÓŚĶ¬Ņ»Ąą±šµÄ¶ŌĻóÖ®¼äĻąĖĘ³Ģ¶Č×ī´ó£¬¶ų²»Ķ¬Ąą±šÖ®¼äµÄĻąĖĘ³Ģ¶Č×īŠ�.ŌŚ³£ÓĆµÄ¾ŪĄą·½·ØÖŠ£¬Ę½Ćę»®·Ö·½·Ø¼ņµ�Ņ×ŠŠ£¬ĒŅ¾ßÓŠĮ¼ŗĆµÄŠŌÄÜ.ĖüµÄ»ł±¾Ė¼ĻėŹĒ£ŗĻČ´ÓŹż¾Ż¼ÆÖŠČĪŅāŃ�Č�ČōøÉŹż¾Ż×÷ĪŖ¾Ū´ŲÖŠŠÄ£¬Č»ŗóŅĄ¾ŻŅ»¶Ø¹ęŌņ½«Ź£ÓąŹż¾Ż¹éČėµ½Óėø÷¾Ū´ŲÖŠŠÄ¾ąĄė×ī½üµÄ¾Ū´ŲÖŠČ�.ŌŚĘ½Ćę»®·Ö·½·ØÖŠ£¬½į¹ūŅĄĄµÓŚ¾Ū´ŲÖŠŠÄµÄŃ�Ōń£¬Ņ»°ćŹĒĻČ¶ŌŃł±¾½ųŠŠ¹éĄą£¬Ēó³öø÷øöĄąµÄ¾łÖµĻņĮæ(ÖŠŠÄµć)£¬ŌŁ½«ø÷øöŃł±¾¹éµ½ÓėĘä×ī½üµÄ¾łÖµĻņĮæµÄĄą±šÖŠ£¬Čē´Ė·´ø´.kŖ²meansŹĒŅ»ÖÖ±Č½ĻĮ÷ŠŠµÄĘō·¢Ź½Ę½Ćę»®·Ö¾ŪĄą·½·Ø£¬ĖüµÄĆæøö¾Ū´ŲÖŠŠÄÓĆøĆ¾Ū´ŲÖŠ¶ŌĻóµÄĘ½¾łÖµĄ´±ķŹ¾.kŖ²meansĖć·ØµÄ»ł±¾²½ÖčŹĒ£ŗŌŚŹż¾Ż¼ÆŗĻÖŠČĪŅāŃ�ŌńkøöŹż¾Ż£¬·Ö±š´ś±ķkøö¾Ū´ŲµÄĘ½¾łÖµ£¬½«Ź£ÓąµÄŹż¾Żøł¾ŻĖüĆĒÓėø÷øö¾Ū´ŲÖŠŠÄµÄ¾ąĄė¹éČėµ½×ī½üµÄ¾Ū´ŲÖŠ£¬Č»ŗóÖŲŠĀ¼ĘĖćĆæøö¾Ū´ŲµÄĘ½¾łÖµ.ÖŲø´øĆ¹ż³Ģ£¬Ö±µ½×¼ŌņŗÆŹżŹÕĮ²ĪŖÖ¹.±¾ĪÄŌŚ¶Ō²āŹŌĪÄ±¾½ųŠŠ¾ŪĄąŹ±£¬Ź¹ÓĆŃµĮ·æāÖŠµÄĪÄ±¾×÷ĪŖ³õŹ¼¾Ū´ŲÖŠŠÄ.ÕāŃł×öµÄÄæµÄŹĒ³öÓŚŅŌĻĀČżµćŌŅņ£ŗ£Ø1£©±¾ĪÄ¶Ō²āŹŌĪÄ±¾½ųŠŠ¾ŪĄą£¬ŹĒĪŖĮĖøł¾Żø÷øö¾Ū´ŲÖŠŠÄŠÅĻ¢£¬½«¾Ū´ŲÖŠĪÄ±¾ŹäČėµ½ÓėÖ®×īĻąĖĘµÄŃµĮ·ĪÄ±¾Ąą±šĖł¶ŌÓ¦µÄ·ÖĄąŗÆŹżÖŠ½ųŠŠ¼ĘĖć.ÕāŃł£¬²āŹŌĪÄ±¾ÄÜ±»×īĻČ´śČėµ½Ėü×īæÉÄÜŹōÓŚµÄĄą±šĖł¶ŌÓ¦µÄ·ÖĄąŗÆŹżÖŠ£¬ÄÜ¼õÉŁ²āŹŌ¹ż³ĢÖŠĪÄ±¾Ąą±šÅŠ¶ĻµÄĆ¤ÄæŠŌ.£Ø2£©µ±ŃµĮ·æāÖŠĄą±šŹżĪŖkŹ±£¬ŅŌŃµĮ·æāÖŠµÄĪÄ±¾×÷ĪŖ¾Ū´ŲÖŠŠÄ£¬ÄÜ½«²āŹŌĪÄ±¾¾Ū¼Æ³ÉÓėŃµĮ·æā¶ŌÓ¦µÄkøöĄą±š£¬ÓŠĄūÓŚ²āŹŌĪÄ±¾µÄ·ÖĄą.£Ø3£©ŅŌŃµĮ·æāÖŠµÄĪÄ±¾×÷ĪŖ¾Ū´ŲÖŠŠÄ£¬ÄÜÓŠŠ§µÄ¼õÉŁ¾ŪĄąĖć·ØµÄµü´ś´ĪŹż.øł¾ŻÉĻĪÄ¾ŪĄąµÄĖ¼Ļė£¬æÉŅŌĻČ¶Ō²āŹŌĪÄ±¾¼Æ½ųŠŠ¾ŪĄą£¬ŠĪ³ÉÓėŃµĮ·æā¶ŌÓ¦µÄ¾Ū´Ų£¬Č»ŗóŌŚ¾Ū´ŲÖŠŃ�Ōń¾Ū´ŲÖŠŠÄ£¬´śČė¶ž²ęŹ÷·ÖĄąĖć·ØÖŠÅŠ¶ĻĘäĄą±š£¬ŌŁ½«øĆ¾Ū´ŲÖŠµÄĘäĖüĪÄ±¾Ö±½Ó´śČė¾Ū´ŲÖŠŠÄĖłŌŚµÄĄą±šµÄ·ÖĄąŗÆŹżÖŠ£¬½ųŠŠĄą±šÅŠ¶Ļ£ØČēĶ¼1ĖłŹ¾£©.ÓÉÓŚŌŚ¾ŪĄąÉś³ÉµÄĄą±šÖŠ£¬Ķ¬Ņ»Ąą±šµÄĪÄ±¾Ö®¼äĻąĖĘ³Ģ¶ČŗÜ´ó£¬ĒŅĘä¾Ū´ŲÖŠŠÄĢŲŠŌ×īÄÜ´ś±ķĄą±šµÄĢŲŠŌ£¬ĖłŅŌÄÜÓĆ¾Ū´ŲÖŠŠÄŠÅĻ¢Ą´¶ŌĶ¬¾Ū´ŲÖŠµÄŹż¾Ż½ųŠŠÅŠ¶Ļ.Ķ¼1²āŹŌĪÄ±¾¾ŪĄąŹ¾ŅāĶ¼
Fig.1Schematic diahram of tcsting text clusteringŹ¹ÓĆŃµĮ·æāÖŠµÄĪÄ±¾×÷ĪŖ¾ŪĄąµÄ¾Ū´ŲÖŠŠÄ£¬ŌņŌŚĪÄ±¾¾ŪĄąŗóŠĪ³ÉµÄø÷øö¾Ū´ŲÖŠ£¬Ęä¾Ū´ŲÖŠŠÄµÄĄą±šŹĒŅŃÖŖµÄ.ŹōÓŚøĆ¾Ū´ŲµÄĪÄ±¾xÖ±½Ó´śČė¾Ū´ŲÖŠŠÄĖłŌŚĄą±š¶ŌÓ¦µÄ·ÖĄąŗÆŹżft(x)ÖŠ½ųŠŠ¼ĘĖć£¬øł¾Ż¾Ū´ŲµÄĢŲŠŌæÉÖŖ£¬´ĖŹ±ŗÆŹżÖµĪŖÕż£¬¼´ĪÄ±¾xŹōÓŚĄą±štµÄøÅĀŹŗÜ´ó.æÉŅŌČĻĪŖ£¬¾¹żµŚŅ»´ĪÅŠ¶Ļŗó£¬´ó²æ·ÖµÄ²āŹŌĪÄ±¾¶¼æÉ¹éČėµ½ÕżČ·µÄĄą±šÖŠ.µ±Č»æÉÄÜ´ęŌŚÉŁŹżµÄĪÄ±¾£¬µŚŅ»´Ī²»ÄÜČ·¶ØĘäĄą±š.¶ŌÓŚÕā²æ·ÖĪÄ±¾¶ųŃŌæÉÄÜ´ęŌŚĮ½ÖÖĒéæö£ŗ£Ø1£©¾ŪĄąŹ±Ć»ÓŠ±»¾Ū¼Æµ½ÕżČ·µÄĄą±šÖŠ.£Ø2£©ĖüŹĒ²»ŹōÓŚ¾Ū´ŲÖŠŠÄĖłŹōĄą±šµÄĪÄ±¾£¬¼´¾ŪĄąŹ±·¢ÉśĪó²ī.±¾ĪÄµÄ´¦Ąķ°ģ·ØŹĒ£¬ČĆĖüĆĒ´Óøł½įµćæŖŹ¼ÖŲŠĀ±éĄś¶ž²ęŹ÷£¬Ź¹ÓĆŌŚ±ź×¼Ėć·ØÖŠµÄ·½·ØĄ´ÅŠ¶ØĘäĄą±š.ÓÉÓŚ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØµÄĢŲŠŌ£¬²āŹŌĪÄ±¾²»´ęŌŚ²»æÉ·ÖĒéŠĪ£¬¼´·ÖĄąŗóĖłÓŠ²āŹŌĪÄ±¾¶¼æÉŅŌ±»¹éČėµ½ĻąÓ¦µÄĄą±šÖŠ.±¾ĪÄ¶Ō»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØµÄøÄ½ų£¬ŹĒ¶Ō·ÖĄą½×¶ĪµÄøÄ½ų.ŌŚøÄ½ųŗóµÄĖć·ØÖŠ£¬±¾ĪÄĢį³öµÄøÄ½ųĖ¼Ļė½«ŌŚĖć·ØµÄ·ÖĄą½×¶ĪĢåĻÖ³öĄ´.øÄ½ųŗóµÄ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØĆčŹöČēĻĀ£ØÉčŃµĮ·æāÖŠĄą±šŹżĪŖk£©£ŗ£Ø1£©¼ĘĖćŃµĮ·æāTRÖŠĄą±šŹżk£ŗ£Ø2£©Čōk£¾2×ŖÖĮ£Ø3£©£¬Čōk�Ü2×ŖÖĮ£Ø6£©£ŗ£Ø3£©½«ŃµĮ·æāĖę»ś·Ö³ÉĮ½øö×Ó¼ÆAŗĶB£¬ŅŌA£Ø»ņB£©ĪŖÕżĄą£¬B£Ø»ņA£©ĪŖøŗĄą¹¹Ōģ·ÖĄąŗÆŹżf(x)£ŗ£Ø4£©ŅŌf(x)ĪŖøł½įµć¹¹Ōģ¶ž²ęŹ÷£ŗ£Ø5£©¶Ō×Ó¼ÆAŗĶBÖŲø´²½Öč£Ø1£©�¢£Ø2£©�¢£Ø3£©£¬²¢½«ŅŌA£Ø»ņB£©ĪŖŃµĮ·æāÉś³ÉµÄ·ÖĄąŗÆŹżĪŖ×ó×ÓŹ÷£¬ŅŌB£Ø»ņA£©ĪŖŃµĮ·æāÉś³ÉµÄ·ÖĄąŗÆŹżĪŖÓŅ×ÓŹ÷£¬¹¹Ōģ·ÖĄąŗÆŹż.£Ø6£©Čōk=2×ŖÖĮ£Ø7£©£¬Čōk=1×ŖÖĮ£Ø8£©.£Ø7£©ŅŌĘäÖŠŅ»ĄąĪŖÕżŃł±¾£¬ĮķŅ»ĄąĪŖøŗŃł±¾¹¹Ōģ·ÖĄąŗÆŹżf(x)£¬²¢ŅŌf(x)øø½įµć£¬Õż£Ø»ņøŗ£©Ńł±¾±ąŗÅĪŖ×ó×ÓŹ÷£¬øŗ£Ø»ņÕż£©Ńł±¾±ąŗÅĪŖÓŅ×ÓŹ÷¹¹Ōģ×Ó¶ž²ęŹ÷£¬½«´Ė×Ó¶ž²ęŹ÷¼ÓČėµ½ĻąÓ¦µÄÄŚ²æ½įµćÖŠ×÷ĪŖŗ¢×Ó½įµć.£Ø8£©ŅŌøĆŃł±¾±ąŗÅĪŖŅ¶×Ó½įµć£¬¼ÓČėµ½ĻąÓ¦µÄÄŚ²æ½įµćÖŠ×÷ĪŖĘä×Ó½įµć.£Ø9£©ÖŲø´ÉĻŹö¹ż³Ģ£¬Ö±µ½ŃµĮ·æāĪŖæÕ£¬Éś³É¶ž²ęŹ÷SVM T.£Ø10£©ŌŚŅŃÖŖµÄkøöĄąÖŠ·Ö±šŃ�Č�Ņ»øöĪÄ±¾xi£¬1�Üi�Ük£¬ŅŌxiĪŖ¾ŪĄąÖŠŠÄ¶Ō²āŹŌĪÄ±¾¾ŪĄą£¬ŌŚ²āŹŌĪÄ±¾ÖŠµĆµ½køö¾Ū´Ųci,1�Üi�Ük.£Ø11£©ČōciÖŠ°üŗ¬ŃµĮ·ĪÄ±¾xi£¬Ōņ½«ciÖŠĖłÓŠĪÄ±¾´śČėxiĖłŌŚĄą±š¶ŌÓ¦µÄ·ÖĄąŗÆŹżfi(x)ÖŠ¼ĘĖć.£Ø12£©Čōfi(cij)�Ż0£¬j-|ci|ŌņĪÄ±¾cijŹōÓŚĄąi.£Ø13£©·ńŌņ£¬ČĆĪÄ±¾cij´Óøł½ŚæŖŹ¼±éĄś¶ž²ęŹ÷£¬Ö±µ½Č·¶ØĘäĄą±šĪŖÖ¹.Ėć·Ø2øÄ½ųŗóµÄ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·ØĆčŹöŌŚ´ĖĖć·ØÖŠ£¬Õė¶ŌkĄą·ÖĄąĪŹĢā£¬ŠčŅŖ¹¹Ōģk-1øö·ÖĄąŗÆŹż.Óė±ź×¼Ėć·ØŅ»Ńł£¬øÄ½ųŗóµÄĖć·ØŅ²·ÖĪŖŃµĮ·£Ø1µ½9£©ŗĶ²āŹŌ£Ø10µ½13£©Į½øö½×¶Ī£¬ĘäÖŠ·ÖĄąĘ÷µÄŃµĮ·Óė±ź×¼Ėć·ØŅ»ÖĀ£¬±¾ĪÄ¶ŌĖć·ØµÄøÄ½ųĢåĻÖŌŚ²āŹŌ½×¶Ī.ŌŚ²āŹŌ½×¶Ī£¬øÄ½ųŗóµÄĖć·ØĻČ¶Ō²āŹŌĪÄ±¾¼Æ½ųŠŠ¾ŪĄą£¬Č»ŗóøł¾Ż¾Ū´ŲµÄ¾Ū´ŲÖŠŠÄµÄĄą±šŠÅĻ¢Ą´¶ŌøĆ¾Ū´ŲÖŠĘäĖüĪÄ±¾½ųŠŠĄą±šÅŠ¶Ļ.3øÄ½ųŗóĖć·ØŠŌÄÜ·ÖĪöĻĀĆę±¾ĪÄ½«Ź¹ÓĆ¾ßĢåŹż¾Ż¶ŌøÄ½ųĒ°ŗóµÄĖć·ØŠ§ĀŹ½ųŠŠ·ÖĪö.ĪŖ´Ė£¬ŹÕ¼Æ10øöĄą±šµÄ²āŹŌĪÄ±¾ø÷1 000ĘŖ.²¢ŌŚÓÉ·ÖĄąŗÆŹż¹¹³ÉµÄµ�±ß¶ž²ęŹ÷ŗĶĶźČ«¶ž²ęŹ÷ÉĻ½ųŠŠ·ÖĪö.kŖ²means¾ŪĄąĖć·ØµÄĘ½¾ł×¼Č·ĀŹæÉŅŌ´ļµ½75%ŅŌÉĻ£Ū10Ŗ²13£Ż.ŌŚ´Ė£¬²»Ź§Ņ»°ćŠŌ£¬¼ŁÉč¾ŪĄąŗóĆæøöĄą±šµÄ²āŹŌĪÄ±¾ÓŠ75%±»×¼Č·¾ŪĄą.ŌŚµ�±ß¶ž²ęŹ÷µÄĒéŠĪĻĀ£¬ŌŹ¼Ėć·ØĶź³ÉČ«²æ²āŹŌĪÄ±¾µÄ·ÖĄąŠčŅŖ¼ĘĖć(1+2+�+9)�Į1 000£¬¼´45 000´Ī·ÖĄąŗÆŹż.¶ųŹ¹ÓĆøÄ½ųŗóµÄĖć·ØŹ±£¬ÖĮÉŁÓŠ75%µÄ²āŹŌĪÄ±¾ÄÜ¹»ŌŚµŚŅ»´Ī¼ĘĖćŗóČ·¶ØĘäĄą±š£¬¶ųÖ»ÓŠŹ£ĻĀµÄ25%ŠčŅŖÖŲŠĀ¼ĘĖć.Ōņ×ÜµÄ¼ĘĖć´ĪŹżĪŖ£ŗ
10 000+1 000�Į25%�Į(1+2+�+9)=21 250´Ī.ŌŚĶźČ«¶ž²ęŹ÷µÄĒéŠĪĻĀ£¬ŌŹ¼Ėć·ØĶź³ÉČ«²æ²āŹŌĪÄ±¾µÄ·ÖĄąŠčŅŖ¼ĘĖć4 000�Į4+6 000�Į3´Ī£¬¼´34 000´Ī·ÖĄąŗÆŹż.¶ųŹ¹ÓĆøÄ½ųŗóµÄĖć·ØŹ±£¬×Ü´ĪŹżĪŖ10 000+1 000�Į+1 500�Į=18 500´Ī.ĻÖ½«Į½ÖÖĒéæöĻĀµÄ·ÖĄąŗÆŹż¼ĘĖć´ĪŹżĶ³¼ĘČē±ķ1ĖłŹ¾.
±ķ1·ÖĄąŗÆŹż¼ĘĖć´ĪŹżĶ³¼Ę
Tabel 1Function calculates the number of statisticoul dassificatiion
·ÖĄąŗÆŹż¼ĘĖć´ĪŹż¶ž²ęŹ÷ŠĪĢ¬µ�±ß¶ž²ęŹ÷ĶźČ«¶ž²ęŹ÷ŌŹ¼Ėć·Ø45 00034 000øÄ½ųŗóµÄĖć·Ø21 25018 500ÓÉ±ķ1æÉÖŖ£¬øÄ½ųŗóµÄ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·Ø£¬ŌŚĮ½ÖÖĒéæöĻĀ¶¼æÉŅŌŹ¹·ÖĄąŗÆŹż¼ĘĖć´ĪŹż¼øŗõ¼õÉŁŅ»°ė£¬´ÓŗÜ´ó³Ģ¶ČÉĻĢįøßĮĖĖć·ØµÄ·ÖĄąŠ§ĀŹ.²āŹŌŹ±·ÖĄąŗÆŹżµÄ¼ĘĖć´ĪŹżÓė¶ž²ęŹ÷µÄÉī¶ČÓŠ¹Ų£¬ÓÉŹż¾Ż½į¹¹ÖŠĻą¹ŲÖŖŹ¶æÉÖŖ£¬ŌŚ½įµćŹżŅ»¶ØµÄĒéæöĻĀ£¬µ�±ß¶ž²ęŹż¾ßÓŠ×ī´óµÄÉī¶Č£¬¶ųĶźČ«¶ž²ęŹ÷¾ßÓŠ×īŠ�µÄÉī¶Č£¬Ņņ´Ėµ�±ß¶ž²ęŹ÷ŗĶĶźČ«¶ž²ęŹ÷¾ßÓŠ´ś±ķŠŌ.ŌŚÉĻĆęµÄ·ÖĪöÖŠ£¬½öŃ�Č�ĮĖ10øöĄą±š£¬ĆæøöĄą±šŅ²Ö»ÓŠ1 000ĘŖĪÄ±¾.µ±¶ąĄą·ÖĄąĪŹĢāµÄĄą±šŹżøü¶ą£¬ĆæøöĄą±š²āŹŌĪÄ±¾ŹżĮæøü´óŹ±£¬øÄ½ųŗóµÄĖć·Ø±ČŌĖć·Ø·ÖĄąŠ§ĀŹøüøß.Ķ¬Ź±£¬²āŹŌĪÄ±¾¾ŪĄąŗó£¬Ķ¬Ņ»¾Ū´ŲµÄ²āŹŌĪÄ±¾Ö®¼ä¾ßÓŠŗÜĒæµÄĻąĖĘŠŌ£¬ÄÜŌŚŅ»¶Ø³Ģ¶ČÉĻÖøµ¼¶ž²ęŹ÷·ÖĄąĘ÷µÄ·ÖĄą£¬Ģįøß·ÖĄą¾«¶Č.ĻÖŌŚ½«øÄ½ųŗóĖć·ØµÄĢŲµć×Ü½įČēĻĀ£ŗ£Ø1£©±¾ĪÄ¹ŲÓŚ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVMĖć·ØµÄøÄ½ųŹĒŌŚ²āŹŌ½×¶Ī£¬Ņņ´ĖøÄ½ųŗóµÄĖć·ØŌŚ·ÖĄąŗÆŹżµÄŃµĮ·½×¶Ī±£³ÖĮĖŌĖć·ØµÄĢŲŠŌ£¬¾ßÓŠ½ĻøßµÄŃµĮ·Š§ĀŹ.£Ø2£©øÄ½ųŗóµÄĖć·ØŌŚ²āŹŌ½×¶Ī¶Ō²āŹŌĪÄ±¾ĻČ¾ŪĄąŌŁ·ÖĄą£¬Č»ŗóŹ¹ÓĆ¾Ū´ŲÖŠŠÄŠÅĻ¢Ą´Öøµ¼ĪÄ±¾·ÖĄą£¬Ź¹µĆ²āŹŌĪÄ±¾µÄµŚŅ»´ĪĄą±šÅŠ¶ĻŹĒÓŠÄæµÄŠŌµÄ£¬Ōö´óĮĖæģĖŁ½«²āŹŌĪÄ±¾¹éĄąµÄøÅĀŹ£¬ÓŠŠ§µÄ¼õÉŁĮĖ¼ĘĖć·ÖĄąŗÆŹżµÄ´ĪŹż.£Ø3£©¶ąĄą·ÖĄąĪŹĢāĄą±šŹżŌ½¶ą£¬¼õÉŁµÄ·ÖĄąŗÆŹż¼ĘĖć´ĪŹżŌ½¶ą.£Ø4£©²āŹŌĪÄ±¾ŹżĮæŌ½¶ą£¬¼õÉŁµÄ·ÖĄąŗÆŹż¼ĘĖć´ĪŹżŌ½¶ą.£Ø5£©¾ŪĄąĖć·ØµÄ×¼Č·ŠŌŌ½´ó£¬¼õÉŁµÄ·ÖĄąŗÆŹż¼ĘĖć´ĪŹżŌ½¶ą.ŅņĪŖøß×¼Č·ŠŌµÄ¾ŪĄąĖć·Ø½«ŹōÓŚĶ¬Ņ»Ąą±šµÄ²āŹŌĪÄ±¾¶¼¾Ū¼ÆŌŚŅ»øö¾Ū´ŲÖŠ£¬Ź¹µĆ²āŹŌĪÄ±¾±»æģĖŁ·ÖĄąµÄøÅĀŹŌö´ó.£Ø6£©øÄ½ųŗóµÄĖć·ØÄÜŌŚŅ»¶Ø³Ģ¶ČÉĻÖøµ¼¶ž²ęŹ÷·ÖĄąĘ÷µÄ·ÖĄą£¬Ģįøß·ÖĄą¾«¶Č.4½įÓļŅŌÉĻŌŚĻµĶ³ŃŠ¾æĮĖ»łÓŚSVMµÄ¶ąĄą·ÖĄąĖć·ØµÄ»ł´�ÉĻ£¬ÉīČėµŲĆčŹöĮĖ»łÓŚ¶ž²ęŹ÷µÄ¶ąĄąSVM·ÖĄąĖć·Ø.²¢Õė¶ŌĘä²»×ćÖ®´¦Ģį³öĮĖøÄ½ų£¬¼´µ±²āŹŌĪÄ±¾¼Æ¹ęÄ£½Ļ´ó£¬Ąą±šŹż½Ļ¶ąŹ±£¬¶ŌĘäĻČ¾ŪĄą£¬ŌŁ·ÖĄą£¬Ōö´ó·ÖĄąŠ§ĀŹ£¬Ģįøß·ÖĄą¾«¶Č.×÷ĪŖøÄ½ųµÄ×¼±øÖŖŹ¶£¬±¾ÕĀ¶Ō¾ŪĄąĖć·Ø×÷ĮĖ¼ņŅŖ·ÖĪö.×īŗóøų³öĮĖøÄ½ųŗóµÄĖć·ØĆčŹö£¬²¢½«ĘäÓė±ź×¼µÄĖć·ØĻą±Č½Ļ£¬·ÖĪöĮĖøÄ½ųŗóĖć·ØµÄŠŌÄÜ.