ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2023Äź03ĘŚ 319-324 ³ö°ęČÕĘŚ£ŗ2023-06-30 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚĶ¼ŹéÓļŅåĢŲÕ÷µÄĶĘ¼öÄ£ŠĶ

´Ó20ŹĄ¼Ķ90Äź´śŹ×´ĪĢį³öÖĮ½ń£¬ĶĘ¼öĻµĶ³¾¹ż30¶ąÄźµÄ³ĮµķÓė»żĄŪ£¬ŅŃ·¢Õ¹³ÉŅ»ĆÅ¶ĄĮ¢µÄŃ§æĘ£Ū1-3£Ż£¬³ÉĪŖÖŲŅŖµÄŃŠ¾æĮģÓņ�£øöŠŌ»ÆĶĘ¼öĻµĶ³ĄūÓĆÓĆ»§¶ŌĻīÄæµÄĘ«ŗĆ£¬ĪŖÓĆ»§ĶĘ¼öĻīÄæ£Ū4£Ż�£×÷ĪŖ»ŗ½āŠÅĻ¢³¬ŌŲµÄÖŲŅŖŹÖ¶Ī£¬ĶĘ¼öĻµĶ³Čē½ńŅŃ±»¹ć·ŗÓ¦ÓĆÓŚ¹ŗĪļ�¢ŹÓĘµ�¢ŠĀĪÅ�¢ŅōĘµ�¢»�ĮŖĶų½šČŚµČĘ½ĢØ�£½ü¼øÄź£¬Éī¶ČŃ§Ļ°ÓÉÓŚ½į¹¹Įé»ī£Ū5-6£Ż£¬ÄÜ¹»×Ō¶ÆĢįČ�¶ą²ćĢŲÕ÷±ķŹ¾£¬ĶŚ¾ņŹż¾ŻĢŲÕ÷�¢ÄāŗĻŹż¾ŻÄ£Ź½ÄÜĮ¦¶¼ŅŖĒæÓŚ´«Ķ³µÄ»śĘ÷Ń§Ļ°£¬ŅŃ³ÉĪŖµ±ĻĀ×īĮ÷ŠŠµÄŃŠ¾æ·½Ļņ£¬±»¹ć·ŗÓ¦ÓĆÓŚø÷øöŃŠ¾æĮģÓņ�£

ŌŚ×ŌČ»ÓļŃŌĮģÓņ£¬ŃŠ¾æÕßĆĒŌĖÓĆÉī¶ČŃ§Ļ°¼¼ŹõĢįČ�ĪÄ±¾ĢŲÕ÷£¬»ńµĆ¼«´ó³É¹¦�£BengioĢį³öµÄNNLM£Ønerual network language model£©ĶųĀē£Ū7£ŻŹĒŌēĘŚ½«Éī¶ČŃ§Ļ°µÄĖ¼ĻėČŚČėÓļŃŌÄ£ŠĶÖŠµÄ¾µäÄ£ŠĶ�£GoogleĶÅ¶Ó½č¼ųNNLMĖ¼Ā·£¬»łÓŚ·Ö²¼Ź½¼ŁÉčĢį³öµÄword2vecÄ£ŠĶ£Ū8£ŻŹĒŅ»ÖÖøßŠ§µÄ´ŹĻņĮæµÄŃµĮ·Ä£ŠĶ£¬øĆÄ£ŠĶ»į½«µ�´Ź×Ŗ»ÆĪŖ¹Ģ¶Ø³¤¶ČµÄĻņĮæ£¬ÓŠÖśÓŚ½ā¾ö±ąĀėµÄĻ�ŹčŠŌĪŹĢā�£HochreiterµČ£Ū9£ŻøÄ½ųŃ»·Éń¾ĶųĀēĖć·Ø£¬Ģį³öµÄ³¤¶ĢŹ±¼ĒŅäĶųĀē£Ølong short-term memory£¬LSTM£©£¬ŅżČėĮĖ¼ĒŅäµ�ŌŖŗĶĆÅæŲ»śÖĘŌŚÉń¾ĶųĀēÄŚ²æĄ´´«²�Źż¾Ż£¬ÄÜÓŠŠ§»ŗ½āĢŻ¶ČĻūŹ§ŗĶĢŻ¶Č±¬ÕØµÄĪŹĢā�£ZhouµČ£Ū10£Ż³¢ŹŌĻČÓĆ¾ķ»żÉń¾ĶųĀē£Øconvolutional neural networks£¬CNN£©ĢįČ�ĪÄ±¾·Ö²¼ĢŲÕ÷£¬ŌŁĄūÓĆRNN£Ørecurrent neural networks£©ĶųĀēĢįČ�ŠņĮŠĢŲÕ÷£¬½«CNNÓėRNN½įŗĻÓĆÓŚĪÄ±¾·ÖĄą�£

ŌŚĶĘ¼öĮģÓņ£¬MartinsµČ£Ū11£Ż½«ŠĶ¬¹żĀĖĖć·ØÓėÉī¶ČŃ§Ļ°Ļą½įŗĻ£¬ĢįÉżĮĖĶĘ¼öŠ§¹ū£»³ĢĖ¼µČ£Ū12£Ż³¢ŹŌøł¾ŻÓĆ»§µÄŠŠĪŖŠņĮŠĄ´·ÖĪöÓĆ»§ŠĖČ¤£»ĢÕĢĪµČ£Ū13£ŻŌŚĶĘ¼öĻµĶ³ÖŠŅżČė×¢ŅāĮ¦»śÖĘ£»¶�ÓĄøÕµČ£Ū14£ŻŅŌÓĆ»§×ØŅµ±³¾°ĪŖ»ł´�£¬ĶØ¹żSOM£Øself-organizing feature map£©ĶųĀē¶Ō¶ĮÕß¾ŪĄą£¬²¢ĄūÓĆÅÅŠņŅņ×Ó·Ö½ā»ś¶ŌÓĆ»§ŠŠĪŖŗĶ×ØŅµ±³¾°µČ½ØÄ£Ą´ĢįøßĶ¼ŹéĶĘ¼ö×¼Č·ĀŹ£»ŅüęĆęĆµČ£Ū15£ŻĢį³öĮĖŅ»ÖÖ»łÓŚ¶ĮÕßŠĖČ¤·ÖĪöµÄÉī¶ČŃ§Ļ°ĶĘ¼öÄ£ŠĶ£»ÉņĮčŌĘ£Ū16£ŻĄūÓĆWord2vecĢįČ�Ķ¼ŹéÓļŅåĢŲÕ÷£¬²ÉÓĆLSTM¶Ō¶ĮÕß½čŌÄŠŠĪŖ½ØÄ££»»ĘÓķµČ£Ū17£Ż»łÓŚÉī¶ČŃ§Ļ°æņ¼ÜøÄ½ųĮĖ¾ŲÕó·Ö½āĖć·Ø�£

Č»¶ų£¬ĻÖÓŠµÄÉī¶ČŃ§Ļ°ĶĘ¼öĖć·ØÄŃŅŌ±ķ´ļĶ¼ŹéĪÄ±¾ŠÅĻ¢µÄø´ŌÓÓļŅå£¬ČŻŅ×ŗöĀŌÉĻĻĀĪÄŠÅĻ¢£¬´ęŌŚĶ¼ŹéĢŲÕ÷ĢįČ�²»³ä·Ö£¬ĢŲÕ÷±ķŹ¾²»×¼Č·µÄĪŹĢā£Ū18£Ż�£¼ųÓŚ´Ė£¬±¾ĪÄ½įŗĻBERT£Øbidirectional encoder representations from transformers£©ÓėTextCNN£Øtext convolutional neural networks£©ĶųĀē£¬Ģį³öDSM£Ødeep semantics mining£©Ä£ŠĶĄ´ĢįČ�Ķ¼ŹéÓļŅåĢŲÕ÷½ųŠŠĶ¼ŹéĶĘ¼ö�£ĻČĄūÓĆBERTÄ£ŠĶ´¦ĄķŹäČėµÄĶ¼ŹéŹéĆū�¢ÄŚČŻÕŖŅŖµČĪÄ±¾ŠÅĻ¢£¬ŌŁ½«»ńµĆµÄ×ÖĻņĮæĶØ¹żTextCNNÄ£ŠĶ³éČ�ĪÄ±¾¾Ö²æĢŲÕ÷£¬Č»ŗóÓė¾äĻņĮæŅ»ĘšŹäČėÉń¾ĶųĀē½ųŠŠŃµĮ·£¬×īŗó½«ĢįČ�µÄĶ¼ŹéĢŲÕ÷ĻņĮæÓė¶ĮÕßČĖæŚĶ³¼ĘŃ§ĢŲÕ÷Ę´½ÓŗóŅ»ĘšŹäČėÉń¾ĶųĀē½ųŠŠŃµĮ·£¬»ńµĆŌ¤²ā½į¹ū�£

1 DSMÄ£ŠĶÉč¼Ę

1.1 Ä£ŠĶ½į¹¹

±¾ĪÄĢį³öµÄDSMÄ£ŠĶ½į¹¹ČēĶ¼1ĖłŹ¾£¬Ö÷ŅŖÓÉŹäČė²ć�¢Ķ¼ŹéÓļŅåĢŲÕ÷ĢįČ�²ćŅŌ¼°MLP²ć¹¹½Ø¶ų³É�£Ä£ŠĶŹäČė²ćÄÜ¹»±ķ´ļ¶ĮÕßŗĶĶ¼ŹéĢŲÕ÷µÄŠÅĻ¢£¬°üĄØ¶ĮÕßÉķ·ŻŠÅĻ¢�¢½čŌÄ¼ĒĀ¼ŅŌ¼°ŗņŃ�Ķ¼ŹéµČ£»ŌŚĶ¼ŹéÓļŅåĢŲÕ÷ĢįČ�²ćĄūÓĆBERT-TextCNNĶųĀē¶ŌŹäČėµÄ¶ĮÕß½čŌÄĄśŹ·ŗĶŗņŃ�Ķ¼ŹéĢįČ�ÓļŅåĢŲÕ÷£¬·Ö±š»ńµĆ¶ĮÕß½čŌÄŠŠĪŖĻņĮæŗĶŗņŃ�Ķ¼ŹéĻņĮæ£»Č»ŗó½«ĢįČ�µ½µÄĢŲÕ÷ĻņĮæÓė¶ĮÕßČĖæŚĶ³¼ĘŃ§ĢŲÕ÷Ę´½ÓŗóŅ»ĘšŹäČėMLP²ć£¬×÷ĪŖÄ£ŠĶŹäČė£¬²ĪÓėÄ£ŠĶŃµĮ·�£²ÉÓĆ½»²ęģŲĖšŹ§ŗÆŹż×÷ĪŖÄæ±źŗÆŹż£¬øł¾ŻµĆµ½µÄøÅĀŹÖµyµÄÅÅŠņ£¬ĪŖ¶ĮÕßĢį¹©Ķ¼ŹéĶĘ¼ö�£

[Loss=-1Ni=1nyilogpi+(1-yi)log(1-pi)] £Ø1£©

½»²ęģŲĖšŹ§ŗÆŹż¹«Ź½ČēŹ½£Ø1£©ĖłŹ¾£¬Ä£ŠĶµÄŌ¤²āÖµÓĆpi±ķŹ¾£¬µ±Ńł±¾ĪŖÕżŹ±£¬Ńł±¾±źĒ©yiČ�1£¬µ±Ńł±¾ĪŖøŗŹ±£¬Ńł±¾±źĒ©yiČ�0�£

1.2 »łÓŚBERT-TextCNNµÄĶ¼ŹéÓļŅåĢŲÕ÷ĢįČ�

1.2.1 BERTÄ£ŠĶ BERTÄ£ŠĶ£Ū19£ŻŹĒ¹ČøčĢį³öµÄŅ»øöĆęĻņ×ŌČ»ÓļŃŌ´¦ĄķČĪĪńµÄĪŽ¼ą¶½Ō¤ŃµĮ·ÓļŃŌÄ£ŠĶ£¬ŹĒ½üÄźĄ´×ŌČ»ÓļŃŌ´¦ĄķĮģÓņ¹«ČĻµÄ¾ßÓŠÖŲ´óŅāŅåµÄĄļ³Ģ±®Ä£ŠĶ£¬ŌŚ´¦ĄķĪÄ±¾Ļą¹ŲČĪĪńµÄ¶ąĻī±ČČüÖŠŅŃ»ńµĆ½¾ČĖ³É¼Ø£¬Š§¹ūµĆµ½ĮĖ³ä·ÖµÄČĻÖ¤�£BERTÄ£ŠĶ»łÓŚ¶ą²ćtransformerµÄĖ«Ļņ±ąĀė±ķŹ¾£¬ĄūÓĆĮĖĆæøö´ŹµÄĖłÓŠÉĻĻĀĪÄŠÅĻ¢£¬ÓėÖ»ÄÜŹ¹ÓĆĒ°ŠņŠÅĻ¢ĢįČ�ÓļŅåµÄµ�Ļņ±ąĀėĘ÷Ļą±Č£¬ÓļŅåŠÅĻ¢µÄĢįČ�ÄÜĮ¦øüĒæ�£Ķ¬Ź±£¬BERTĶØ¹żŌŚ´ó¹ęÄ£µÄ×ŌČ»ÓļŃŌÓļĮĻæāÖŠ½ųŠŠĪŽ¼ą¶½ŃµĮ·£¬ŅŃ¾»ńµĆĮĖ±ķ´ļ·įø»ÓļŅåĢŲÕ÷µÄ´ŹĻņĮæ£¬Ö»Šč½«ŅŃ¾ŃµĮ·ŗĆµÄ´ŹĻņĮæŹäČėMLP»ņĻßŠŌ·ÖĄąĘ÷¾ĶæÉŅŌ»ńµĆ½į¹ū�£

ČēĶ¼2ĖłŹ¾£¬BERTÄ£ŠĶŹäČėĆæøöµ�´ŹµÄ±ķŹ¾ŹĒÓÉµ�´ŹĢŲÕ÷Ē¶Čė±ąĀė£Ø´Ź»ćĻņĮæ£©�¢¾ä×ÓµÄĢŲÕ÷Ē¶Čė±ąĀė£Ø·Ö¶ĪĻņĮæ£©ŅŌ¼°Ćæøöµ�´ŹĖłŌŚµÄĪ»ÖĆ±ąĀė£ØĪ»ÖĆĻņĮæ£©Ļą¼Ó¶ųµĆ£»ĶØ¹żĮ½´óŗĖŠÄČĪĪń�°ÕŚøĒÓļŃŌÄ£ŠĶ�±£ØMLM£©ŗĶ�°ĻĀŅ»¾äŌ¤²ā�±£ØNSP£©ĮŖŗĻŃµĮ·ĶŚ¾ņÓļŅå£¬·Ö±š»ńµĆµ�´ŹŗĶ¾ä×ÓµÄĻņĮæ±ķŹ¾£¬Ņņ´ĖÄÜ¹»±ķ´ļ¾ä×Ó²ćĆęµÄø´ŌÓÓļŅå£¬´Ó¶ųĄķ½āŅ»´Ź¶ąŅå�£BERTÄ£ŠĶÄæĒ°ŌŚ·ÖĄąČĪĪń�¢ĆüĆūŹµĢåŹ¶±šŅŌ¼°¾ä×Ó¹ŲĻµÅŠ¶ĻµČČĪĪńÖŠ»ńµĆ½¾ČĖ³É¼Ø�£

1.2.2 TextCNNÄ£ŠĶ CNNĄūÓĆ¶ąøö¾ķ»żŗĖĄ´´¦Ąķ²»Ķ¬µÄĢŲÕ÷£¬´Ó¾Ö²æµ½Č«¾Ö½ųŠŠĢŲÕ÷ĢįČ�²¢Ę�Åä£¬ÓµÓŠøüÉīµÄĶųĀē½į¹¹µÄĶ¬Ź±½µµĶĮĖĶųĀēÄ£ŠĶµÄø´ŌÓ¶Č£¬ŹĒÉī¶ČŃ§Ļ°µÄ´ś±ķÄ£ŠĶÖ®Ņ»�£¾ķ»żÉń¾ĶųĀē×ī³õÓĆĄ´´¦Ąķ´óŠĶĶ¼Ę¬£¬Čē½ńŅŃ¾±»¹ć·ŗÓ¦ÓĆŌŚĶ¼Ļń·ÖĄą�¢Äæ±źŹ¶±š�¢×ŌČ»ÓļŃŌ´¦ĄķµČø÷øöĮģÓņ�£2014ÄźYoonĢį³öĮĖTextCNN£Ū20£ŻÄ£ŠĶ£¬Ź×´Ī½«CNNÓ¦ÓĆµ½ĪÄ±¾·ÖĄąČĪĪńÖŠ£¬²¢ŌŚ¶ąøöŹµŃéŹż¾Ż¼ÆÉĻČ�µĆĮĖ²»Ė×µÄ·ÖĄąŠ§¹ū�£

TextCNNŹ¹ÓĆ¾ķ»żŗĶ³Ų»Æ²Ł×÷Ą´ĢįČ�ĪÄ±¾µÄ¾Ö²æŗĶČ«¾ÖĢŲÕ÷�£ŌŚ´¦ĄķĶ¼ĻńŹ±£¬¾ķ»ż²Ł×÷ŹĒ¶ŌŹäČėµÄĶ¼ĻńĻńĖŲ½ųŠŠ¼ĘĖć´¦Ąķ£¬¶ųŌŚĪÄ±¾´¦ĄķÖŠ£¬ĖüµÄŹäČėĶØ³£ŹĒŅ»øö¹Ģ¶Ø³¤¶ČµÄĪÄ±¾ŠņĮŠ£¬²¢½«ĪÄ±¾ŠņĮŠ±ķŹ¾ĪŖŅ»øö¶žĪ¬¾ŲÕó£¬¾ŲÕóÖŠµÄĆæŅ»ŠŠ±ķŹ¾ĪÄ±¾ÖŠµÄŅ»øöµ�´Ź»ņ´ŹĻņĮæ£¬¾ŲÕóµÄ³¤¶Č´ś±ķĪÄ±¾ŠņĮŠµÄ³¤¶Č�£

TextCNNÄ£ŠĶČēĶ¼3ĖłŹ¾�£¾ķ»ż²Ł×÷ĄūÓĆ¾ķ»żŗĖŌŚĪÄ±¾ŠņĮŠÉĻµÄ²»¶Ļ»¬¶Æ£¬ĶØ¹żÓė´°æŚ¶ŌÓ¦ŌŖĖŲĻą³ĖŌŁĻą¼ÓµÄŌĖĖćĄ´²¶×½ĪÄ±¾ÖŠµÄn-gramĢŲÕ÷£¬ĢįČ�³öĪÄ±¾¾Ö²æĢŲÕ÷�£Ćæøö¾ķ»żŗĖ¶¼ŹĒŅ»øö¹Ģ¶Ø´óŠ�µÄ´°æŚ£¬æķ¶ČŅ»°ćÉč¶ØĪŖ´ŹĻņĮæĪ¬¶Č£¬ŅŌ±£³ÖøĆ´ŹÓļŅåŠÅĻ¢µÄĶźÕūŠŌ£»³¤¶ČÖøŅ»´Ī¾ķ»ż²Ł×÷°üŗ¬µÄµ�´Ź»ņ´ŹĻņĮæµÄøöŹż�£³Ų»Æ²ć½«ĻąĖĘµÄĢŲÕ÷ŗĻ²¢£¬Č�³żČßÓąŠÅĻ¢£¬³éČ�ÖŲŅŖĢŲÕ÷£¬Č»ŗó½«ÕāŠ©¾Ö²æĢŲÕ÷¾ŪŗĻ³ÉŅ»øö¹Ģ¶Ø³¤¶ČµÄČ«¾ÖĢŲÕ÷ĻņĮæ£¬ŌŁĶØ¹żŅ»øöČ«Į¬½Ó²ćŗóµĆµ½Źä³ö½į¹ū�£ŅņĪŖ¾ķ»żŗĖæÉŅŌæēŌ½¶ąøöµ�´Ź»ņ´ŹĻņĮæ£¬ĖüæÉŅŌÓŠŠ§µŲ´¦Ąķ´ó¹ęÄ£ĪÄ±¾Źż¾Ż£¬Ķ¬Ź±ÓÉÓŚ¾ķ»żŗĶ³Ų»Æ²Ł×÷ŹĒøß¶Č²¢ŠŠµÄ£¬¹ŹÄ£ŠĶæÉŅŌŹ¹ÓĆGPU½ųŠŠ¼ÓĖŁ�£

TextCNN ÖŠµÄ¾ķ»ż´óŠ�ŹĒŅ»øö³¬²ĪŹż£¬¾ķ»ż´óŠ�Ó¦øĆøł¾ŻČĪĪńŗĶĪÄ±¾Źż¾ŻµÄĢŲµć½ųŠŠŃ�Ōń�£½ĻŠ�³ß´ēµÄ¾ķ»żŗĖæÉŅŌŗÜŗĆµŲ²¶×½µ�øö×Ö»ņ¶ĢÓļÖ®¼äµÄ¹ŲĻµ£¬øüŗĆµŲ´¦Ąķ¾Ö²æŠÅĻ¢£»¶ų½Ļ´ó³ß´ēµÄ¾ķ»żŗĖÉĘÓŚ²¶×½³¤¾ąĄėµÄŅĄĄµ¹ŲĻµ£¬æÉŅŌøüŗĆµŲ´¦Ąķøü¹ć·ŗµÄÉĻĻĀĪÄŠÅĻ¢�£

TextCNN ÖŠ¾ķ»żµÄĶØµĄŹżĮæŅ²ŹĒŅ»øö³¬²ĪŹż£¬ĶØµĄŹżĮæĶØ³£æÉŅŌĄķ½āĪŖ¾ķ»żŗĖµÄŹżĮæ£¬Ćæøö¾ķ»żŗĖŌŚĪÄ±¾ÖŠĢįČ�²»Ķ¬µÄĢŲÕ÷�£½Ļ´óµÄĶØµĄŹżĮæĖäČ»æÉŅŌĢįøßÄ£ŠĶµÄø´ŌÓ¶ČŗĶ±ķ´ļÄÜĮ¦£¬µ«Ņ²»įŌö¼ÓŃµĮ·µÄŹ±¼äŗĶ¼ĘĖć³É±¾�£

1.2.3 BERT-TextCNN ĶųĀē BERT-TextCNNĶųĀēÖ÷ŅŖÓÉBERT²ć�¢TextCNN²ć�¢Ę´½Ó²ćŗĶČ«Į¬½ÓÉń¾ĶųĀē²ć�¢Źä³ö²ć£¬Ä£ŠĶČēĶ¼4ĖłŹ¾�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2023\µŚ3ĘŚ\ĮõŌ°Ō°-4.tif>[Output][Č«Į¬½ÓÉń¾ĶųĀē][e[CLS]][d][TextCNN][e£ŪCLS£Ż][e1][e2][e3][en][Transformer²ć][Transformer²ć][´Ź»ćĻņĮæ][·Ö¶ĪĻņĮæ][Ī»ÖĆĻņĮæ][BERT][t1][t2][t3][tn][[CLS]]

Ķ¼4 BERT-TextCNNÄ£ŠĶ

Fig. 4 BERT-TextCNN model

´«Ķ³Éń¾ĶųĀēĶØ³£²ÉÓĆWord2VecĄ´±ķŹ¾ĪÄ±¾ŠÅĻ¢£¬±¾ĪÄČŚŗĻBERTÓėTextCNNÄ£ŠĶ£¬Ź×ĻČ²ÉÓĆBERTÄ£ŠĶĢįČ�Ķ¼ŹéĪÄ±¾ĢŲÕ÷£¬»ńČ�³ä·ÖµÄĪÄ±¾ĢŲÕ÷£¬ŌŁ¾¹żTextCNN²ć½ųŅ»²½³éČ�ĢŲÕ÷£¬Ķź³ÉÖŲŅŖŠÅĻ¢µÄĢįČ�£¬´Ó¶ųŌö¼ÓĮĖÄ£ŠĶµÄ½�×³ŠŌŗĶĪČ¶ØŠŌ�£

ŌŚBERT²ć£¬ĆæøöŹäČėµÄ´Ź×Ō¶Æ±ąĀė³ÉĪ»ÖĆĻņĮæ�¢·Ö¶ĪĻņĮæŅŌ¼°´Ź»ćĻņĮæ£»¾¹ż¶ą²ćµÄTransformer²ć±ä»»ŗó£¬ŠņĮŠÖŠµÄĆæøöŹäČė¶¼»įÉś³É¶ŌÓ¦µÄĻņĮæ±ķŹ¾£»Ä£ŠĶ»įŌŚĪÄ±¾æŖŹ¼´¦×öĢŲŹā±źÖ¾£ŪCLS£Ż£¬ĘäÉś³ÉµÄe£ŪCLS£ŻĻņĮææÉŅŌ×÷ĪŖŹäČėĪÄ±¾µÄ¾äĻņĮæ±ķŹ¾�£¶ŌÓŚŹäČėµÄĪÄ±¾T=£Øt1£¬t2£¬�£¬tn£©£¬BERT²ć»į»ńµĆnøö×Ö·ūµÄĻņĮæ±ķŹ¾£¬ĘäÖŠt1´ś±ķĪÄ±¾ŠņĮŠÖŠµŚŅ»øö×Ö£ŗ

[E=LayerBERT(T)] £Ø2£©

Ź½£Ø2£©ÖŠ£¬¾ŲÕóE=£ūe1£¬e2£¬�£¬en£ż£¬ĪŖĶ¼ŹéĪÄ±¾ŠÅĻ¢»ńµĆµÄø÷´ŹĻņĮæ¶Ńµž¶ų³ÉµÄ¾ŲÕó£¬ei�Ź£Ņd´ś±ķĪÄ±¾ÖŠµÄµŚiøö×Ö¾¹żBERT²ćÉś³ÉµÄdĪ¬ĻņĮæ±ķŹ¾�£

ŌŚBERT²ć»ńµĆµÄ×Ö·ū¼¶±šµÄĻņĮæ»Æ±ķŹ¾¾ŲÕóE½«×÷ĪŖŠĀµÄĢŲÕ÷£¬ŹäČėTextCNN²ć�£Ź×ĻČ£¬¶ŌBERT²ćŹä³öµÄ×ÖĻņĮæ¾ŲÕóE½ųŠŠ¾ķ»ż²Ł×÷�£Čē¹ū¾ķ»żŗĖ³¤¶ČÉčÖĆĪŖk£¬¼´Ćæ´Ī¶Ōkøö×Ö½ųŠŠ¾ķ»ż²Ł×÷£¬»¬¶Æ²½³¤ÉčÖĆĪŖ1£¬Ōņ»įÉś³ÉD=£ūd1£¬d2£¬�£¬dn-k+1£żµÄĻņĮæ£¬n±ķŹ¾ĪÄ±¾ÖŠĪÄ×ÖµÄøöŹż£¬dj�ŹRn-k+1ĪŖ¾Ö²æĢŲÕ÷Ó³Éä£¬¼ĘĖć¹«Ź½ČēŹ½£Ø3£©ĖłŹ¾£ŗ

[di=f(WTei:i+k-1+b)] £Ø3£©

ĘäÖŠ£¬f£Ø�¤£©±ķŹ¾·ĒĻßŠŌ¼¤»īŗÆŹż£¬²ÉÓĆ³£ÓĆµÄRelu¼¤»īŗÆŹż£»WĪŖ¾ķ»ż²Ł×÷ÖŠ¶ŌÓ¦µÄ¾ķ»żŗĖ²ĪŹż£¬°´ÕÕ¾łŌČ·Ö²¼Ėę»ś³õŹ¼»Æ£»bĪŖĘ«ÖĆĻī£¬ÄÜ¹»øüŗĆÄāŗĻŹż¾Ż�£

¶Ō¾ķ»ż²Ł×÷»ńµĆµÄĪÄ±¾ĢŲÕ÷Ó³ÉäĻņĮæD½«½ųŠŠ³Ų»Æ²Ł×÷£¬³£ÓĆµÄÓŠ×ī´ó³Ų»ÆŗĶĘ½¾ł³Ų»Æ£¬±¾ĪÄ²ÉÓĆ×ī´ó³Ų»ÆµÄ·½Ź½ĢįČ�¾Ö²æĢŲÕ÷£¬¹«Ź½ČēŹ½£Ø4£©ĖłŹ¾£ŗ

[dk=max{D}] £Ø4£©

Ķ¬Ńł³ß´ēµÄmøö¾ķ»żŗĖµĆµ½µÄ½į¹ūČēĻĀ£ŗ

[Dk=(dk1,dk2,...,dkm)] £Ø5£©

¾ķ»żŗĖ²ÉÓĆ£Ø3£¬4£¬5£©3ÖÖ²»Ķ¬³ß´ē£¬ĆæÖÖ³ß´ēµÄ¾ķ»żŗĖÓµÓŠ128øöĶØµĄ�£¾ķ»ż²Ł×÷ĢįČ�ĢŲÕ÷ŗó£¬ŌŁ¾¹ż³Ų»Æ£¬Č»ŗó½«²»Ķ¬³ß´ēµÄ¾ķ»żŗĖĢįČ�µÄĢŲÕ÷Ę´½ÓŌŚŅ»Ęš£¬ÓėBERTÄ£ŠĶÖŠ»ńµĆµÄ¾äĻņĮæe£Ūcls£ŻŅ»Ķ¬ŹäČėČ«Į¬½ÓÉń¾ĶųĀē½ųŠŠŃµĮ·£¬µĆµ½Źä³ö½į¹ū�£¾ķ»ż²Ł×÷ŹµÖŹÉĻĶź³ÉĮĖ¶ŌĪÄ±¾ĢŲÕ÷ÖŠ±ķŹ¾¾Ö²æÖŲŅŖŠÅĻ¢µÄ²¶»ń£¬³Ų»Æ²Ł×÷ŌņĶź³ÉĮĖ¾Ö²æÖŲŅŖĢŲÕ÷µÄĢįČ�£¬×īŗóµÄČ«Į¬½ÓÉń¾ĶųĀēŌö¼ÓĮĖÄ£ŠĶµÄ·ŗ»ÆÄÜĮ¦�£

2 ŹµŃé²æ·Ö

2.1 ŹµŃéŹż¾Ż

ŹµŃéŹż¾ŻĄ´Ō´ÓŚĪäŗŗĒį¹¤´óŃ§2017ÄźÖĮ2022ÄźµÄ½čŌÄŹż¾Ż£¬Éę¼°706 884Ģõ½čŌÄ¼ĒĀ¼£¬56 195Ćū¶ĮÕßŗĶ437 348²įĶ¼Źé�£ĪŖĮĖøüŗĆµŲŃ§Ļ°¶ĮÕßŠĖČ¤Ę«ŗĆ£¬Ń�Ōń½čŌÄ¹ż10±¾ŅŌÉĻĶ¼ŹéµÄ¶ĮÕß×÷ĪŖŹµŃé¶ŌĻó£¬½«¶ĮÕß×īŠĀŅ»´ĪµÄ½čŌÄ¼ĒĀ¼×÷ĪŖ²āŹŌ¼ÆÕżŃł±¾£¬ĘäÓąĄśŹ·½čŌÄ×÷ĪŖŃµĮ·¼ÆµÄÕżŃł±¾£¬°´1�Ć50±ČĄżĖę»śŃ�Č�¶ĮÕßĆ»ÓŠ½čŌÄ¹żµÄ¹Ż²ŲĶ¼Źé×÷ĪŖ²āŹŌ¼ÆøŗŃł±¾£¬°´1�Ć5±ČĄżŃ�Č�ŃµĮ·¼ÆøŗŃł±¾£»×īÖÕ»ńµĆ79 002ĢõŃµĮ·¼ÆŃł±¾£¬74 613Ģõ²āŹŌ¼ÆŃł±¾£¬¹²¼Ę153 615ĢõŹµŃéŹż¾Ż�£Ķ³¼Ę½į¹ūČē±ķ1ĖłŹ¾�£

±ķ1 ŃµĮ·¼Æ¼°²āŹŌ¼ÆĶ³¼Ę½į¹ū

Tab. 1 Statistics of training sets and test sets

[Ńł±¾ĄąŠĶ ŃµĮ·¼ÆŹżĮæ ²āŹŌ¼ÆŹżĮæ Źż¾Ż¼ÆŹżĮæ ÕżŃł±¾ 13 167 1 463 14 630 øŗŃł±¾ 65 835 73 150 138 985 ×Ü¼Ę 79 002 74 613 153 615 ]

2.2 ĘĄ¼ŪÖø±ź

±¾ĪÄ²ÉÓĆµÄĘĄ¼ŪÖø±źÓŠ×¼Č·ĀŹ£Øaccuracy£©�¢¾«Č·ĀŹ£Øprecision£©�¢ÕŁ»ŲĀŹ£Ørecall£©�¢F1Öø±źŗĶĘ½¾łµ¹ŹżÅÅŠņ£Ømean reciprocal rank£¬MRR£©Öø±ź�£ĘäÖŠ£¬F1Öø±źÓĆĄ´µ÷ŗĶÕŁ»ŲĀŹÓė¾«Č·ĀŹ£¬×ŪŗĻ·´Ó³ĶĘ¼öŠ§¹ū£»MRRÖø±ź´ś±ķĆüÖŠ¶ĮÕßÕęŹµ½čŌÄµÄĶ¼ŹéÅÅŌŚĶĘ¼öĮŠ±ķµÄĪ»ÖĆ£¬ÖµŌ½´óĖµĆ÷ĶĘ¼öŠ§¹ūŌ½ŗĆ�£¹«Ź½ČēŹ½£Ø6£©-Ź½£Ø10£©ĖłŹ¾�£

[Accuracy=TP+TNTP+FP+FN+TN] £Ø6£©

[Precision=TPTP+FP ] £Ø7£©

[Recall=TPTP+FN] £Ø8£©

[F1=2?Precision?RecallPrecision+Recall] £Ø9£©

[MRR=1Ti=1T1Ri] £Ø10£©

2.3 ŹµŃé½į¹ū¼°·ÖĪö

±¾ĪÄŃ�ŌńĮĖŅŌĻĀ¼øÖÖÄ£ŠĶ½ųŠŠŹµŃé¶Ō±Č£¬ Ą´ŃéÖ¤±¾ĪÄĢį³öÄ£ŠĶµÄĶĘ¼öŠ§¹ū£ŗ¢Ł´«Ķ³µÄ»łÓŚĪļĘ·µÄŠĶ¬¹żĀĖItemCFÄ£ŠĶ£Ū21£Ż£»¢Ś´«Ķ³µÄŅžÓļŅåLFMÄ£ŠĶ£Ū22£Ż£»¢ŪÉī¶ČŃ§Ļ°BERT-MLPÄ£ŠĶ£»¢ÜÉī¶ČŃ§Ļ°TextCNN-MLPÄ£ŠĶ�£ø÷Ä£ŠĶµÄŹµŃé½į¹ūČēĶ¼5�¢±ķ2ŗĶĶ¼6ĖłŹ¾�£

ČēĶ¼5ĖłŹ¾£¬±¾ĪÄĢį³öµÄDSMÄ£ŠĶ×¼Č·ĀŹÓÅÓŚĘäĖū¶ŌÕÕÄ£ŠĶ£»Ķ¬Ź±ŹµŃé½į¹ūĻŌŹ¾£¬»łÓŚÉī¶ČŃ§Ļ°µÄĶĘ¼öÄ£ŠĶĻą±Č´«Ķ³Ä£ŠĶ×¼Č·ĀŹÓŠĆ÷ĻŌĢįÉż�£ŌŚÄ£ŠĶŃµĮ·´ļµ½100´ĪŹ±£¬TextCNN- MLP�¢BERT-MLPŗĶDSMÄ£ŠĶ×¼Č·ĀŹ·Ö±š´ļµ½0.842 8�¢0.863 2ŗĶ0.902 3£¬ĖµĆ÷Ļą±Č´«Ķ³Ä£ŠĶ½öĄūÓĆČĖÓėĪļÖ®¼äµÄ½»»�ŠŠĪŖ£¬Éī¶ČŃ§Ļ°Ä£ŠĶÓÉÓŚĄūÓĆĮĖĶ¼ŹéµÄĪÄ±¾ŠÅĻ¢�¢¶ĮÕßµÄČĖæŚĶ³¼ĘŃ§ŠÅĻ¢µČ·įø»µÄĢŲÕ÷£¬ÄÜ¹»ĶŚ¾ņ³öŹż¾Ż¼äµÄøü¶ąĒ±ŌŚ¹ŲĻµ£¬¾ßÓŠøüĒæµÄ±ķ´ļÄÜĮ¦ŗĶ·ŗ»ÆÄÜĮ¦�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2023\µŚ3ĘŚ\ĮõŌ°Ō°-5.tif>[0 10 20 30 40 50 60 70 80 90 100

µü´ś´ĪŹż][1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1][×¼Č·ĀŹ][ItemCF

LFM

TextCNN-MLP

BERT-MLP

DSM]

Ķ¼5 ø÷Ä£ŠĶ×¼Č·ĀŹ¶Ō±Č

Fig. 5 Comparison of accuracy of various models

Čē±ķ2ĖłŹ¾£¬±¾ĪÄĢį³öµÄDSMÄ£ŠĶ¾«Č·ĀŹ�¢ÕŁ»ŲĀŹ�¢F1Öø±ź±ķĻÖ×īŗĆ£¬·Ö±š´ļµ½0.912 2�¢0.870 9ŗĶ0.895 4£»¶Ō±ČÉī¶ČŃ§Ļ°µÄTextCNN-MLPŗĶBERT-MLPÄ£ŠĶ£¬DSMÄ£ŠĶF1Öø±ź·Ö±šĢįÉżĮĖ8.73%ŗĶ3.91%�£ŹµŃé½į¹ūĖµĆ÷DSMÄ£ŠĶ±Čµ�¶ĄŹ¹ÓĆTextCNN»ņBERTÄ£ŠĶ£¬ÄÜ¹»øüÉīČėµÄĶŚ¾ņĪÄ±¾ÓļŅåĢŲÕ÷£¬´Ó¶ųøüŗĆµÄŃ§Ļ°µ½¶ĮÕßĘ«ŗĆ£¬ĢįøßĶĘ¼öŠ§¹ū�£

±ķ2 ŹµŃé½į¹ū

Tab. 2 Experimental results

[¶Ō±ČÄ£ŠĶ ¾«Č·ĀŹ ÕŁ»ŲĀŹ F1 ItemCF 0.732 8 0.711 4 0.725 5 LFM 0.753 4 0.735 8 0.741 8 TextCNN-MLP 0.834 5 0.816 3 0.823 5 BERT-MLP 0.881 5 0.852 2 0.861 7 DSM 0.912 2 0.870 9 0.895 4 ]

MRRÖø±źŅ²ŹĒĶĘ¼öÄ£ŠĶµÄÖŲŅŖĘĄ¼Ū±ź×¼Ö®Ņ»£¬ĖüÓė×¼Č·ĀŹŗĶF1µČĘĄ¹ĄÖø±źĻą±ČøüĶ»³ö�°Ė³ŠņŠŌ�±£¬ÖŲŹÓ´żĶĘ¼öĶ¼ŹéŹĒ·ń·ÅŌŚĶĘ¼öĮŠ±ķÖŠĻŌŃŪµÄĪ»ÖĆ£¬¼´Ēæµ÷Ī»ÖĆ¹ŲĻµ�£´ÓĶ¼6æÉŅŌæ´³ö£¬DSMÄ£ŠĶŌŚMRRĘĄ¼ŪÖø±źÉĻÓŠ²»´ķ±ķĻÖ£¬²»½ö¶Ō±Č´«Ķ³ĶĘ¼öÄ£ŠĶItemCF�¢LFMÓŠ½Ļ´óĢįÉż£¬·Ö±šĢįøßĮĖ34.81%ŗĶ29.79%£¬Ķ¬Ź±±ČÉī¶ČŃ§Ļ°Ä£ŠĶTextCNNŗĶBERT-MLPĢįÉżĮĖ12.96%ŗĶ3.68%£¬ĖµĆ÷DSMÄ£ŠĶŌŚĶĘ¼öĮŠ±ķµÄÅÅŠņĪ»ÖĆ·½ĆęŅ²¾ßÓŠÓÅŹĘ�£

3 ½į ĀŪ

½įŗĻBERTŗĶTextCNNĶųĀēĄ´ĢįČ�Ķ¼ŹéµÄÓļŅåŠÅĻ¢£¬Ń§Ļ°¶ĮÕß½čŌÄĘ«ŗĆ�£ĻČĄūÓĆBERTÄ£ŠĶ¶ŌĶ¼ŹéĪÄ±¾ŠÅĻ¢½ųŠŠĻņĮæ±ąĀėĢįČ�ĪÄ±¾ĢŲÕ÷£¬ŌŁĶØ¹żTextCNNÄ£ŠĶ¶ŌŅŃĢįČ�µÄĪÄ±¾ĢŲÕ÷½ųŠŠ¾ķ»ż�¢³Ų»ÆµČ²Ł×÷£¬»ńµĆ¶ŌÓŚÓļŅåŠÅĻ¢øüÉī²ćĄķ½ā£¬´Ó¶ųŹµĻÖ¶Ō¶ĮÕßŠĖČ¤øü×¼Č·µÄĶŚ¾ņ�£ŹµŃé½į¹ū±ķĆ÷£¬Ģį³öµÄÄ£ŠĶŌŚĶ¼ŹéĶĘ¼öÉĻ¾ßÓŠĆ÷ĻŌÓÅÓŚĘäĖūÄ£ŠĶµÄĶĘ¼öŠ§¹ū�£Ī´Ą´¹¤×÷ÖŠ£¬æ¼ĀĒŌŚÄ£ŠĶÖŠČŚŗĻøü¶ąĢŲÕ÷£¬ĶŚ¾ņ³ö¶ĮÕßÓėĶ¼ŹéÖ®¼äøüÉī²ć´ĪµÄĮŖĻµ£¬½ųŅ»²½ĢįøßĶ¼ŹéĶĘ¼öŠ§¹ū�£