ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2025Äź05ĘŚ 565-570 ³ö°ęČÕĘŚ£ŗ2025-10-31 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚøÄ½ų½ü¶Ė²ßĀŌÓÅ»ÆĖć·ØµÄŌŚĻßČżĪ¬×°Ļä·½·Ø

½üÄźĄ´£¬ÓÉÓŚĪļĮ÷ŠŠŅµµÄÅī²Ŗ·¢Õ¹£¬ČżĪ¬×°ĻäĪŹĢāĪüŅżĮĖŃ§ÕßĆĒµÄ¹ć·ŗ¹Ų×¢ŗĶČČĆÅŃŠ¾æ�£ČżĪ¬×°ĻäĪŹĢāŹĒ¾µäµÄ×éŗĻÓÅ»ÆĪŹĢā[1]�£øĆĪŹĢāµÄŗĖŠÄÄæ±źŹĒŌŚĀś×ćĢŲ¶ØŌ¼ŹųĢõ¼žĻĀ£¬½«Ņ»×éøų¶ØµÄĻä×Ó×°ČėČŻĘ÷ÄŚ,ŅŌŹµĻÖ×°ŌŲĢå»ż×ī´ó»Æ[2]�£

ŌŚ´¦Ąķ´ó¹ęÄ£ČżĪ¬×°ĻäĪŹĢāŹ±£¬ÓÉÓŚĘä¼ĘĖćø´ŌÓŠŌ£¬ĶØ³£ĪŽ·ØĶØ¹ż¾«Č·Ėć·ØŌŚŗĻĄķŹ±¼äÄŚ»ńµĆ×īÓÅ½ā�£Ņņ´Ė£¬Źµ¼ŹÓ¦ÓĆÖŠ¶ą²ÉÓĆ¹¹ŌģĘō·¢Ź½ŗĶŌŖĘō·¢Ź½Ėć·Ø[3]£¬Äæ±źŹĒŌŚÓŠĻŽŹ±¼äÄŚŃ°ÕŅµ½ĀśŅāµÄ½üĖĘ×īÓÅ½ā�£

Ęō·¢Ź½Ėć·ØŠčŅŖ´óĮæµÄÉč¼Ę¹¤×÷£¬²¢ĒŅ·ŗ»Æ¹¦ÄÜŹÜµ½ĻŽÖĘ�£Ļą±ČÖ®ĻĀ£¬Éī¶ČĒæ»ÆŃ§Ļ°ŌŚ½ā¾ö×éŗĻÓÅ»ÆĪŹĢā·½Ćę±ķĻÖ³öĻŌÖųĒ±Į¦[4]�£HuµČ[5]²ÉÓĆÉī¶ČĒæ»ÆŃ§Ļ°£Ødeep reinforce learning£¬DRL£©Ń°ÕŅøüŗĆµÄĪļĘ·´ņ°üĖ³Šņ£¬½ā¾öĄėĻßČżĪ¬×°ĻäĪŹĢā�£HuµČ[6]ĄūÓĆÉī¶ČĒæ»ÆŃ§Ļ°ŃµĮ·×īÓÅµÄ°ü×°²ßĀŌ£¬ŅŌ×ī´ó»Æ°ü×°Š§ĀŹŗĶĪČ¶ØŠŌ�£ZhaoµČ[7]²ÉÓĆÉī¶ČĒæ»ÆŃ§Ļ°£¬ĄūÓĆŃŻŌ±-ĘĄĀŪ¼Ņæņ¼Ü£¬½ā¾ö¾ßÓŠŌ¼Źų¶Æ×÷æÕ¼äµÄČżĪ¬×°ĻäĪŹĢā�£VermaµČ[8]ĄūÓĆÉī¶ČĒæ»ÆŃ§Ļ°½ā¾öĻä×Óµ½´ļĖ³ŠņĪ´ĢįĒ°Ō¤ÖŖµÄŌŚĻßČżĪ¬×°ĻäĪŹĢā�£

´«Ķ³µÄČżĪ¬×°ĻäĖć·ØŌŚĀś×ć×°ĻäŹµ¼ŹŌ¼ŹųµÄĶ¬Ź±£¬ŠčŅŖĆęĮŁ×°Ļä¶Æ×÷µćĖŃĖ÷æÕ¼ä´ó�¢¼ĘĖćĮæ´óµÄĢōÕ½£¬ĶłĶłµ¼ÖĀĖć·ØÄŃŅŌŹÕĮ²£¬ŌĖŠŠŹ±¼ä¹ż³¤�£ŌŚŅŃÖŖŠņĮŠĖ³ŠņµÄĄėĻß×°Ļä[9]¹ż³ĢÖŠÓŠ½ĻŗĆµÄŠ§¹ū£¬¶ųµ±Éę¼°ŌŚĻß×°Ļä¹ż³Ģ£¬¼´Ļä×Óµ½´ļĖ³ŠņĪ´ÖŖµÄĒéæöĻĀ£¬´ęŌŚ×°ĻäĀŹ½ĻµĶ�¢µ�øöĻä×ÓĀė·ÅŹ±¼ä¹ż³¤µČĪŹĢā£¬´Ó¶ųÓ°ĻģÕūĢåµÄ×°Ļä±ķĻÖ�£

±¾ĪÄ²ÉÓĆ½ü¶Ė²ßĀŌÓÅ»Æ£Øproximal policy optimization£¬PPO£©Ėć·Ø[10]£¬Ź¹ÓĆ²Ć¼ōŗÆŹż[11]Č·±£ŠĀ²ßĀŌøüŠĀ²»³¬¹żŌ¤¶ØµÄ·¶Ī§£¬±ÜĆā¹ż´óµÄ²ßĀŌ±ä»Æµ¼ÖĀĖć·Ø²»ĪČ¶Ø£¬±£Ö¤Ėć·Ø×ī´ó³Ģ¶ČµŲŹÕĮ²�£ĪŖĀś×ćŹµ¼ŹÓ¦ÓĆŠčĒó£¬ŌŚŃŻŌ±-ĘĄĀŪ¼Ņæņ¼ÜÖŠĢķ¼ÓæÉŠŠŠŌŃŚĀėŌ¤²āĶųĀē£¬ĻŽÖĘ²»æÉŠŠ×°Ļä¶Æ×÷µćµÄŃ�Č��£Ķ¬Ź±ĪŖ½ā¾öĒæ»ÆŃ§Ļ°Ėć·ØÓÅ»ÆŠ§ĀŹµĶµÄĪŹĢā£¬²ÉÓĆ³¤¶ĢĘŚ¼ĒŅä£Ølong short-term memory£¬LSTM£©ĶųĀē[12]Ģę»»PPOĖć·ØÉń¾ĶųĀē½į¹¹ÖŠµÄČ«Į¬½Ó²ć£¬×Ø×¢Ń§Ļ°øß½±ĄųÖµµÄŃł±¾£¬øüæģĖŁµŲÓÅ»ÆÄ£ŠĶ�£ŹµŃéÖ¤Ć÷£¬øÄ½ųŗóµÄĖć·ØĖõ¶ĢĮĖĒæ»ÆŃ§Ļ°Ó¦ÓĆÓŚ×°Ļä¹ż³ĢÖŠ¶Æ×÷½ŚµćµÄĆ¤ÄæĖŃĖ÷Ź±¼ä£¬ÄÜ½ĻŗĆµŲŹµĻÖŌŚĻßČżĪ¬×°Ļä�£

1 ČżĪ¬×°ĻäĪŹĢā½ØÄ£

½«ČżĪ¬×°ĻäĪŹĢā±ķŹöĪŖĀķ¶ūæĘ·ņ¾ö²ß¹ż³Ģ£ØMarkov decision progress£¬MDP£©[13]£¬·Ö±šÓĆ£ØS£¬A£¬P£¬R£¬¦Ć£©ĪåŌŖ×éĄ´±ķŹ¾£ŗ×´Ģ¬¼ÆSĪŖµ±Ē°ČŻĘ÷»·¾³ŠÅĻ¢£»¶Æ×÷¼ÆA±ķŹ¾µ±Ē°æÉŠŠ¶Æ×÷µÄ¼ÆŗĻ£»×ŖŅĘøÅĀŹP£Ø[s]|s£¬a£©±ķŹ¾ŌŚ×´Ģ¬sĻĀ²ÉČ�¶Æ×÷a×ŖŅĘµ½×´Ģ¬[s]µÄøÅĀŹ£»½±Ąų¼ÆR±ķŹ¾»·¾³·´Ą�µÄ½±ĄųŠÅĻ¢£»¦ĆĪŖÕŪæŪŅņ×Ó£¬ÓĆÓŚµ÷½ŚĪ´Ą´½±Ąų¶Ōµ±Ē°¼ŪÖµµÄÓ°Ļģ£¬µ±¦ĆĒ÷½ü0 Ź±£¬ÖĒÄÜĢå×¢ÖŲµ±Ē°Ź±æĢµÄ½±Ąų£¬¶ųµ±¦ĆĒ÷½ü1Ź±£¬ÖĒÄÜĢå»įæ¼ĀĒĪ´Ą´µÄ½±Ąų£¬¼´³¤ĘŚ½±Ąų�£ŌŚŹµŃéÖŠ£¬½«¦ĆÉčÖĆĪŖ1ŅŌ±ćøüŗĆµŲĄūÓĆĪ´Ą´½±ĄųŠÅĻ¢�£²ßĀŌ¦Š[:S�śA]±ķŹ¾×´Ģ¬µ½¶Æ×÷øÅĀŹµÄÓ³Éä£¬¦Š£Øa|s£©±ķŹ¾ŌŚs×´Ģ¬ĻĀ²ÉČ�¶Æ×÷aµÄ²ßĀŌ�£ČżĪ¬×°ĻäĪŹĢā±ķŹ¾ČēĶ¼1ĖłŹ¾�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2025\µŚ4ĘŚ\Šģŗē-1.tif>[z][x][y][o]

Ķ¼ 1 ČżĪ¬×°ĻäŹ¾ŅāĶ¼

Fig. 1 The schematic diagram of 3D boxing

±¾ĪÄÉčÖĆ4øöŌ¼ŹųĢõ¼ž£¬¼´±ß½ēŌ¼Źų�¢Ö§³ÅŌ¼Źų�¢Åö×²Ō¼Źų�¢Õż½»·ÅÖĆŌ¼Źų�£±ß½ēŌ¼Źų±ķŹ¾»õĪļµÄø÷øö¶�µć¾łŌŚ¼Æ×°ĻäÄŚ²æ�£Ö§³ÅŌ¼Źų±ķŹ¾»õĪļ²»æÉŠüæÕ·ÅÖĆ£¬Ćæøö»õĪļĻĀ±ķĆę½Ó´�Ćę»żÖĮÉŁ³¬¹ż1/2�£Åö×²Ō¼Źų±ķŹ¾Į½øö»õĪļŌŚxoy�¢yoz�¢xozĘ½ĆęµÄĶ¶Ó°²»´ęŌŚĮ½øöĶ¶Ó°ĆęĻą½»µÄĒéæö�£Õż½»·ÅÖĆŌ¼Źų±ķŹ¾»õĪļµÄ·ÅÖĆ±ŲŠėÓė¼Æ×°ĻäÕż½»»ņĘ½ŠŠ�£Ķ¬Ź±æ¼ĀĒČżĪ¬×°ĻäµÄĻÖŹµŅņĖŲ£¬Ļä×ÓÓŠ6ÖÖ²»Ķ¬µÄ·ÅÖĆ×ĖĢ¬£¬ČēĶ¼2ĖłŹ¾�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2025\µŚ4ĘŚ\Šģŗē-2.tif>[×ĖĢ¬1][×ĖĢ¬2][×ĖĢ¬3][×ĖĢ¬4][×ĖĢ¬5][×ĖĢ¬6]

Ķ¼ 2 Ļä×ÓµÄ6ÖÖ×ĖĢ¬

Fig. 2 The six attitudes of the box

2 øÄ½ųĖć·ØµÄČżĪ¬×°ĻäŹµĻÖ

2.1 PPOĖć·Ø

PPOĖć·ØŹĒ»łÓŚ²ßĀŌĢŻ¶ČµÄĒæ»ÆŃ§Ļ°·½·Ø£¬øĆĖć·Ø»łÓŚŃŻŌ±-ĘĄĀŪ¼ŅĖć·ØµÄæņ¼ÜŹµĻÖ�£ŃŻŌ±-ĘĄĀŪ¼ŅĖć·ØµÄæņ¼Ü°üŗ¬²ßĀŌĶųĀēŗĶ¼ŪÖµĶųĀēĮ½²æ·Ö�£ĘäÖŠ²ßĀŌĶųĀēŹ¹ÓĆ²ßĀŌŗÆŹżÓė»·¾³½»»�Ń§Ļ°ČēŗĪŌŚøų¶Ø×´Ģ¬ĻĀŃ�Ōń¶Æ×÷£¬¼ŪÖµĶųĀēŹ¹ÓĆ¼ŪÖµŗÆŹżĘĄ¹Ą²ßĀŌĶųĀēŹä³ö¶Æ×÷µÄ¼ŪÖµ£¬Ķ¬Ź±Öøµ¼²ßĀŌĶųĀēĻĀŅ»²½µÄ¶Æ×÷�£

PPOĖć·ØµÄÄæ±źŹĒŌŚÓė»·¾³½»»�²ÉŃłŹż¾Żŗó£¬Ź¹ÓĆĖę»śĢŻ¶ČÉĻÉżÓÅ»ÆŅ»øö�°Ģę´ś�±Äæ±źŗÆŹż£¬´Ó¶ųøÄ½ų²ßĀŌ�£Ėć·ØŌŚĆæ´Ī²ßĀŌøüŠĀŹ±ÖĀĮ¦ÓŚ×īŠ�»Æ´ś¼ŪŗÆŹż£¬Ķ¬Ź±ĶØ¹ż²Ć¼ōŗÆŹżĻŽÖĘŠĀ¾É²ßĀŌÖ®¼äµÄ²īŅģ£¬Č·±£²ßĀŌµÄĘ½»¬¹ż¶É�£Äæ±źŗÆŹżČēĻĀ£ŗ

[L¦Č=Et[min (rt¦ČAturt¦Č,1-¦Å,1+¦ÅAt)]]

ĘäÖŠ£ŗ[¦Å]±ķŹ¾½Ų¶Ļ³¬²ĪŹż£»[rt]±ķŹ¾tŹ±æĢŠĀ¾É²ßĀŌŌŚŃł±¾ÖŠµÄ±ČÖµ£»u(�¤£©±ķŹ¾½Ų¶ĻŗÆŹż£¬øŗŌš½«[rt]ĻŽÖĘŌŚ[[1-¦Å,1+¦Å]]Ēų¼äÖ®ÄŚ£¬Č·±£Ńł±¾ÖŠŠĀ²ßĀŌøüŠĀŌŚŌ¤¶ØµÄ·¶Ī§ÄŚ£¬ŅŌ±£Ö¤ŹÕĮ²ŠŌ£»[At]ĪŖtŹ±æĢµÄÓÅŹĘŗÆŹż�£ČōÓÅŹĘŗÆŹżĪŖÕżŹż£¬ŠčŅŖŌö´óŠĀ¾É²ßĀŌ±ČÖµ[rt]£¬µ±[rt>1+¦Å]Ź±£¬½«²»Ģį¹©¶īĶāµÄ½±Ąų�£Čē¹ūÓÅŹĘŗÆŹżŹĒøŗŹż£¬Ōņ¼õÉŁŠĀ¾É²ßĀŌ±ČÖµ[rt]£¬µ«ŌŚ[rt<1+¦Å]Ź±£¬²»Ģį¹©¶īĶāµÄ½±Ąų£¬Ź¹ŠĀ¾É²ßĀŌµÄ²īŅģ±»ĻŽÖĘŌŚŗĻĄķ·¶Ī§ÄŚ�£

¼ŪÖµĶųĀēĶØ¹ż×īŠ�»Æ¼ŪÖµĖšŹ§Ą´øüŠĀ×´Ģ¬¼ŪÖµŗÆŹżV£Øs£©£¬Ķ¬Ź±½įŗĻ²ßĀŌĖšŹ§Ź¹²ßĀŌŗĶ¼ŪÖµŗÆŹżŠµ÷øüŠĀ£¬±£Ö¤¼ŪÖµ¹Ą¼ĘµÄ¾«Č·ŠŌ�£

2.2 ×´Ģ¬æÕ¼ä¹¹½ØŗĶ¶Æ×÷æÕ¼ä¹¹½Ø

2.2.1 ×´Ģ¬æÕ¼ä ½«×´Ģ¬æÕ¼äÉčÖĆĪŖÕūøö×°ĻäČŻĘ÷£¬ĶØ¹ż½µĪ¬¼ņ»Æ¶ąĪ¬ĪŹĢāµÄø´ŌÓŠŌ£¬°ŃČżĪ¬µÄ×°ĻäæÕ¼ä×Ŗ»ÆĪŖ´ųøß¶ČÖµµÄ¶žĪ¬Ę½Ćę£¬µŚŅ»Ī¬±ķŹ¾×°ĻäæÕ¼äµ×ĆęµÄ¶žĪ¬Ę½ĆęĪ»ÖĆŠÅĻ¢£¬µŚ¶žĪ¬±ķŹ¾Ćæøö¶žĪ¬Ę½ĆęĖł´¦Ī»ÖĆÉĻ¶ŃµžĻä×ÓµÄ×ī´óøß¶Č�£Ćæ·ÅČė1øöĻä×Óŗó£¬½įŗĻ×°ĻäĪ»ÖĆŗĶĻäĢå³¤æķøßøüŠĀ´ĖæĢĘ½ĆęĪ»ÖĆŠÅĻ¢ŅŌ¼°ŌŚøĆĘ½Ćę´¦µÄ×ī´óøß¶Č£¬¼ĘČė×´Ģ¬æÕ¼ä�£ŌŚ»·¾³ÖŠ£¬±¾ĪÄ½ØĮ¢ĮĖÓĆÓŚĆčŹöČŻĘ÷ÄŚ²æĶ³Ņ»ÅäÖĆĒéæöµÄøß¶ČĶ¼£¬ČēĶ¼3ĖłŹ¾£¬³õŹ¼øß¶ČĶ¼ĪŖČ«0×´Ģ¬£Ø×óĶ¼£©£¬·ÅÖĆ³¤æķøß·Ö±šĪŖ4�¢2�¢7 mµÄĻä×Ó£¬øß¶ČĶ¼øüŠĀĪŖÓŅĶ¼ĖłŹ¾£¬ŅŌ¶žĪ¬ĻņĮæµÄŠĪŹ½±ķŹ¾ĄėÉ¢»ÆæÕ¼äµćÉĻµÄ×°ĻäĒéæö£¬ĶųøńÉĻµÄŹż×ÖÓĆÓŚ±ķŹ¾µ±Ē°Ę½Ćę×ī´ó¶Ńµžøß¶Č�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2025\µŚ4ĘŚ\Šģŗē-3.tif>

Ķ¼ 3 ×´Ģ¬æÕ¼äøß¶ČĶ¼µÄøüŠĀ

Fig. 3 The updation of the state space heightmap

2.2.2 ¶Æ×÷æÕ¼ä ¶Æ×÷ŹĒÖø½«Ļä×ÓŅŌÄ³ÖÖ×ĖĢ¬·ÅÖĆµ½×°ĻäČŻĘ÷ÖŠ�£¾ßĢå¶ØŅåĪŖŌŚµ±Ē°×ĖĢ¬ĻĀ½«´ż×°Ļä×ÓµÄŗó×óĻĀ½Ē£Øback-left-bottom, BLB£©µć·ÅÖĆµ½ČŻĘ÷ÄŚ²æµÄæÉŠŠŠŌ¶Æ×÷µćÉĻ�£¶Æ×÷æÕ¼äĪŖĻä×Ó°´µ±Ē°×ĖĢ¬·ÅÖĆŹ±ČŻĘ÷ÄŚ²ææÉŠŠŠŌ¶Æ×÷µćµÄ¼ÆŗĻ�£

2.3 ½±ĄųŗÆŹżµÄ¹¹½Ø

ŌŚMDPÖŠ£¬ÖĒÄÜĢåµÄÄæ±źŹĒÕŅµ½Ņ»øö½«×´Ģ¬Ó³Éäµ½ŠŠ¶ÆµÄ²ßĀŌŗÆŹż[¦Š(s)]�£½ā¾öMDPĪŹĢāŠčŅŖÕŅµ½Ź¹Ō¤ĘŚĄŪ»żÕŪæŪ½±Ąų×ÜŗĶ×ī´ó»ÆµÄ×ī¼Ń²ßĀŌ�£±¾ĪÄĖć·ØÖĀĮ¦ÓŚ×ī´ó»Æ×°ĻäĄūÓĆĀŹ£¬ĖłŅŌ½«Ćæøö×°ĻäµÄĻä×ÓĢå»ż×÷ĪŖ½±ĄųŗÆŹż£¬Éč¼Ę½±ĄųŗÆŹż[R1=10�Įl�Įw�Įh/(L�ĮW�ĮH])£¬ĘäÖŠ£¬l�¢w�¢h·Ö±šĪŖµ±Ē°×°ČėĻä×ÓµÄ³¤�¢æķ�¢øß£¬L�¢W�¢H·Ö±šĪŖ×°ĻäČŻĘ÷µÄ³¤�¢æķ�¢øß�£Ķ¬Ź±ĪŖµ±Ē°µ½´ļµÄĆæøöĻä×ÓŗĻĄķŃ�Ōń×°Ļä¶Æ×÷µć£¬ŅŌ±ćĪŖŗóŠųµ½´ļµÄĻä×ÓŌ¤Įōøü´óµÄŹ£ÓąæÕ¼ä£¬Éč¼Ę½±ĄųŗÆŹż[R2=D/H+V1_2/(2�ĮL�ĮW)]£¬ĘäÖŠ£¬DŹĒµ±Ē°×°ČėČŻĘ÷ÖŠĻä×Ó¾ąĄėČŻĘ÷¶�²æµÄøß¶Č£¬[V1_2]ŹĒ[V1]Ę½ĆęŗĶ[V2]Ę½ĆęĖłŠĪ³ÉµÄĘ½ĆęŗĶ£¬[V1]Ę½ĆęŹĒµ±Ē°×°ČėČŻĘ÷µÄĒ°²ą×ī´óŹ£ÓąæÕ¼ä£¬[V2]Ę½ĆęŹĒµ±Ē°×°ČėČŻĘ÷µÄÓŅ²ą×ī´óŹ£ÓąæÕ¼ä£¬ČēĶ¼4ĖłŹ¾�£

±¾ĪÄµÄ½±ĄųŗÆŹżÉčÖĆĪŖ[R=R1+¦ŲR2]£¬ĘäÖŠ[¦Ų]ĪŖČØÖŲĻµŹż£¬ŌŚŹµŃéÖŠÉčÖĆČØÖŲĻµŹż[¦Ų=0.01]£¬Ę½ŗāÖĒÄÜĢå×ī´ó»ÆµÄ×ÓŹ£ÓąæÕ¼äÓėµ±Ē°Ļä×ÓĢå»żµÄ½±ĄųÖµ±ČĄż£¬ŅŌĘŚ×ī´ó»Æ×°ĻäĄūÓĆĀŹ�£

2.4 æÉŠŠŠŌĀė·ÅµćŌ¤²āĶųĀē

ŌŚĄķĻė»·¾³ĻĀµÄ×°Ļä¶Æ×÷µć°üĄØČŻĘ÷ÄŚµÄĖłÓŠĶųøńµć£¬µ«ŌŚŹµ¼ŹĪļĮ÷Ó¦ÓĆ»·¾³ĻĀ£¬´ęŌŚÖŲĮ¦Ō¼Źų�¢±ß½ēŌ¼Źų�¢ĪČ¶ØŠŌŌ¼Źų�¢Åö×²Ō¼ŹųµČŌ¼ŹųĢõ¼ž£¬Ņņ´Ė²ÉČ�µÄ×°Ļä¶Æ×÷±ŲŠė¾ßÓŠŹµ¼ŹŅāŅå�£ŌŚ´ĖĒ°ĢįĻĀŅżČėĘō·¢Ź½Āė·ÅµćĖŃĖ÷²ßĀŌ£¬Ćæ´Ī×°Ļä³É¹¦ŗó£¬øüŠĀČŻĘ÷µÄ×´Ģ¬æÕ¼ä�£ŌŚĢįĒ°Ō¤ÖŖĻĀŅ»øöĻä×ÓµÄ»ł´�ÉĻ£¬æÉŠŠŠŌĀė·ÅµćŌ¤²āĶųĀēøł¾Ż´ĖŹ±ČŻĘ÷×´Ģ¬æÕ¼äøß¶ČĶ¼ŅŌ¼°ĻĀŅ»øöĻä×ÓµÄ³¤æķøßŠÅĻ¢ĖŃĖ÷ĻĀŅ»øöµ½´ļĻä×ÓµÄæÉŠŠŠŌ¶Æ×÷µć£¬Óė²ßĀŌĶųĀēŹä³öµÄĖłÓŠ¶Æ×÷øÅĀŹ¼ÓČØÉś³ÉæÉŠŠŠŌ¶Æ×÷µćøÅĀŹ£¬ÖĒÄÜĢåøł¾ŻŹä³öøÅĀŹĖę»ś²ÉČ�¶Æ×÷�£

ŌŚĻßČżĪ¬×°ĻäĖć·ØµÄŗĖŠÄŌŚÓŚ¶Ōµ±Ē°µ½´ļĻä×ÓĀė·ÅµćµÄŃ�Č�£¬¼ŪÖµĶųĀēŹ¹ÓĆ¼ŪÖµŗÆŹż[V(s)]ĘĄ¹Ą²ßĀŌĶųĀēŹä³ö¶Æ×÷µÄ¼ŪÖµ£¬Öøµ¼²ßĀŌĶųĀēĻĀŅ»²½µÄ¶Æ×÷�£²ßĀŌĶųĀēŹä³öµ±Ē°»·¾³ÖŠĖłÓŠ¶Æ×÷µÄøÅĀŹ·Ö²¼£¬ŌŁ¾¹żæÉŠŠŠŌĀė·ÅµćŌ¤²āĶųĀē¹żĀĖµō²»æÉŠŠµÄ¶Æ×÷µć£¬½«²»æÉŠŠ¶Æ×÷µćµÄøÅĀŹÖĆĪŖ[10-3]£ØĻą½ĻÓŚ0£¬ÓŠĄūÓŚĶųĀēĘ½»¬ŠŌ£©£¬ÖĒÄÜĢåøł¾ŻŹä³öµÄøÅĀŹ·Ö²¼Ėę»ś²ÉČ�¶Æ×÷�£Ćæ·ÅÖĆŅ»øöĻä×Óŗó£¬»·¾³×´Ģ¬øüŠĀŅ»´Ī�£ŗĖŠÄĶųĀēæņ¼ÜČēĶ¼5ĖłŹ¾�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2025\µŚ4ĘŚ\Šģŗē-5.tif>[Āė·Åµć

Ō¤²āĶųĀē][²»æÉŠŠ

Āė·Åµć][øüŠĀ][²ßĀŌĶųĀē][ĖłÓŠĀė·ÅµćøÅĀŹ][æÉŠŠŠŌĀė·ÅµćøÅĀŹ][¶Æ×÷][½±Ąų][»·¾³][¹Ū²ā][¼ŪÖµĶųĀē][V£Øs)][ĻĀŅ»øöĻä×ÓµÄ³ß´ē][øß¶ČĶ¼]

Ķ¼ 5 ŗĖŠÄĶųĀēæņ¼Ü

Fig. 5 The core network architecture

2.5 øÄ½ųµÄPPOĖć·Ø

ĪŖĮĖĢįÉżĖć·ØµÄŹÕĮ²ĖŁ¶ČĶ¬Ź±±ÜĆāŌŚŃµĮ·¹ż³ĢÖŠĻŻČė¾Ö²æ×īÓÅ½ā£¬±¾ĪÄ¶ŌPPOĖć·Ø½ųŠŠøÄ½ų£¬²¢ŅżČėLSTMĶųĀē´¦ĄķÓė»·¾³½»»�Ź±ŹÕ¼ÆµÄŃł±¾ŠÅĻ¢�£LSTMĶųĀēĄūÓĆĘä¼ĒŅäµ�ŌŖ»śÖĘ£¬ÖĒÄÜµŲÉøŃ�³öŠčŅŖ¼ĒŅä»ņŅÅĶüµÄŠÅĻ¢£¬øØÖśPPOĖć·ØøüÓŠŠ§µŲŃ�Ōń×īÓÅ¶Æ×÷£¬²¢ŅŌ»ńµĆ½±ĄųĄ´ÓÅ»Æ²ßĀŌ�£

øł¾ŻĒæ»ÆŃ§Ļ°ČżĪ¬×°ĻäŹäČėµÄ×´Ģ¬ŠÅĻ¢ŅŌ¼°ĻĀŅ»øöµ½´ļĻä×ÓµÄ³¤æķøßŠÅĻ¢£¬ŅŌµ±Ē°»·¾³µÄøß¶ČĶ¼ŗĶĻĀŅ»øöĻä×ÓµÄ³ß´ēŠÅĻ¢×÷ĪŖŹäČė£¬µ±Ē°Ź±æĢÖĒÄÜĢå²ÉČ�µÄ¶Æ×÷øÅĀŹ·Ö²¼×÷ĪŖŹä³ö£¬Ćæ´ĪÖ´ŠŠ¶Æ×÷ŗó»ńµĆ½±ĄųÖµ£¬ĶØ¹ż²ßĀŌĢŻ¶ČøüŠĀĶųĀē²ĪŹżŅŌ¼°×ŌŹŹÓ¦ÓÅ»ÆĖć·ØŃµĮ·µĆµ½×īÖÕÄ£ŠĶ�£øÄ½ųµÄPPOĖć·ØĶųĀē½į¹¹ČēĶ¼6ĖłŹ¾�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2025\µŚ4ĘŚ\Šģŗē-6.tif>[×´Ģ¬ŠÅĻ¢][Źä³ö²ĪŹż][Č«Į¬½Ó²ć][Č«Į¬½Ó²ć][Č«Į¬½Ó²ć][LSTM²ć]

Ķ¼ 6 øÄ½ųµÄPPOĖć·ØĶųĀē½į¹¹

Fig. 6 Improved PPO algorithm network structure

3 ·ĀÕęŹµŃé

Ź¹ÓĆPyTorch´ī½ØĶųĀēÄ£ŠĶ£¬»łÓŚPythonÓļŃŌ±ąĀė£¬´¦ĄķĘ÷ŠĶŗÅĪŖ12th Gen Intel(R) Core(TM) i5-12400KF CPU @2.50 GHz£¬32 GB�£

3.1 ŃµĮ·¼ÆŗĶ²āŹŌ¼Æ

ŌŚ·ĀÕę»·¾³ÖŠ£¬½«ČżĪ¬×°ĻäµÄČŻĘ÷³¤æķøßÉčÖĆĪŖ100 m�Į100 m�Į100 m£¬Éč¼ĘĻä×ÓµÄ³¤æķøß²»³¬¹żČŻĘ÷µÄ1/2£¬Ļä×ÓµÄ³¤æķøßŌŚ10�¢20�¢30�¢40�¢50 mÖ®¼äĖę»śŃ�Č�£¬ÓÉ´ĖæÉÖŖ£¬¹²ÓŠ5�Į5�Į5=125ÖÖ²»Ķ¬³ß´ēµÄĻä×Ó�£ŃµĮ·ŗĶ²āŹŌŠņĮŠ´Ó125ÖÖ³ß´ēµÄĻä×ÓÖŠŃ�ŌńÉś³É�£

Źż¾Ż¼Æ1£ŗ´Ó125ÖÖ³ß´ēµÄĻä×ÓÖŠĖę»ś²ÉŃłÉś³É»õĪļŠņĮŠ£¬·ĄÖ¹ČŻĘ÷²»ĶźČ«Ģī³ä£¬ÉčÖĆŃµĮ·ŗĶ²āŹŌŠņĮŠµÄĻä×Ó×ÜĢå»żĪŖČŻĘ÷Ģå»żµÄ1.2±¶�£ÖŲø´ÉĻŹö²Ł×÷£¬Éś³É 2 000øöÓŠŠ§×°ĻäŠņĮŠ�£

Źż¾Ż¼Æ2£ŗĖę»ś²ÉŃłµÄČ±µćŹĒŠņĮŠµÄ×īÓÅŠŌĪ´ÖŖ�£ÖĒÄÜĢå²»ÄÜĢįĒ°Ō¤ÖŖøĆŠņĮŠŹĒ·ń»įŹµĻÖ³É¹¦°ü×°£Ø100%°ü×°£©£¬ÓĆ´Ė»ł×¼Ą´ŗāĮæ°ü×°ŠŌÄÜ²¢²»æÉææ�£Ņņ´ĖŹ¹ÓĆĒŠøīæā´ę[14]µÄ·½·ØÉś³ÉŠņĮŠ£¬°´Ė³Šņ½«ČŻĘ÷�°ĒŠøī�±ĪŖŌ¤¶ØŅåµÄ125ÖÖĄąŠĶ£¬´ÓøĆĄąŠĶÉś³ÉµÄÓŠŠ§×°ĻäŠņĮŠæÉŅŌĶźĆĄ°ü×°ŗĶÖŲŠĀ·Å»ŲČŻĘ÷£¬ŅŌ´Ė¹¹½Ø1øöÓŠŠ§×°ĻäŠņĮŠ�£ÖŲø´²»Ķ¬µÄ�°ĒŠøī�±²Ł×÷£¬Éś³É 2 000øöÓŠŠ§×°ĻäŠņĮŠ�£

²āŹŌ¼Æ£ŗ·Ö±š´ÓŹż¾Ż¼Æ1�¢Źż¾Ż¼Æ2ÖŠÉś³É50øöÓŠŠ§×°ĻäŠņĮŠ×÷ĪŖ²āŹŌ¼Æ�£¶Ō50øöÓŠŠ§×°ĻäŠņĮŠŅĄ´Ī½ųŠŠ²āŹŌ£¬×°ĻäĖć·ØµÄŠŌÄÜĶØ¹żæÕ¼äĄūÓĆĀŹ£Øspace£©ŗĶČŻĘ÷ÖŠ×°ĻäµÄøöŹż£Ønum£©½ųŠŠĮæ»Æ�£×°Ļä½į¹ūµÄĶ³¼Ę²ÉČ�50øöÓŠŠ§×°ĻäŠņĮŠ×°ĻäŠ§¹ūµÄĘ½¾łÖµ�£

3.2 ²ĪŹżŃ�Č�

ŌŚŹµŃéÖŠ£¬Ź¹ÓĆ¹Ģ¶Ø´óŠ�ĪŖ 128øöŃł±¾µÄŠ�ÅśĮæŃµĮ··½·Ø£¬ĶØ¹ż½«Źż¾Ż¼Æ»®·ÖĪŖ´óŠ�Ņ»ÖĀµÄ×Ó¼Æ½ųŠŠµü´śŃµĮ·£¬ŅŌĘŚŌŚÄ£ŠĶŃµĮ·¹ż³ĢÖŠŹµĻÖøüĪČ¶ØµÄĢŻ¶Č¹Ą¼ĘŗĶøüæģµÄŹÕĮ²ĖŁ¶Č�£Ķ¬Ź±Ź¹ÓĆ¾ßÓŠ256øöŅž²Ųµ�ŌŖµÄLSTMĶųĀēµ�ŌŖ¼ĒĀ¼Ļä×ÓµÄ³ß´ēŠÅĻ¢�£Ź¹ÓĆ Adam ÓÅ»ÆĘ÷ŅŌ[10-3]µÄ³õŹ¼Ń§Ļ°ĀŹŃµĮ·Ä£ŠĶ£¬Ćæ¾¹ż100²½Ė�¼õ0.98±¶�£²Ć¼ō²ßĀŌ³¬²ĪŹżĪŖ 0.2�£·Ö±šÓĆŹż¾Ż¼Æ1ŗĶŹż¾Ż¼Æ2ÖŠµÄ2 000øö×°ĻäŠņĮŠŃµĮ·Ä£ŠĶ�£ÉčÖĆĶųĀē²ĪŹżŗĶ½±ĄųÖµ²ĪŹż£¬Čē±ķ1ĖłŹ¾�£

3.3 ½į¹ū·ÖĪö

±ķ2Õ¹Ź¾ĮĖ²»Ķ¬Ėć·ØŌŚ×°ĻäŠ§Ņę·½ĆęµÄ½į¹ū�£ŌŚŹż¾Ż¼Æ1ÖŠ£¬»łÓŚÄŚ±ŚµćµÄÉī¶ČQĶųĀē£Ødeep Q-network, DQN£©Ėć·ØµÄµ�øöĻä×ÓĘ½¾łĀė·ÅŹ±¼ä½Ļ¶Ģ£¬Ę½¾ł×°ĻäĀŹĪŖ62.8%�£Ęä¶Æ×÷æÕ¼äĪŖĻä×Ó·ÅČėČŻĘ÷ŗóÓėČŻĘ÷±Ś½Ó´�Éś³ÉµÄ½ĒµćµÄ¼ÆŗĻ£¬¶Æ×÷æÕ¼ä½ĻŠ��£»łÓŚæÉŠŠŠŌŃŚĀėµÄDQNĖć·ØĻą½ĻÓŚ»łÓŚÄŚ±ŚµćµÄDQNĖć·Ø£¬¶Æ×÷æÕ¼ä·¶Ī§øü¼Ó¹ć·ŗ£¬ŌŚ×´Ģ¬æÕ¼äČ«¾ÖĖŃĖ÷Āė·Åµć£¬Ļä×ÓĘ½¾łĀė·ÅŹ±¼äøü³¤£¬×°ĻäĀŹĻą½ĻÄŚ±ŚµćĖć·ØĢįÉżĮĖ0.9%�£DQNĖć·ØĆæ´Ī²ÉČ�×īÓÅ¶Æ×÷£¬µ¼ÖĀŌ¤ĘŚ½±Ąų×ÜŗĶøßÓŚŹµ¼ŹÖµ£¬ŌŚŹµ¼Ź²āŹŌÖŠ×°ĻäŠ§¹ū²»ĻŌÖų£»PPOĖć·ØĶØ¹żŹä³ö¶Æ×÷µÄøÅĀŹ·Ö²¼£¬ÖĒÄÜĢåĖę»ś²ÉČ�¶Æ×÷£¬øł¾ŻĢ°ŠÄŌŌņ£¬øÅĀŹ´óµÄ¶Æ×÷øüÓŠ»ś»į±»²ÉČ�£¬Ę½ŗāĮĖĢ½Ė÷ÓėĄūÓĆ£¬Ļą½ĻÓŚDQNĖć·Ø£¬×°ĻäĀŹĢįÉżĮĖ1.9%�£±¾ĪÄĖć·Ø»łÓŚøÄ½ųµÄPPOĖć·ØĶ¬Ź±Ģķ¼ÓæÉŠŠŠŌĀė·ÅµćŌ¤²āÄ£æé£¬Óė»łÓŚæÉŠŠŠŌŃŚĀėµÄŃŻŌ±-ĘĄĀŪ¼ŅĖć·Ø[15]Ļą±Č£¬×°ĻäøöŹżŗĶ×°ĻäĀŹĻŌÖųĢįøß£¬×°ĻäøöŹżŌö¼ÓĮĖ4.9øö£¬×°ĻäĀŹĢįÉżĮĖ15.6%�£

Źż¾Ż¼Æ1ŹĒĖę»ś²ÉŃłµÄĻä×ÓŠņĮŠ£¬Ļä×Ó×ÜĢå»żĖäČ»´óÓŚČŻĘ÷Ģå»ż£¬µ«ÄÜ·ńĶźĆĄ×°ČėČŻĘ÷µÄæÉŠŠŠŌĪ´ÖŖ£¬²»ÄÜŗÜŗĆµŲ×÷ĪŖĖć·ØµÄŗāĮæ±ź×¼£¬Ź¹ÓĆĒŠøīæā´ęµÄŹż¾Ż¼Æ2æÉŅŌ½ĻŗĆ±ÜĆāÕāŅ»ĪŹĢā�£ŌŚŹż¾Ż¼Æ2ÖŠ£¬±¾ĪÄĖć·ØĻą½ĻÓŚ»łÓŚæÉŠŠŠŌŃŚĀėµÄŃŻŌ±-ĘĄĀŪ¼ŅĖć·Ø[15]ÓŠĖłĢįøß£¬Ę½¾ł×°ĻäøöŹżŌö¼ÓĮĖ2.7£¬×°ĻäĀŹĢįÉżĮĖ2.2%£¬Ķ¬Ź±µ�øöĻä×ÓĀė·ÅŹ±¼äÓŠĖłĖõ¶Ģ�£ČżĪ¬×°ĻäŠ§¹ūČēĶ¼7ĖłŹ¾�£

ÉĻŹö½į¹ū±ķĆ÷£¬ŌŚĮ½øö²»Ķ¬µÄŹż¾Ż¼ÆÖŠ£¬Óė»łÓŚÄŚ±ŚµćµÄDQN·½·ØĻą±Č£¬øÄ½ųµÄPPOĖć·ØŌŚČżĪ¬×°Ļä¹ż³ĢÖŠøüÓŠŠ§µŲĄūÓĆĮĖæÕ¼ä×ŹŌ´£¬ĢįøßĮĖĻä×ÓµÄ·ÅÖĆŹżĮæ£¬²¢ĻŌÖųŌö¼ÓĮĖ×°ĻäĀŹ�£ÕāŹĒŅņĪŖ»łÓŚÄŚ±ŚµćµÄĘō·¢Ź½ĖŃĖ÷Ėć·Ø¶Æ×÷æÕ¼ä¼ÆĢ«Š�£¬ŌŚĖć·ØŃµĮ·³õĘŚÓÉÓŚ·ÅÖĆĻä×ÓŹżĮæ½ĻÉŁ£¬Éś³ÉµÄ¶Æ×÷æÕ¼ä¼Æ½ĻŠ�£¬ÖĒÄÜĢåÖ»ÄÜŌŚÓŠĻŽµÄ¶Æ×÷æÕ¼ä¼ÆŃ§Ļ°²ßĀŌ£¬ČŻŅ×ĻŻČė¾Ö²æ×īÓÅ£¬µ¼ÖĀĖć·Ø×°ĻäŠ§ĀŹ½ĻµĶ�£Ļą½ĻÓŚ»łÓŚæÉŠŠŠŌŃŚĀėµÄPPOĖć·ØŗĶ»łÓŚæÉŠŠŠŌŃŚĀėµÄŃŻŌ±-ĘĄĀŪ¼ŅĖć·Ø[15]£¬±¾ĪÄĖć·Øµ�øöĻä×ÓĀė·ÅŹ±¼äÓŠĖłĖõ¶Ģ£¬×°ĻäŹżĮæŗĶ×°ĻäĀŹŅ²ÓŠ½Ļ´óĢįÉż£¬øÄ½ųµÄPPOĖć·ØŌŚČ«¾ÖĖŃĖ÷¶Æ×÷µćµÄ¹ż³ĢÖŠŅżČėLSTMĶųĀēÓÅĻČŃ§Ļ°½±ĄųÖµ´óµÄŃł±¾£¬±ÜĆāĻŻČė¾Ö²æ×īÓÅ�£×ŪÉĻ£¬±¾ĪÄĖć·ØŌŚ²»Ķ¬Źż¾Ż¼Æ¶¼ÓŠøüŗĆµÄŹŹÓ¦ÄÜĮ¦£¬ŌŚĘ½¾łĀė·ÅŹ±¼ä�¢×°ĻäĀŹŗĶ×°ĻäøöŹżÉĻ¶¼ÓŠ½Ļ´óøÄÉĘ�£

4 ½į ĀŪ

Õė¶ŌČżĪ¬×°ĻäĪŹĢā£¬±¾ĪÄĶØ¹żøÄ½ųPPOĖć·ØµÄĒæ»ÆŃ§Ļ°·½·Ø£¬ÓĆLSTMĶųĀēĢę»»PPOĖć·ØÉń¾ĶųĀē½į¹¹ÖŠµÄČ«Į¬½Ó²ć£¬×Ø×¢Ń§Ļ°øß½±ĄųÖµµÄŃł±¾£¬øüæģĖŁµŲÓÅ»ÆÄ£ŠĶ�£ĪŖ¼ņ»ÆĪŹĢāµÄø´ŌÓŠŌ£¬½«ČżĪ¬æÕ¼ä×Ŗ»»³É´ųøß¶ČÖµµÄ¶žĪ¬Ę½Ćę�£Ķ¬Ź±ŅżČėæÉŠŠŠŌĀė·ÅµćŌ¤²āĶųĀēĖŃĖ÷¶Æ×÷µć£¬½įŗĻ×°ĻäĢå»żŗĶ×ī´óŹ£ÓąæÕ¼äÉčÖĆ½±ĄųŗÆŹż�£ŹµŃéÖ¤Ć÷£¬±¾ĪÄĖć·ØĖõ¶ĢĮĖĒæ»ÆŃ§Ļ°Ó¦ÓĆÓŚ×°Ļä¹ż³ĢÖŠ¶Æ×÷½ŚµćµÄĆ¤ÄæĖŃĖ÷Ź±¼ä£¬ŌŚ×°ĻäĀŹŅŌ¼°×°ĻäøöŹżÉĻ¶¼ÓŠ½Ļ´óĢįÉż£¬ÄÜ¹»ŹµĻÖŌŚĻßČżĪ¬×°Ļä�£