2023年8月第19卷第3期系统仿真技术SystemSimulationTechnologyAug.,2023Vol.19,No.3基于强化学习的无人机集群动态任务规划算法李明哲1,马琼敏2,3*,伍国华1(1.中南大学交通运输工程学院,湖南长沙410075;2.军事科学院系统工程研究院,北京100101;3.复杂系统仿真总体重点实验室,北京,100101)摘要:针对无人机集群动态任务规划问题,本研究提出一种基于强化学习的无人机集群动态任务规划方法。该方法将无人机集群动态任务规划划分为任务分配和路径规划2层进行求解,首先通过任务分配得到各个无人机所负责的任务集合,然后在各个任务集合内通过路径规划得到无人机的飞行路径。在任务分配层面,根据大规模无人机集群任务分配存在的规模性和动态性特点,设计基于注意力机制的强化学习算法对其进行求解,该算法在深度强化学习算法的基础上引入注意力机制网络,使得算法能够高效处理无人机数目和任务数动态变化。在路径规划层面,采用基于Gurobi的最优化算法求解最优飞行路径,保证强化学习训练效果与求解结果质量。实验结果表明,在多种规模的动态任务规划中,本研究所提出的算法任务完成度较对比算法提升26.9%~59.9%,方案变化量较对比算法减少12.8%~19.8%,且求解时间在1s以内。关键词:无人机集群;动态任务规划;强化学习;注意力机制DynamicTaskPlanningAlgorithmforUAVSwarmBasedonReinforcementLearningLIMingzhe1,MAQiongmin2,3*,WUGuohua1(1.SchoolofTransportationEngineering,CentralSouthUniversity,Changsha410075,China;2.InstituteofSystemsEngineering,MilitaryAcademyofSciences,Beijing100101,China;3.NationalKeyLaboratoryforComplexSystemsSimulation,Beijing100101,China)Abstract:AimingattheproblemofUAVswarmdynamictaskplanning,thispaperproposesamethodofUAVswarmdynamictaskplanningbasedonreinforcementlearning.Inthismethod,theUAVswarmdynamictaskplanningproblemisdividedintotwolayers:taskassignmentandpathplanning.First,thetasksetofeachUAVisobtainedthroughtaskassignment,andthentheflightpathoftheUAVisobtainedthroughpathplanningwithineachtaskset.Atthetaskassignmentlevel,accordingtothescaleanddynamiccharacteristicsoftaskassignmentinlarge-scaleUAVswarms,areinforcementlearningalgorithmbasedonattentionmechanismisdesignedtosolveit.Thisalgorithmintroduces...