引用格式:胡致远,王征,杨洋,等.改进PPO算法的AUV路径规划研究[J].电光与控制,2023,30(1):87⁃91,102.HUZY,WANGZ,YANGY,etal.OptimizedPPOalgorithmbasedAUVpathplanning[J].ElectronicsOptics&Control,2023,30(1):87⁃91,102.改进PPO算法的AUV路径规划研究胡致远1,2,王征1,杨洋1,尹洋1(1.海军工程大学,武汉430000;2.中国人民解放军91867部队,浙江义乌322000)摘要:面对复杂的三维环境,传统的路径规划算法计算复杂度极度增加,失去了原有的效果。深度强化学习可以不依赖于精确的环境模型,其总体效率远高于传统算法。针对三维环境下的AUV路径规划问题,在建立避碰探测模型和gym仿真环境的基础上,改进网络结构的PPO算法设计及模型训练。通过仿真实验,验证了算法的准确率与有效性。关键词:AUV;路径规划;近端策略优化;深度强化学习中图分类号:TP24文献标志码:Adoi:10.3969/j.issn.1671-637X.2023.01.015OptimizedPPOAlgorithmBasedAUVPathPlanningHUZhiyuan1,2,WANGZheng1,YANGYang1,YINYang1(1.NavalUniversityofEngineering,Wuhan430000,China;2.No.91867UnitofPLA,Yiwu322000,China)Abstract:Facingthecomplexthree⁃dimensionalenvironment,thecomputationalcomplexityofthetraditionalpathplanningalgorithmisextremelyincreased,andtheoriginaleffectislost.Reinforcementlearningcanbeindependentoftheaccurateenvironmentmodel,anditsoverallefficiencyismuchhigherthanthatofthetraditionalalgorithms.AimingatthepathplanningproblemofAUVi...