分享
基于相关熵诱导度量的近端策略优化算法.pdf
下载文档

ID:3118870

大小:3.75MB

页数:7页

格式:PDF

时间:2024-01-21

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 相关 诱导 度量 策略 优化 算法
文章编号5896(2023)03-0437-07May2023Jourmnal of Jilin UniversitlnformationScienceEdition)2023年5月No.3Vol.41吉林大学生信息科学版)第3期第41卷基于相关熵诱导度量的近端策略优化算法张会珍,王强(东北石油大学电气信息工程学院,黑龙江大庆16 3318)摘要:在深度强化学习算法中,近端策略优化算法PPO(Pr o x i m a l Po l i c y O p t i m i z a t i o n)在许多实验任务中表现优异,但具有自适应KL(K u l l b a c k-Le i b l e r)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(Co r r e n t r o p y In d u c e d M e t r i c-PPO)。该算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响。通过OpenAIgym实验测试表明,相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励,收敛速度在不同环境均有50 0 110 0 回合左右的加快,同时也具有良好的鲁棒性。关键词:KL散度;近端策略优化(PPO);相关熵诱导度量(CIM);替代目标;深度强化学习中图分类号:TP273文献标志码:AProximal Policy Optimization Algorithm Based on Correntropy Induced MetricZHANG Huizhen,WANG Qiang(School of Electrical and Informatioin Engineering,Northeast Pertroleum University,Daqing 163318,China)Abstract:In the deep Reinforcement Learning,the PPO(Proximal Policy Optimization)performs very wellin many experimental tasks.However,KL(Kullback-Leibler)-PPO with adaptive KL divergence affects theupdate efficiency of KL-PPO strategy because of its asymmetry.In order to solve the negative impact of thisasymmetry,Proximal Policy Optimization algorithm based on CIM(Correntropy Induced Metric)is proposedcharacterize the difference between the old and new strategies,update the policies more accurately,andthen the experimental test of OpenAI gym shows that compared with the mainstream near end strategyoptimization algorithms clip PPO and KL PPO,the proposed algorithm can obtain more than 50%reward,and the convergence speed is accelerated by about 500 1 100 episodes in different environments.And italso has good robustness.Key words:kullback-leibler(KL)divergence;proximal policy optimization(PPO);correntropy induced metric(CIM);alternative target;deep reinforcement learning0引言近端策略优化是一种无模型的深度强化学习算法,由于其适应能力强,现已成为OpenAI2测试深度强化学习性能的默认基础算法,并因其在OpenAIgym测试平台良好表现,成为近年来最流行的强化学习(RL:Re i n f o r c e me n t Le a r n i n g)算法之一。同时吸引了众多学者对其进行研究3。PPO(ProximalPolicyOptimization)算法有两种形式:一种是使用Clip剪辑函数,即Clip-PPO算法,该方法首次由Vanvuchelen等4 在近端策略优化(PPO与剪辑)中使用;另一种是具有自适应惩罚系数的收稿日期:2 0 2 2-0 5-14基金项目:黑龙江省自然科学基金资助项目(F2018004)作者简介:张会珍(19 7 9 一),女,天津人,东北石油大学副教授,硕士生导师,主要从事复杂系统的鲁棒控制研究,(Tel)86-454-6504062(E-mail)zhuizhen2002 。第41卷吉林大学报(信息科学版)438KL(Kullback-Leibler)散度的PPO,即KL-PPO5。具有自适应散度的KL-PPO存在策略更新不稳定和收敛速度慢及随着输人状态维数增加而导致鲁棒性变差的问题。为加快收敛速率,别桐等6 在KL-PPO算法中加入了一种新设计的奖励函数,其对智能体的每步动作都给予一个立即的奖励,其目的是使智能体在这种立即的奖励下能迅速学习更可靠的动作,提升算法训练时的收敛速度。申怡等7 在算法中添加了同步更新的经验池,保存采样的优秀样本经验,并利用该经验池8 学习到的动作策略网络对动作进行快速选择,这不仅提高了样本利用率,还保证在训练网络模型时智能体能快速有效地学习。目前对KL-PPO算法的研究在其收敛速率方面均有显著提高,但该算法还存在KL散度不对称、不满足度量属性等问题,从而导致策略更新不稳定以及高维状态鲁棒性差的问题。关于描述两数据特征之间的相似性问题,Chen 等9 提出了一种称为相关熵(Correntropy)的相似度量。李辉等10 利用相关熵研究齿轮故障特征取得了一定进展,这表明相关熵和数据特征间研究是有意义的。为了将相关熵扩展到度量的指标,Liu等11 进一步提出了相关熵诱导度量,其优势在于CIM(Correntropy Induced Metric)可以满足度量的属性,并且更适合描述不同概率分布之间的相似性。笔者将相关诱导度量引人KL-PPO算法中,解决散度不对称所带来的缺陷。其将原有的KL-PPO中的KL散度用相关诱导度量替代,用以表征新旧策略的差异,从根本上解决KL散度不对称性导致的收敛速度慢和鲁棒性差的问题;相关熵诱导度量设置相对容易计算的核函数,改善原算法存在大量散度复杂运算的问题1近端策略优化算法近端策略优化算法PPO是一种基于演员-评论家(Actor-Critic)架构的强化学习算法12】,其不仅有良好的性能(尤其是对连续控制问题),同时相较于前置的强化学习方法更加易于实现。笔者针对Actor网络的策略更新中,KL散度限制更新步长会产生不稳定问题,对策略更新的优化目标函数进行一定的改进。1.1近端策略优化算法框架如图1所示,近端策略优化算法在前置框架中加人了重要性采样13 机制复用历史数据,提高了样本利用率,同时限制了Actor网络中采样14 和训练网络的分布差异,并采用自适应散度形式的KL-PPO,通过KL散度限制了更新策略中的步长,以确保其更新稳定性。近端策略优化算法中的网络结构分为演员(Actor)和评论家(Critic)模块。演员模块Actor网络的更新采用策略梯度(PolicyGradient)方式,同时Actor网络在每次进行策略更新时,需要将其参数拷贝到旧Actor网络中进行存储。KL-PPO的核心是在Actor网络更新目标函数中,用KL散度表征新旧策略的差异并且作为更新目标中的惩罚项。Actor网络输出动作策略与环境交互,得到奖励R和状态S,并将这些信息存储于经验池中;评论家模块Critic网络主要采用时序差分误差(TD-error:T e mp o r a l D i f f e r e n c eerror)的方式更新,其主要目的是评估Actor网络中策略的价值。随机动作采样动作A期望方差状态奖状态SActor环境励终止网络I旧Actor经验池网络(状态S、奖励R)最小化采样Critic优势函数GAE反向更网络新权重图1近端策略优化算法Fig.1Proximal policy optimization自适应散度KL-PPO算法中Actor网络策略更新的优化目标函数为Lk()=maximize ET(a,Is,)A-K,(a,s,),Tola(a,s,),(1)Told(a,/s,)其中T。为随机策略,为重要性权重,A为优势价值函数,E,为t时刻采样求均值,为自适Told(a,Is,)应系数,K。(a,l s,),T o l a(a,l s,)为新旧策略之间的散度。散度大标志着新旧策略差距比较大,即更新的步长较大,式(1)中表示减去的这项作为较大的惩罚,最后的期望奖励会变小;反之,散度小新旧(2)X定义为张会珍,基于相关诱导度量的近立策略优化算法第3期439策略差别小,更新步长较小,减去的这项作为较小的惩罚。为更加平稳地更新,加人自适应系数,如果KL散度变大,则系数将在下一次迭代中减小;如果KL散度变小,则系数将在下一次迭代中加大。从而使惩罚在迭代中趋于平稳,每轮更新的步长将会得到很好的控制。1.2KL-PPO)算法的缺陷近端策略优化是对代理目标的优化,目的是使代理目标L(含有策略的奖励函数)最大化,以确保折扣奖励最后可以趋于最大值。然而,该算法也存在一些问题,在自适应散度KL-PPO中引人自适应惩罚因子将导致更新效率较低。同时为避免每次策略更新时的波动,引人KL散度作为约束,使其更新相对平稳。从统计学的角度看,KL散度15 是在新空间定义的两个数据之间相似性的函数。然而,KL散度其本质上不是一个度量,因其是一个非对称函数,不满足度量的对称性。同时,KL散度的不对称,也不服从度量的三角形不等式性,在正态分布的情况下,这种不对称性会随着均值和方差的不同而增加。综上分析,自适应KL散度形式的KL-PPO算法在近端策略优化中的具体缺陷总结如下。1)K L散度具有不对称性,其容易将策略更新到其他策略而不是拥有较大奖励EA,的最优策略,降低了更新效率,特别是在离散的作用空间,这种不良影响会更大。同时当维数增加时,不对称的影响也会愈发增大,即具有高维空间的不稳定性。2)K L-PPO 算法内部网络更新存在计算复杂度过高的问题。因为KL散度计算形式本身较为复杂,这表明在更新的每步中,都必须重新计算KL散度。求解过程中散度的复杂计算,严重影响算法的收敛速度。自适应KL散度KL-PPO中引入了新的惩罚因子,实际训练时很难确定值,这都会影响训练的稳定性。2基于相关炳诱导度量的近端策略优化算法笔者对度量定理进行分析,并引入对概率分布计算的相关熵理论,同时引人相关熵诱导度量,然后将其应用于近端策略优化算法中进行改善,解决KL散度由于不对称导致的策略更新不稳定以及鲁棒性差的问题。2.1相关炳及相关炳诱导度量寸两个随机变量x和之间的相关熵(广义相关函数(x,y)=Ek。(x-y),V.(x,y)=EK。其中E为期望,k()为满足Mercer条件的核函数,为核函数的核长。相关的性质随核函数的变化而变化,一个好的核函数会得到很好的结果只寸期至,件的核困安为核困数的核长。相关熵的性质随核函数的变化而变化,一个好的核函数会得到很好的结果。相关焰16 本质也不是一个合理的度量指标,因为当x=时,V。(x,y)0,不满足正定性。为将相关熵扩展到度量指标,Liu等17 提出了相关熵诱导度量(CIM,d c m),如下:dclm(x,y)=(V.(0)-V.(x,y)/2(3)显然,相关熵诱导度量具有如下特性:1)相关熵诱导度量是正定的,可以有界。而KL散度是无界的。2)相关诱导度量满足对称性。对任何种类的核函数,相关熵诱导度量都满足三角不等式,即dcim(x,y)dcM,(x,z)+dcm,(z,y)。基于相关炳诱导度量的近端策略优化算法笔者将讨论如何通过引入广义相关熵改进KL-PPO算法,以解决其KL散度不对称带来的缺陷。相关诱导度量是一个度量,与无界的KL散度相比,相关熵诱导度量总是有界的,而且比KL散度更加平稳。相关熵诱导度量具有优异的鲁棒性,特别是在两个概率分布距离的评估中。其不仅可以处理高斯第41卷吉林大学学报(信息科学版)440噪声的分布,还可以处理非高斯噪声的分布。近端策略优化中的策略是一个概率分布,而KL散度是对不同分布度量,相关熵诱导度量也是如此。然而,KL散度的不对称性和重计算使策略优化方法的性能较差。因此,笔者在自适应散度KL-PPO中使用相关熵机制代替自适应散度参数调整机制,将相关熵诱导度量代替自适应KL散度,以此作为衡量新策略与旧策略之间距离的指标。为消除不对称惩罚的影响,避免KL-PPO中对散度进行大量的复杂计算,在相关熵内部选择了相对容易计算的核函数三角核函数min1-|二对KL-PPO中自适应参数,因为相关熵诱导度量具有足够的鲁棒性,不用引人每次迭代都需要自我调整的自适应参数,将其改为一个基于任务的常数并默认设置为1。如果当前任务不希望在每次更新中新策略和旧策略之间的差异太大,则将设置较大的数如2 以上,加大惩罚项的影响。如果当前任务允许两个策略在一定范围内有差异,则将设置较小的数如0.5以下,减少惩罚项的影响。然后利用随机梯度下降(SGD:St o c h a s t i c G r a d i e n t D e s c e n t)【18 优化策略。综上所述,笔者在描述新旧策略差异的KL散度部分进行了改进,并提出了基于相关熵诱导度量的近端策略优化算法(CIM-PPO):LcIM(e)=maximize E,TTe(a,-adelm,m,(a.s,),Tola(a s,)。(4)(a与自适应散度的KL-PPO相比,CIM-PPO在优化目标函数中使用相关熵诱导度量作为替代目标函数的惩罚。相关熵诱导度量的引入,解决了自适应KL散度形式的KL-PPO算法在近端策略优化中的的几个缺陷:1)相关摘诱导度量选择对称核函数后,可以是一个度量,从本质上解决了KL散度不对称性在KL-PPO中策略更新时容易波动及鲁棒性差的缺陷;2)相关诱导度量可以选择相对容易计算的核函数,避免了KL形式计算复杂度过高的问题,从而大大地弥补了KL-PPO训练速度过慢的问题由于相关熵诱导度量具有对称性和足够的鲁棒性,不需要在CIM-PPO中加人自适应调整机制,解决了KL-PPO中在训练时难以找到自适应惩罚因子的问题。CIM-PPO算法伪代码如下:1)初始化 To2)根据任务,选择惩罚控制参数3)选择其是估计还是设置默认为14)f o r i=0,1,2,直到收敛5)通过小批量随机梯度下降SCD优化后续的估计:6)设置=1或通过Mercer定律估计7)计算 delmg(Ti,T)=(V,(0)-V。(T i,T)1/28)Ti+1=arg max Ewi-A-adclma(Ti,)TTTTi9)T=T;+110)end for3仿真通过设计实验比较笔者改进的算法CIM-PPO与主流PPO算法Clip-PPO和KL-PPO之间的效率。采用OpenAI开发的gym作为基本实验环境,并且从中选择4个基本的连续任务Pendulum-vO(倒立摆)(见图2)、LunarLanderContinuous-v2(月球着陆器连续版)(见图3)、BipedalWalker-v3(双足机器人)(见图4)和BipedalWalkerHardcore-v3(双足机器人硬核版)(见图5)。其中CIM-PPO、K L-PPO 和Clip-PPO的相关参数设置如表2 所示。张会珍,基十相关橘诱导度量的近立端策略优化算法第3 期441图2倒立摆环境图Fig.2Pendulum-vo图4双足机器人环境图Fig.4Bipedal walker-v3图3月球着陆器连续版环境图Fig.3Lunar lander continuous-v2图5双足机器人硬核版环境图Fig.5Bipedal walker hardcore-v3以上4个任务中,动作空间的维度从1增加到4,相应的状态空间从3增加到2 4,每个任务环境的具体动作和状态空间维度如表1所示。这些任务在构建策略过程中的正态分布方差在0.11之间,这使KL散度的不对称性变得明显。从而证实了笔者上述分析得出的随着维数的增加,KL散度的不对称性就会更加明显,自适应散度KL-PPO算法的性能就会下降的结论。表1实验任务相关信息Tab.1Experimental task related information任务名称动作空间维度状态空间维度Pendulum-vo(倒立摆)13LunarLanderContinuous-v2(月球着陆器连续版)28BipedalWalker-v3(双足机器人)424BipedalWalkerHardcore-v3(双足机器人硬核版)424为评估CIM-PPO的性能,笔者分析了4个任务在训练过程中回合数与获得的回合奖励回报之间的关系,给出了CIM-PPO、Cl i p-PPO、K L-PPO 3种算法的学习曲线。3种算法的实验参数设置如表2 所示,学习曲线如图6 a图6 d所示。表2实验参数设置Tab.2Experimental parameter setting算法名称KL-PPOClip-PPOCIM-PPO算法名称KL-PPOClip-PPOCIM-PPOdar0.1无无Actor网络的学习率0.000 10.000 10.000 1初始化0.5无无Critic网络的学习率0.000 20.000 20.000 28无0.2无批量大小323232无无1Actor的更新步长101010无0.9无Critic的更新步长101010图6 是算法在不同任务实验中累计奖励回报与训练回合数的实验结果。横坐标为该算法的训练回合数,纵坐标为累计奖励回报值。累计奖励回报值越高表示强化学习任务完成的效果越好,反之表示学习效果越差。学习曲线趋于平稳且不再有剧烈波动,表示智能体最终学习到了执行该任务的能力,到达平稳状态训练的回合数为收敛时间,回合数越少,则训练的越快,算法收敛越快,反之则收敛越慢。442第41卷吉林大学学报(信息科学版)CIM-PPOCIM-PPO0Clip-PPOClip-PPOKL-PPOKL-PPO4_8-10-12-15-1605101520253005101520253035Episodex102Episodex102a Pendulum-vo(倒立摆)bLunarlandercontinuous-v2(月球着陆器连续版)CIM-PPOClip-PPOKL-PPO00CIM-PPOClip-PPO-5KL-PPO-5-10-10-15-1502468100246810Episodex103Episodex103cBipedalwalker-v3(双足机器人)dBipedalwalkerhardcore-v3(双足机器人硬核版)图6算法在不同任务实验中累计奖励回报与训练回合数的实验结果Fig.6Experimental results of cumulative reward and training rounds ofthe algorithm in different task experiments图6 a图6 d表明,在学习速率方面,CIM-PPO至少可以达到与Clip-PPO相同的效果,有时优于Clip-PPO,但总会优于KL-PPO。在倒立摆任务中,最初,所有3种算法都可以达到几乎相同的效果,但KL-PPO在大约12 0 O回合左右时崩溃,Clip-PPO趋于稳定,尽管CIM-PPO波动在一个范围内,但其最终奖励回报值仍然高于Clip-PPO。在连续任务中,Clip-PPO和KL-PPO都经历了奖励回报值迅速升然后又骤降到原始奖励回报值的过程,但CIM-PPO的奖励回报值增加后仍能保持在一个较高的水平,这表明CIM-PPO具有良好的鲁棒性。改进算法在后两个任务中表现相对更好。从图6 c和图6 d可看到,改进算法的奖励回报值随着训练次数的增加而稳步上升,最后达到其稳定极限。4结语笔者基于KL-PPO算法,研究了KL-PPO中KL散度的不对称性及其对鲁棒性和学习效率的影响。随着策略维度的增加,KL散度不对称性带来的影响会增大。笔者在KL-PPO中引人了相关熵,并使用相关熵诱导度量CIM替代衡量旧策略与新策略之间差异的KL散度。实验结果表明,改进后的CIM-PPO算法在训练过程中的学习速率以及训练后的奖励回报值和鲁棒性均有显著提高。参考文献:【1 秦智慧,李宁,刘晓彤,等无模型强化学习研究综述J计算机科学,2 0 2 1,48(3):18 0-18 7.QIN Z H,LI N,LIU X T,et al.A Review of Model Free Reinforcement Learning JJ.Computer Science,2021,48(3):180-187.2 FINNIE-ANSLEY J,DENNY P,BECKER B A,et al.The Robots Are Coming:Exploring the Implications of OpenAI Codexon Introductory Programming C/Australasian Computing Education Conference.New York,USA:Association forComputing Machinery,2022:10-19.3贝世之,严嘉钰,章乐基于PPO算法的旅行商问题求解模型J.北京电子科技学院学报,2 0 2 1,2 9(4):8 8-9 5.BEI S Z,YAN J Y,ZHANG L.Solving Model of Traveling Salesman Problem Based on PPO Algorithm J.Journal ofBeijing Institute of Electronic Science and Technology,2021,29(4):88-95.4 JVANVUCHELEN N,GIJSBRECHTS J,BOUTE R.Use of Proximal Policy Optimization for the Joint Replenishment Problem责任编辑:张洁)张会珍,等基于相关熵诱导度量的近端策略优化算法第3期443J.Computers in Industry,2020,119:103239.5 JCHENG Y,HUANG L,WANG X.Authentic Boundary Proximal Policy Optimization J.IEEE Transactions on Cybernetics,2021,52(9):9428-9438.6 别桐,朱晓庆,付煜,等基于Safe-PPO算法的安全优先路径规划方法J/OL北京航空航天大学学报:1-15,2 0 2 22022-06-07.https:/doi.org/10.13700/j.bh.1001-5965.2021.0580.BIE T,ZHU X Q,FU Y,et al.Safety First Path Planning Method Based on Safe PPO Algorithm J/OL.Journal of BeijingUniversity of Aeronautics and Astronautics:1-15,2022 2022-06-07.https:/doi.org/10.13700/j.bh.1001-5965.2021.0580.7 申怡,刘全基于自指导动作选择的近端策略优化算法J计算机科学,2 0 2 1,48(12):2 9 7-30 3.SHEN Y,LIU Q.Proximal Policy Optimization Algorithm Based on Self Guided Action Selection JJ.Computer Science,2021,48(12):297-303.【8 张建行,刘全。基于情节经验回放的深度确定性策略梯度方法J计算机科学,2 0 2 1,48(10):37 43.ZHANG J H,LIU Q.Deep Deterministic Policy Gradient Method Based on Plot Experience Playback J.Computer Science,2021,48(10):37-43.9JCHEN B,LIU X,ZHAO H,et al.Maximum Correntropy Kalman Filter J.Automatica,2017,76:70-77.10李辉,郝如江。相关熵和双谱分析齿轮故障诊断研究J振动工程学报,2 0 2 1,34(5):10 7 6-10 8 4.LI H,HAO R J.Research on Gear Fault Diagnosis Based on Correlation Entropy and Bispectrum Analysis JJ.Journal ofVibration Engineering,2021,34(5):1076-1084.11 JLIU W,POKHAREL P P,PRINCIPE J C.Correntropy:Properties and Applications in Non-Gaussian Signal Processing J.IEEE Transactions on Signal Processing,2007,55(11):5286-5298.12杜嘻嘻,程华,房一泉。基于优势演员-评论家算法的强化自动摘要模型J计算机应用,2 0 2 1,41(3):6 9 9-7 0 5.DU X X,CHENG H,FNAG Y Q.Enhanced Automatic Summarization Model Based on Dominant Actor-Critic Algorithm J.Computer Application,2021,41(3):699-705.13樊龙涛,张森,普杰信,等基于异环境重要性采样的增强DDRQN网络J火力与指挥控制,2 0 2 0,45(1):47-52.FAN L T,ZHANG S,PU J X,et al.Enhanced DDRQN Network Based on Heterogeneous Environment Importance SamplingJ.Fire Control and Command,2020,45(1):47-52.14周江卫,关亚兵,白万民,等一种二次采样的强化学习方法J西安工业大学学报,2 0 2 1,41(3):345-351.ZHOU J W,GUAN Y B,BAI W M,et al.A Reinforcement Learning Method Based on Secondary Sampling JJ.Journal ofXian University of Technology,2021,41(3):345-351.15孙凤霄,孙仁诚基于KL散度的波形对齐算法J信息技术与信息化,2 0 2 1(5):10 3-10 5.SUN F X,SUN R C.Waveform Alignment Algorithm Based on KL Divergence J.Information Technology andInformatization,2021(5):103-105.16余沁茹,卢桂馥一种基于最大相关熵和局部约束的协同表示分类器J智能科学与技术学报,2 0 2 1,3(3):334-341.YU Q R,LU G F.A Cooperative Representation Classifier Based on Maximum Correlation Entropy and Local Constraints J.Journal of Intelligent Science and Technology,2021,3(3):334-341.17JLIU W,POKHAREL P P,PRINCIPE J C.Correntropy:Properties and Applications in Non-Gaussian Signal Processing J.IEEE Transactions on Signal Processing,2007,55(11):5286-5298.18朱志广,王永.基于高斯噪声扰动的随机梯度法的设计与应用J电子技术,2 0 2 1,50(8):4-7.ZHU Z G,WANG Y.Design and Application of Random Gradient Method Based on Gaussian Noise Disturbance J.Electronic Technique,2021,50(8):4-7.

此文档下载收益归作者所有

下载文档
收起
展开