基于自然梯度Actor-Critic强化学习的卫星边缘网络服务功能链部署方法高媛*方海赵扬杨旭(西安空间无线电技术研究所西安710100)摘要:鉴于低轨卫星网络的高动态性和空间环境的复杂性,如何提供在线的快速服务功能链(SFC)部署方法,成为低轨卫星边缘网络中亟待解决的问题。综合考虑节点和链路容量等约束以及服务迁移等切换代价,针对部署多接入边缘计算(MEC)服务器的低轨卫星网络,该文提出一种基于自然梯度参与者-评价者(Actor-Critic)强化学习架构的SFC在线部署方法。首先,针对低轨卫星网络的环境高动态性,对实时容量约束和迁移代价进行建模;其次,引入马尔可夫决策过程(MDP),综合考虑服务迁移和卫星坐标等因素,描述低轨卫星网络的状态转移过程;最后,提出一种基于自然梯度的在线SFC部署强化学习方法,不同于标准梯度,自然梯度法进行模型层面的更新,以避免神经网络的训练陷入局部最优解。仿真结果表明,该文方法可逼近全局最优解,并在端到端时延性能上优于基于标准梯度的强化学习部署方法。关键词:服务功能链;强化学习;低轨卫星网络;服务迁移中图分类号:TN927.2文献标识码:A文章编号:1009-5896(2023)02-0455-09DOI:10.11999/JEIT211384ASatelliteEdgeNetworkServiceFunctionChainDeploymentMethodBasedonNaturalGradientActor-CriticReinforcementLearningGAOYuanFANGHaiZHAOYangYANGXu(Xi’anInstituteofSpaceRadioTechnology,Xi’an710100,China)Abstract:Inviewofthehighdynamicsinlow-orbitsatellitenetworksandcomplexityofspaceenvironment,theonlineprovisioningofServiceFunctionChain(SFC)hasbecomethekeyprobleminsatelliteedgenetworks.Consideringconstraintsinnodeandlinkcapacityandswitchingcostsinservicemigration,anonlineSFCdeploymentmethodbasedonnaturalgradientactor-criticreinforcementlearningisproposedforlow-orbitsatellitesequippedwithMulti-accessEdgeComputing(MEC)servers.Firstly,thereal-timecapacityconstraintsandmigrationcostsareformulatedfollowingthehighenvironmentaldynamicsinlow-orbitsatellitenetworks,respectively.Secondly,involvingthemigrationcostsandsatellitecoordinates,MarkovDecisionProcess(MDP)isintroducedtodescribethestatetransitioninlow-orbitsatellitenetworks.Finally,anaturalgradientmethod-basedonlineSFCdeploymentmethodisproposed,whichfacilitatesthe...