基于迁移深度强化学习的低轨卫星跳波束资源分配方案陈前斌麻世庆段瑞吉唐伦梁承超*(重庆邮电大学通信与信息工程学院重庆400065)摘要:针对低轨(LEO)卫星场景下,传统资源分配方案容易造成特定小区资源分配无法满足需求的问题,该文提出一种基于迁移深度强化学习(TDRL)的低轨卫星跳波束资源分配方案。首先,该方案联合星上缓冲信息、业务到达情况和信道状态,以最小化卫星上数据包平均时延为目标,建立支持跳波束技术的低轨卫星资源分配优化模型。其次,针对低轨卫星网络的动态多变性,该文考虑动态随机变化的通信资源和通信需求,采用深度Q网络(DQN)算法利用神经网络作为非线性近似函数。进一步,为实现并加速深度强化学习(DRL)算法在其他目标任务中的收敛过程,该文引入迁移学习(TL)概念,利用源卫星学习的调度任务快速寻找目标卫星的波束调度和功率分配策略。仿真结果表明,该文所提出的算法能够优化卫星服务过程中的时隙分配,减少数据包的平均传输时延,并有效提高系统的吞吐量和资源利用效率。关键词:低轨卫星网络;跳波束;资源分配;深度强化学习;迁移学习中图分类号:TN927文献标识码:A文章编号:1009-5896(2023)02-0407-11DOI:10.11999/JEIT211457ANovelBeamHoppingResourceAllocationSchemeofLowEarthOrbitSatelliteBasedonTransferDeepReinforcementLearningCHENQianbinMAShiqingDUANRuijiTANGLunLIANGChengchao(SchoolofCommunicationandInformationEngineering,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China)Abstract:IntheLowEarthOrbit(LEO)scenario,traditionalresourceallocationschemescancauseunbalancedresourceallocationinspecificcells.AbeamhoppingresourceallocationschemeofLEObasedonTransferDeepReinforcementLearning(TDRL)isproposedinthispaper.Firstly,consideringon-boardbufferinformation,servicearrivalstatusandchannelstatus,aLEOresourceallocationoptimizationmodelthatsupportsbeamhoppingtechnologyisproposedwiththegoalofminimizingtheaveragedelayofdatapackets.Secondly,inviewofthedynamicvariabilityoftheLEOnetwork,thedynamicandrandomchangeofcommunicationresourcesandrequirementsareconsidered,thentheDeepQNetwork(DQN)algorithmisadopted,anditsneuralnetworkisusedasanonlinearapproximationfunction.Further,torealizeandacceleratetheconvergenceprocess...