基于多智能体深度强化学习的D2D通信资源联合分配方法邓炳光①徐成义①张泰②孙远欣③张蔺④裴二荣*①①(重庆邮电大学通信与信息工程学院重庆400065)②(国网四川省电力公司电力科学研究院成都610093)③(重庆金美通信有限公司重庆400035)④(电子科技大学通信抗干扰技术国家级重点实验室成都611731)摘要:设备对设备(D2D)通信作为一种短距离通信技术,能够极大地减轻蜂窝基站的负载压力和提高频谱利用率。然而将D2D直接部署在授权频段或者免授权频段必然导致与现有用户的严重干扰。当前联合部署在授权和免授权频段的D2D通信的资源分配通常被建模为混合整数非线性约束的组合优化问题,传统优化方法难以解决。针对这个挑战性问题,该文提出一种基于多智能体深度强化学习的D2D通信资源联合分配方法。在该算法中,将蜂窝网络中的每个D2D发射端作为智能体,智能体能够通过深度强化学习方法智能地选择接入免授权信道或者最优的授权信道并发射功率。通过选择使用免授权信道的D2D对(基于“先听后说”机制)向蜂窝基站的信息反馈,蜂窝基站能够在非协作的情况下获得WiFi网络吞吐量信息,使得算法能够在异构环境中执行并能够确保WiFi用户的QoS。与多智能体深度Q网络(MADQN)、多智能体Q学习(MAQL)和随机算法相比,所提算法在保证WiFi用户和蜂窝用户的QoS的情况下能够获得最大的吞吐量。关键词:D2D通信;先听后说;免授权频段长期演进;资源分配;多智能体强化学习中图分类号:TN929.5文献标识码:A文章编号:1009-5896(2023)04-1173-10DOI:10.11999/JEIT220231AJointResourceAllocationMethodofD2DCommunicationResourcesBasedonMulti-agentDeepReinforcementLearningDENGBingguang①XUChengyi①ZHANGTai②SUNYuanxin③ZHANGLin④PEIErrong①①(InstituteofCommunicationandInformationEngineering,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China)②(ElectricPowerResearchInstituteofStateGridSichuanElectricPowerCompany,Chengdu610093,China)③(ChongqingJinmeiCommunicationCo.,Ltd,Chongqing400035,China)④(StateKeyLaboratoryofCommunicationAnti-interferenceTechnology,UniversityofElectronicScienceandTechnologyofChina,Chengdu611731,China)Abstract:Asashort-rangecommunicationtechnology,Device-to-Device(D2D)communicationcangreatlyreducetheloadpressureoncellularbasestationsandimprovespectrumutilization.Howe...