第42卷第4期2023年4月Vol.42No.4Apr.2023重庆交通大学学报(自然科学版)JOURNALOFCHONGQINGJIAOTONGUNIVERSITY(NATURALSCIENCE)DOI:10.3969/j.issn.1674-0696.2023.04.12平衡主线和匝道交通运行的强化学习型匝道控制研究章立辉12,余宏鑫14,熊满初1,2,胡文琴1,王亦兵1(1.浙江大学建筑工程学院智能交通研究所,浙江杭州310058;2,浙江大学建筑设计研究院有限公司,浙江杭州310014;3,浙江大学平衡建筑研究中心,浙江杭州310014)摘要:考虑合流区域主线和匝道的交通流运行状态,提出了一种基于深度强化学习的鲁棒自适应匝道控制模型一DRLARM模型。根据交通流运行特征,构造了平衡主线交通效率和匝道排队长度的强化学习奖励函数;为适应动态变化的交通环境,采用多交通流场景混合训练控制模型,在不同拥堵成因、不同拥堵时长、不同需求分布等测试场景下开展仿真实验,对比分析了无控制及DRLARM、ALINEA和PI-ALINEA模型控制的车辆平均行程时间A、车道占有率。、匝道排队长度W和匝道损失时间比P等评价指标。研究表明:DRLARM模型控制的平均行程时间A相比无控工况节省了22%,略好于ALINEA模型,与PI-ALINEA模型控制效果相当;DRLARM模型在不同测试场景下产生的匝道损失时间比P较稳定,匝道排队长度W绝对值相较于ALINEA模型和PI-ALINEA模型均缩短了约16%;深度强化学习方法兼顾了通行效率和路权公平性,训练所得DRLARM模型在动态交通条件下表现出良好的鲁棒性。关键词:交通工程;自适应匝道控制;深度强化学习;高速公路;匝道排队管理;鲁棒性中图分类号:U495文献标志码:A文章编号:1674-0696(2023)04-087-11ReinforcementLearningRampMeteringtoBalanceMainlineandRampTrafficOperationsZHANGLihui1,2,YUHongxin1,3,XIONGManchu1,2,HUWenqin1,WANGYibing1(1.InstituteofIntelligentTransportationSystems,CollegeofCivilEngineeringandArchitecture?ZhegiangUniversity,Hangzhou310058,Zhejiang,China;2.ArchitecturalDesignandResearchInstituteCo.,Ltd.,ZhejiangUrdversity,Hangzhou310014,Zhqiang,Qiina;3.ResearchCenterforBalanceArchitecture,ZhejiangUniversity?Hangzhou310014,Zhqiang,Qiina)Abstract:Consideringthetrafficflowconditionsofbothmainlineandrampinrampmergingareas>arobustadaptiverampmeteringmodelnamedDeepReinforcementLearning-BasedAdaptiveRampMetering(DRLARM)basedondeepreinforcementlearningwasproposedAccordingtotrafficflowo...