2023-05-10计算机应用,JournalofComputerApplications2023,43(5):1620-1624ISSN1001-9081CODENJYIIDUhttp://www.joca.cn基于共享注意力的多智能体强化学习订单派送黄晓辉,杨凯铭*,凌嘉壕(华东交通大学信息工程学院,南昌330013)(∗通信作者电子邮箱yangkaiming9622@qq.com)摘要:网约车因方便、快捷成为现今人们出行热门之选,如何更高效地派送合适的订单将乘客送到目的地是如今研究的热点。许多研究着重于训练单智能体,再由它统一分配订单,车辆本身并不参与决策。针对以上问题,提出一种基于共享注意力的多智能体强化学习(SARL)算法。该算法将订单派送问题建模为一个马尔可夫决策过程,运用多智能体强化学习,通过集中训练、分散执行的方式让每个智能体均成为决策者;同时加入共享注意力机制,让智能体彼此共享信息并合作。最后,在不同尺度地图、不同乘客数以及不同车辆数情形下与完全随机匹配(Random)、贪婪算法(Greedy)、多智能体强化学习算法IDQN和混合Q值网络(QMIX)进行对比。结果显示,在固定和可变的车辆与乘客组合情况下,SARL算法在三个不同尺度地图(100×100、10×10和500×500)的时间效率均达到了最优,验证了算法的泛化性能和稳定性。SARL算法可以优化车辆和乘客的配对,减少乘客等待时间,提升乘客满意度。关键词:机器学习;深度强化学习;注意力机制;多智能体强化学习;车辆订单派送中图分类号:TP18;TP391文献标志码:AOrderdispatchingbymulti-agentreinforcementlearningbasedonsharedattentionHUANGXiaohui,YANGKaiming*,LINGJiahao(SchoolofInformationEngineering,EastChinaJiaotongUniversity,NanchangJiangxi330013,China)Abstract:Ride-hailinghasbecomeapopularchoiceforpeopletotravelduetoitsconvenienceandspeed,howtoefficientlydispatchtheappropriateorderstodeliverpassengerstothedestinationisaresearchhotspottoday.Manyresearchesfocusontrainingasingleagent,whichthenuniformlydistributiesorders,withoutthevehicleitselfbeinginvolvedinthedecisionmaking.Tosolvetheaboveproblem,amulti-agentreinforcementlearningalgorithmbasedonsharedattention,namedSARL(SharedAttentionReinforcementLearning),wasproposed.Inthealgorithm,theorderdispatchingproblemwasmodeledasaMarkovdecisionprocess,andmulti-agentreinforcementlearningwasusedtomakeeachagentbecom...