面向群体共识机制的逆强化学习辨识方法于鑫1,吴文峻2,3*,罗杰1,3,李未1,31.北京航空航天大学计算机学院,北京100191;2.北京航空航天大学人工智能研究院,北京100191;3.软件开发环境国家重点实验室,北京100191*E-mail:wwj09315@buaa.edu.cn收稿日期:2021-08-13;接受日期:2021-11-26;网络版发表日期:2022-08-23科技创新2030-“新一代人工智能”重大项目(编号:2018AAA0102300)资助摘要作为新一代人工智能的重要研究领域,群体智能是解决开放不确定环境中大规模复杂问题的必由途径,对人工智能的其他研究领域有着基础性和支撑性的作用.群体智能系统中,智能体遵循共识机制进行交互演化产生群体共识,辨识共识机制是构建和理解群体智能系统的关键.传统的共识机制建模方法需要做过多简化假设,难以面对复杂多样的群体智能系统,应建立数据驱动的共识机制辨识方法.本文将共识机制的辨识问题转化为群体智能系统的逆强化学习问题,提出面向群体共识机制的逆强化学习辨识方法,并将上述辨识方法应用于集群系统,在多个场景中验证了对群体智能系统的辨识能力,实现了对群体智能系统的共识机制的反演.关键词系统主义,群体智能,逆强化学习1引言群体智能最早源于对自然界中蚂蚁、蜜蜂等社会性昆虫群体行为的研究,这些昆虫群体有一定的结构与组织,能够通过简单规则涌现出群体性的智慧,同时具有一定的学习能力来适应环境的变化[1].其他类型的生物也有类似的群体智能行为,例如鱼群集体游动以减少阻力,大型食草动物集聚在一起躲避天敌,甚至连细菌都具备一定的集体决策能力.在人类社会中大规模复杂群体行为,如:开源社区的软件创新、基于众包众享的共享经济、各类市场中的群体商业金融博弈等,都是通过社群化的组织结构来管理、协调和运行,以竞争、合作、对抗等多种自主协同方式来共同完成挑战性任务,涌现出超越个体能力的群体智能[2,3].群体智能系统的本质是动态认知复杂网络,涌现强弱决定网络演化的复杂程度.自然界和人类社会中的群体智能虽然各具形态,其蕴含的核心概念却是相同的,即复杂认知网络的群体性、涌现性、共识性、演化性.共识性是群体智能系统最重要的性质,指智能体在局部交互中,按照一定规则形成全局共识,驱动群智涌现.智能体在局部交互中所遵循的规则即为共识机制.研究表明,遵循局部共识机制的个体能够在系统的全局层面产生复杂的群体行为,辨识个体共识机制是引用格式:于鑫,吴文峻,罗杰,等.面向群体共识机制的逆强化学习辨识方法.中国科学:技术科学,2023,53:258–267Yu...