第4期2023年4月10日计算机教育ComputerEducation中图分类号:G64234基金项目:国家自然科学基金联合基金重点支持项目(U21A20519)。作者简介:刘驰,男,教授,研究方向为智能物联网与强化学习技术,chiliu@bit.edu.cn。0引言2017年,国务院发布《新一代人工智能发展战略规划》,其中“高级机器学习理论”专栏中明确指出:“研究统计学基础理论……小样本学习、深度强化学习、无监督学习、半监督学习、主动学习等学习理论和高效模型”。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中明确指出:“加强原创性引领性科技攻关,瞄准人工智能、量子信息……等前沿领域,实施一批具有前瞻性、战略性的国家重大科技项目”“培育壮大人工智能、大数据等新兴数字产业,促进共享、平台经济健康发展”。因此,开展强化学习基础理论和方法的研究,将有力地支撑国家人工智能科技战略规划实施,具有重大意义。强化学习作为人工智能技术的重要组成部分,在控制、游戏、推荐、计算机视觉、自然语言处理、数学、生物信息学、智能交通等领域有广泛应用。1课程建设的背景与意义强化学习(ReinforcementLearning)是一种试错的机器学习方法,通过智能体与环境的交互,针对智能体做出的动作获得环境反馈,进而强化学习技术与应用课程建设探索刘驰(北京理工大学计算机学院,北京100081)摘要:针对强化学习技术人才缺乏现状以及目前课程教学中存在的问题,以强化学习技术与应用课程为例,提出“应用实例讲解、理论举例讲解、结构动画讲解、类比方法运用、算法总结对比”的“五位一体”核心内容教学方法,以及“手把手实验、理论实践对应、基础高级结合”的复合型多种类实验教学方法,并介绍相应的课程体系和教具体系。通过总结北京理工大学两年的实践,说明上述课程体系取得了较好的教学效果。关键词:强化学习;课程改革;实验实践文章编号:1672-5913(2023)04-0034-04更新智能体知识和经验,选择下一个动作再次对环境进行探索。从分类上讲,强化学习技术是机器学习技术的一部分,但与监督学习、非监督学习等其他机器学习方法有明显不同:①强化学习的学习过程中没有监督信号,只有奖励反馈和实验试错;②强化学习的环境反馈具有延时性;③智能体的动作会影响后续接收到的序列数据;④强化学习的过程与时间序列相关,是一个序贯决策的过程。由于深度学习(DeepLearning)模型的快速发展,与传统强化学习的结合使得对复杂环境的表征成为...