机器学习可靠性与算法优化智源青年科学家候选人公开报告袁洋2020年2月11日01个人情况——教育背景•2008/8--2012/6北京大学计算机系学士(2/138)•2012/8--2018/6康奈尔大学计算机系博士,导师:RobertKleinberg教授2个人情况——工作经历•2014/9--2015/6微软新英格兰研究院访问学生,导师:RobertKleinberg教授•2016/9--2017/1普林斯顿大学计算机系访问学生,导师:EladHazan教授(谷歌AI普林斯顿研究院联合创始人、主任)•2018/7--2019/6麻省理工学院大数据基础研究院(MIFODS)博士后研究员,导师:PiotrIndyk教授,AleksanderMadry教授(MIFODSLeadPI)(对抗样本权威专家)•2019/7--今清华大学交叉信息研究院助理教授教机器学习、人工智能入门第一届人工智能实验班(智班)班主任3三大研究方向1.机器学习理论•随机梯度下降法(SGD)的理论分析•神经网络收敛性分析2.机器学习可靠性•对抗样本与鲁棒性•其他可靠性研究3.机器学习与算法优化•用算法解决机器学习问题•用机器学习技术设计更好的算法4研究方向一:机器学习理论•机器学习理论是机器学习的基础•表达能力理论(Representation)•优化理论(Optimization)•泛化理论(Generalization)•主要介绍内容1.SGD逃离鞍点[Ge,Jin,Huang,Yuan,COLT’15]2.SGD逃离局部最优点[Kleinberg,Li,Yuan,ICML’18]3.两层神经网络的收敛性分析[Li,Yuan,NeurIPS’17]4.未来研究设想:更好地刻画神经网络的收敛规律5研究方向一:机器学习理论•深度学习两大步骤:1.设计网络结构2.使用随机梯度下降法(SGD)或其变体进行优化•例如:•机器视觉,包括图像分类、风格迁移:•卷积网络+SGD•Alphago下围棋:•强化学习、卷积网络、蒙特卡洛树搜索+SGD•自然语言处理:•Transformer网络+SGD6拟研究内容789研究方向一:机器学习理论•因此,需要深刻理解SGD这个算法!•Why:为什么它能够如此好用?•When:它什么时候最有用?•How:它是如何收敛的?10梯度下降法(GD)是什么算法?•目标是优化一个(机器学习)的损失函数𝐿•min𝑤𝐿𝑤•优化方法就是简单的迭代•𝑤𝑡+1=𝑤𝑡−𝜂𝑡𝛻𝐿𝑤𝑡•𝛻𝐿𝑤𝑡就是𝐿在𝑤𝑡处的导数11GD的两大局限性1.计算𝛻𝐿𝑤𝑡非常慢•如果数据很多,需要扫遍所有数据2.可能会卡在稳定点上(导数为0)•需要指数时间才能逃离鞍点!![Du,Jin,Lee,Jordan,Poczos,Singh,NeurIPS’17]12随机梯度下降法(SGD)是什么算法?•和梯度下降法非常相似,只是导数可以有随机性•𝑤𝑡+1=...