北京大学梁云1面向人工智能的敏捷芯片设计个人简历•姓名:梁云•研究方向:计算机体系结构,芯片设计自动化,编译技术•教育和科研经历2时间单位身份2018-北京大学长聘副教授研究员2012-2018北京大学助理教授特聘研究员2010-2012美国伊利诺伊香槟分校(UIUC)ResearchScientist2005-2010新加坡国立大学博士生卡脖子的中国芯3中国芯片需求量占全球50%以上,而国产芯片只能自供8%左右,每年进口芯片花费3000多亿美元。---中国集成电路产业发展研究报告芯片设计软件被美国公司(Cadence/Synopsys/Mentor)垄断,国产芯片软件没有相应替代品。---中国电子信息产业研究报告芯片的制造成本高“InternationalBusinessStrategies(IBS)”芯片的利用率低"Thedatacenterasacomputer:."Synthesislecturesoncomputerarchitecture4.1(2009):1-108.芯片设计的关键:软硬件适配4软件147366672762806110100100010000100000矩阵乘法50X7X20X9X63,000!“There’sPlentyofRoomattheTop”,Leiserson,et.al.加速比Implementingspecializedhardwarealongwitheffectivemethodsformappingthesoftwareontothespecializedhardware,isthekeytoachievingefficiency.---DavidPatterson,2018图灵奖得主CPUGPU~10XFPGA~10XASIC计算能效比(任务/焦耳)更专用,更高效多核众核可重构专用硬件~20X研究基础概览5可重构FPGA众核GPU◼架构:缓存旁路◼编译:寄存器分配◼算法:多任务◼架构:脉动阵列◼编译:高层次综合◼算法:分块并行人工智能应用提出了一套软硬件适配的芯片硬件设计与软件优化方法,取得高达1~2个数量级的性能和能效优势。◼端场景:FPGA/ASIC芯片,IP库,自动化工具链◼云场景:异构云平台资源管理GPUFPGAASICCPU概览三个代表性贡献研究路线算法适配编程编译体系结构全栈式11学术贡献(一):众核芯片的挑战6通用程序的计算和访存不规则性导致其在众核芯片上的效率低下并行性不足访存不规则寄存器利用率低不规则特征众核芯片体系结构特征大量并行性缓存容量小寄存器容量大学术贡献(一):众核芯片的主要贡献7提出算法层面的多任务执行,编译层面的寄存器分配,体系结构层面的缓存旁路技术。算法编译体系结构多任务并行提高资源利用率,提升性能7~28倍时间ABCD资源寄存器分配算法平衡单线程性能和线程并行度,提升性能25%缓存旁路设计降低缓存缺失率和流水停滞,提升性能30%二级缓存一级缓存旁路单线程线程并行度学术贡献(一)举例:PPoPP20198SoftmaxBNPoolingConvolutionReLULRN"ACoo...