首页 >> 科学研究 >> 学术讲座 >> 正文

人工智能学科交叉讲座系列第【23】期: ​神经网络的高效训练算法

信息来源:     发布时间:2024-03-11     浏览量:




报  告 人: 陈键飞

                副教授

                     清华大学

主  持 人:林宙辰 教授

                    北京大学智能学院、工智能研究院

时      间:2024/3/14  10:00 - 11:00

地      址:北京大学新燕园校区教学楼101教室

        腾讯会议:333-910-856


 报告题目:神经网络的高效训练算法


 报告摘要:   

训练大规模神经网络需要巨量的计算资源。如何设计更高效的训练算法,减少训练神经网络所需的资源是推动人工智能更快发展的重要问题。本次报告介绍了近似梯度下降,一个有理论保证的高效训练算法框架。基于该框架,我们针对训练过程中的不同需求,开发了高效算法,并进行了相应的算子实现。针对算力需求高的问题,本次报告将介绍INT4训练算法、分块INT8训练算法及2:4稀疏训练算法。针对显存需求高的问题,本次报告将介绍4比特激活压缩训练算法及4比特优化器。实验结果初步展示出了这些方法在高效训练大语言模型方面的潜力。


报告人简介:   

陈键飞,清华大学计算机系准聘副教授,主要从事高效机器学习及贝叶斯方法的研究。在ICML、NeurIPS等国际会议发表论文30余篇,谷歌学术引用2000余次。曾获中国计算机学会优秀博士学位论文,受到中国计算机学会青年人才发展计划资助。