
报 告 人:代季峰 副教授
清华大学
主 持 人:林宙辰 教授
北京大学智能学院、人工智能研究院
时 间:2025年5月27日 10:00-11:00
地 址:北京大学新燕园校区教学楼 101 教室
腾讯会议:443-464-611
报告题目:
多模态基础模型研究
报告摘要:
在我们迅速发展的数字世界中,机器理解、解释和创造内容的能力是一个引人入胜的关键主题。今天,我们正见证一个非凡的时代,大型基础模型不仅仅是处理信息,它们正在学习理解和生成具有惊人精度和创造力的复杂语言和图像内容。
多模态基础模型,正在重塑我们对人工智能能力的理解。这些模型无缝集成了多种形式的数据,如文本和视觉,它们不仅仅是工具,而是合作伙伴,增强人类的创造力,扩展机器能够实现的领域。
在这次报告中,我们将探索这些模型的复杂工作原理,并报告我们研究团队在这个方向上的最新进展。我们将穿越语言和图像的领域,理解这些模型如何理解我们和我们的世界。
报告人简介:
代季峰,清华大学电子工程系副教授,博士生导师。主要研究领域为视觉信息理解基础模型与核心算法。在2009年和2014年于清华大学自动化系分别获得工学学士和博士学位,博士导师周杰教授。2014年至2019年在微软亚洲研究院视觉组工作,担任首席研究员、研究经理。2019年至2022年在商汤科技研究院工作,担任执行研究总监。2022年7月全职加入清华大学电子工程系。他在相关领域发表国际期刊、会议文章80余篇,论文总引用5万余次。以可变形卷积为代表的多篇论文成为物体识别领域里程碑式的成果,被选入深度学习权威框架PyTorch成为标准算子。他提出的算法获得物体识别领域权威的COCO比赛冠军,自动驾驶感知领域权威的Waymo 2022竞赛冠军,获得CVPR 2023最佳论文奖。他是视觉领域顶刊TPAMI的副编辑,IJCV的编委,和视觉领域顶会NeurIPS、ICCV、CVPR、ECCV、ICLR的领域主席,ICCV 2019的宣传主席。