理解大模型——从优化与泛化的视角
作者:
时间:2025-04-23
阅读量:23次
  • 演讲人: 滕佳烨(上海财经大学,助理教授)
  • 时间:2025年4月29日15:30
  • 地点:浙江大学紫金港校区行政楼1417报告厅


讲座信息:本次讲座聚焦于从理论角度理解大模型。在第一部分,我们首先从噪声抵抗的视角理解为什么我们需要大模型。通过在CIFAR-10ImageNet上实验的不同结果,我们从标签噪声与参数量的角度理解模型泛化,并在高斯混合模型上分析了参数量与标签噪声的协同关系。我们证明:参数量越大,模型抵抗标签噪声的能力就越强,这为大模型的成功提供了理论依据。在第二部分,我们会关注大模型的二阶段优化过程。我们在实验中发现大模型在学习过程中往往表现出二阶段学习现象,例如先学习语法信息,再学习语义信息。我们证明了在一定数据假设下transformer确实表现出二阶段的优化行为,并进一步发现了参数特征值与二阶段学习的联系。

 

简介:滕佳烨,上海财经大学统计与数据科学学院助理教授(tenure-track assistant professor)。博士就读于清华大学交叉信息研究院,曾在普林斯顿大学访问,是人工智能研讨班FAI-Seminar (www.fai-seminar.ac.cn)的筹办人,在人工智能顶级会议上发表十余篇论文。曾获上海市2024“科技创新行动计划启明星培育(扬帆专项)、CCF理论计算机科学博士学位论文激励计划(提名)、清华大学优秀毕业生等荣誉。主要研究方向是理论机器学习,包括神经网络的泛化理论、共形预测等。个人主页:www.tengjiaye.com