科研成果
北师大人工智能学院李嘉老师论文被顶级会议录用
NeurIPS 2024会议的全称是Thirty-Eighth Annual Conference on Neural Information Processing Systems,将于2024年12月10日至15日在加拿大温哥华召开。NeurIPS是中国计算机学会CCF推荐的A类国际学术会议,是人工智能领域的顶级国际会议之一。这次会议共收到15671篇有效论文投稿,录用率为25.8%。
论文介绍
论文题目:4-bit Shampoo for Memory-Efficient Network Training
论文作者:王思科(硕士研究生),周攀,李嘉,黄华
通讯作者:李嘉
论文概述:
一阶优化器(比如SGD和Adam)是训练深度神经网络的主流方法。二阶优化器在理论和实践方面都被验证其收敛速度显著优于一阶优化器。然而,二阶优化器需要额外存储预条件矩阵,极大增加了GPU显存开销,制约二阶优化器可以训练的网络规模。本文以经典的二阶优化器Shampoo为例,首次提出与32比特二阶优化器性能相当的4比特二阶优化器。本文首先在理论和实验方面验证了量化预条件矩阵的特征向量矩阵显著优于量化预条件矩阵本身。本文进一步提出使用Björck正交化来矫正量化的特征向量矩阵的正交性,以降低量化误差。此外,本文发现线性平方量化的量化误差略低于动态树量化。在图像分类和自然语言处理任务上的实验验证了所提出方法的优越性。
图中所示是图像分类任务上的一个实验结果。在相同训练时间时,本文提出的4比特二阶优化器AdamW+4-bit Shampoo (our) 与32比特的AdamW+32-bit Shampoo性能相当,显著优于AdamW, 以及直接4比特量化预条件矩阵的方法AdamW+4-bit Shampoo (naive). 在GPU峰值显存占用方面,本文提出的4比特二阶优化器AdamW+4-bit Shampoo (our) 显著低于32比特的AdamW+32-bit Shampoo,略微高于AdamW. 更详细的内容及代码请阅读我们的论文。
论文链接:https://arxiv.org/abs/2405.18144
联系电话:010-58807943
邮编:100875
地址:北京市海淀区新外大街19号电子楼
京师智能E家
学院官方微信
© 版权所有 北京师范大学人工智能学院