应用介绍
为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。
为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。