应用介绍
第三个结果是,如果将 Muon 分别应用于 Transformer 的 Q、K、V 参数,而不是同时应用于 Q、K、V 参数,则 Muon 在优化 Transformer 方面效果更佳,因为 Transformer 实现会将 Q、K、V 参数设置为单个线性层,并将输出拆分。
第三个结果是,如果将 Muon 分别应用于 Transformer 的 Q、K、V 参数,而不是同时应用于 Q、K、V 参数,则 Muon 在优化 Transformer 方面效果更佳,因为 Transformer 实现会将 Q、K、V 参数设置为单个线性层,并将输出拆分。