月之暗面开源改进版Muon优化器算力需求比AdamW锐减48%

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

月之暗面开源改进版Muon优化…
联想ThinkPad S1 Yoga 20CDS…
联想YOGA Pro 14s 2022(R7-6…
联想ThinkStation P3 Tiny(i…
Windows11怎么看显卡功耗功…
台式机额定功率怎么看
编辑推荐_家庭影院_家电频道…
36TB恐怖啊
硬盘价格即将上涨！NAND厂商…
机械硬盘降价掀起热潮376元4…
一加Ace 5系列重要维修费用揭…
戴尔率先为商务本引入模块 U…
一加Ace 5系列维修费用大揭秘…
捞偏门的赚钱软件（赚钱黑渠…
陈春花：新渠道不再是利益分…
网络控价的意义、品牌如何做…
优派CW1260 24G超薄无线键鼠…
升级版超薄显示器：十分快速…
2026苹果OLED版MacBook Pro布…
英特尔Panther Lake笔记本电…
RTX 5080 笔记本电脑ROG枪神…
全能平板笔记本ROG幻X 2025 …
《粉丝的创意与期待：RTX 50…
英伟达RTX 5090 FE显卡揭秘：…
电脑显示无信号打不开怎么办…
港媒曝光电诈的老板中有纪晓…
释放内存用英语怎么说
释放内存命令Linux
RTX 4090用户享受最高优先权…
装机商自曝：英伟达RTX 5090…
英伟达GeForce RTX 5060显卡…
2024：PC处理器回顾
怎么破坏电脑主板
电脑主板关键点电压？
威刚展示“全球最小”USB 4移…
苹果电脑如何分区硬盘
PCIe50固态硬盘性价比必看！…
联想百应全国新增500家服务中…
购买电脑的注意事项有哪些？
全面加速布局联想百应服务中…
【前瞻分析】2025年全球功能…
APP推广渠道精华十大渠道方法
爱慕股份：公司目前的线上销…
惠普推出暗影精灵 32 英寸 O…
LG UltraGear GX9系列：颠覆…
LG UltraFine 6K显示器发布苹…
英特尔全新散热器亮相：更酷…
Laminar RH2和RM2散热器亮相…
英特尔原装散热器RH2RM2大升…
热血沸腾！微星B850和B840芯…

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

月之暗面开源改进版Muon优化器算力需求比AdamW锐减48%

作者：佚名文章来源：本站原创点击数：更新时间：2025/3/20 20:19:42 | 【字体：小大】

　　玉娇丽小说，OpenAI技术人员提出的训练优化算法Muon，被月之暗面团队又推进了一步！

　　团队发现了Muon方法的Scaling Law，做出改进并证明了Muon对更大的模型同样适用

　　在参数量最高1.5B的不同Llama架构模型上，改进后的Muon算力需求仅为AdamW的52%。

　　同时团队还基于DeepSeek架构训练出了一个16B的MoE模型，与改进后的优化算法一同开源。

　　Muon技术博客发布当时主要适用于较小的模型和数据集，作者留下了三个悬而未决的问题：

　　消息一出，当时Muon的作者也都很激动，主要作者Keller Jordan表示这是Muon规模化的首个成功报告，为团队送上了祝贺。

　　另一名贡献者，当时负责Muon规模化实验的Hyperbolic Labs联创兼CTOYuchen Jin也表示，月暗团队的这项成果，是Muon的一次胜利。

　　这是一种神经网络隐藏层的2D参数优化器，主要作者是OpenAI深度学习团队的Keller Jordan。

　　这项成果发表于去年的12月8日，而Keller也是去年12月加入的OpenAI。

　　Muon的核心思想是通过正交化梯度更新矩阵，避免参数更新陷入局部极小，使模型能够学习到更加多样化的特征表示。

　　不过当时Muon团队只证明了其在小型模型和数据集上的可行性，对于较大的模型能否适用则是个未知数。

　　现在经过月暗团队的改进之后，Muon被证明对于更大的模型和数据集同样适用

　　针对模型本身，团队吸收了AdamW中的一些特点，移植到了Muon当中，具体包括两个方面。

　　这样做的原因是作者发现直接将Muon应用到大规模训练时，模型权重和层输出的幅度会持续增长，最终超出bf16的高精度表示范围，损害模型性能。

　　在训练一个8亿参数模型至100B tokens（约5倍计算预算最优）的过程中，团队对比了AdamW、无权重衰减的Muon和带权重衰减的Muon。

　　结果显示，带权重衰减的Muon在过拟合阶段取得了最佳效果，验证了权重衰减的必要性。

　　第二项改进，是调整了Muon的参数更新尺度，使不同形状矩阵参数的更新幅度保持一致，并与AdamW的更新幅度匹配。

　　Muon的一个特点是，对于形状为[A,B]的矩阵参数，其理论更新幅度为sqrt(1/max(A,B))。

　　这导致不同形状矩阵参数的更新幅度差异很大，比如对于MLP这种宽矩阵，更新会过小，而将每个head看作独立矩阵时，更新又会过大。

　　为了让不同矩阵参数的更新幅度匹配，并与AdamW保持一致，作者尝试了几种改进方案，最终选择直接基于形状调整每个参数的学习率

　　其中0.2是通过实验确定的一个常数，用于将Muon的更新尺度与AdamW对齐。

　　除了对Muon本身的改进，要想将Muon用于更大规模的训练，还需要将其扩展到分布式训练环境中

　　由于Muon需要完整的梯度矩阵来计算正交化的更新量，而现有的分布式训练框架（如ZeRO-1、Megatron-LM等）都假设优化器状态可以独立地按元素切分到不同设备上，所以它们无法直接支持Muon。

　　这种实现方式在最小化内存占用和通信开销的同时，最大限度地保留了原始Muon算法的数学性质。

　　基于上述Muon改进,作者取得了以下成果，作者在Llama架构的一系列稠密模型上，进行了Muon和AdamW的模型缩放对比实验。

　　结果表明,在计算预算最优的情况下，Muon的样本效率是AdamW的1.92倍，即训练FLOPS只需AdamW的52%，就能达到相当的性能。

　　与相同规模和数据量的模型相比，Moonlight在英语理解与推理（MMLU、TriviaQA、BBH）、代码生成（HumanEval、MBPP）、数学推理（GSM8K、MATH、CMATH）、中文理解（C-Eval、CMMLU）等各类任务上都取得了明显更好的性能。

　　即使与使用更大数据集训练的稠密模型相比，Moonlight也展现了极强的竞争力。

　　与多个知名语言模型的对比表明，Moonlight在性能-训练预算平面上推进了帕累托前沿（Pareto Frontier）。

　　（注：帕累托前沿是一个经济学和管理学中的概念，描述的是在多目标决策问题中所有可能的最优解的集合，这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点，都意味着一个目标的改善必然以牺牲另一个目标为代价，因此它代表了在多个目标之间实现的最佳权衡。）

　　为了进一步分析Muon更新矩阵参数的内在机制，作者对比了Muon和AdamW训练得到的模型在不同训练阶段的参数矩阵奇异值谱。

　　结果发现，Muon优化的矩阵在各层各类参数上，总是比AdamW有更高的奇异值熵。这从经验上验证了Muon通过正交化来学习更多样化表示的直觉。

　　最后，在Moonlight模型的基础上，作者还探索了Muon在指导微调阶段的效果，结果表明，在预训练和微调阶段均使用Muon的效果是最佳的。

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存：港媒曝光电诈的老板中有纪晓波！缅甸海波两次向他喊话释放国人下一个电脑内存：没有了

　栏目文章

月之暗面开源改进版Muon优化器算力需求比Adam… (03-20)	港媒曝光电诈的老板中有纪晓波！缅甸海波两次… (03-19)
释放内存用英语怎么说 (03-19)	释放内存命令Linux (03-19)
内存条结构及工作原理知识详细介绍不懂这些怎… (03-18)	电脑的内存条用英文怎么说？ (03-18)
周二早盘市场热点0121 (03-18)	马斯克评论电脑存储价格大幅下降背后原因与未… (03-17)
一码定蓝计算公式是什么 - 一码定蓝计算公式是… (03-17)	饺子凌晨4点磨镜头雷军零下40度试车：成年人的… (03-17)
未来人类18英寸笔记本电脑即将发布：192GB内存… (03-16)	192GB内存与4K显示屏的震撼之作：未来人类发布… (03-16)
192GB海量内存的“巨兽”即将登场 (03-16)	内地去澳门需要什么手续 (03-15)
十年前的旗舰电脑今天是什么水平性能堪忧 (03-15)	大人们的玩具迎来万亿风口 (03-15)
为什么12GB内存条很少见 (03-14)	2025年HBM出货量料增长70%AI兴起推动高带宽内… (03-14)
内存终于有救了微信又有新功能！ (03-14)	苹果14 ufs配置详情介绍 (03-13)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！