返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 月之暗面开源改进版Muon优化…
 联想ThinkPad S1 Yoga 20CDS…
 联想YOGA Pro 14s 2022(R7-6…
 联想ThinkStation P3 Tiny(i…
 Windows11怎么看显卡功耗 功…
 台式机额定功率怎么看
 编辑推荐_家庭影院_家电频道…
 36TB恐怖啊
 硬盘价格即将上涨!NAND厂商…
 机械硬盘降价掀起热潮376元4…
 一加Ace 5系列重要维修费用揭…
 戴尔率先为商务本引入模块 U…
 一加Ace 5系列维修费用大揭秘…
 捞偏门的赚钱软件(赚钱黑渠…
 陈春花:新渠道不再是利益分…
 网络控价的意义、品牌如何做…
 优派CW1260 24G超薄无线键鼠…
 升级版超薄显示器:十分快速…
 2026苹果OLED版MacBook Pro布…
 英特尔Panther Lake笔记本电…
 RTX 5080 笔记本电脑ROG枪神…
 全能平板笔记本ROG幻X 2025 …
 《粉丝的创意与期待:RTX 50…
 英伟达RTX 5090 FE显卡揭秘:…
 电脑显示无信号打不开怎么办…
 港媒曝光电诈的老板中有纪晓…
 释放内存用英语怎么说
 释放内存命令Linux
 RTX 4090用户享受最高优先权…
 装机商自曝:英伟达RTX 5090…
 英伟达GeForce RTX 5060显卡…
 2024:PC处理器回顾
 怎么破坏电脑主板
 电脑主板关键点电压?
 威刚展示“全球最小”USB 4移…
 苹果电脑如何分区硬盘
 PCIe50固态硬盘性价比必看!…
 联想百应全国新增500家服务中…
 购买电脑的注意事项有哪些?
 全面加速布局联想百应服务中…
 【前瞻分析】2025年全球功能…
 APP推广渠道精华十大渠道方法
 爱慕股份:公司目前的线上销…
 惠普推出暗影精灵 32 英寸 O…
 LG UltraGear GX9系列:颠覆…
 LG UltraFine 6K显示器发布苹…
 英特尔全新散热器亮相:更酷…
 Laminar RH2和RM2散热器亮相…
 英特尔原装散热器RH2RM2大升…
 热血沸腾!微星B850和B840芯…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
月之暗面开源改进版Muon优化器算力需求比AdamW锐减48%
作者:佚名 文章来源:本站原创 点击数: 更新时间:2025/3/20 20:19:42 | 【字体:

  玉娇丽小说,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步!

  团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用

  在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。

  同时团队还基于DeepSeek架构训练出了一个16B的MoE模型,与改进后的优化算法一同开源。

  Muon技术博客发布当时主要适用于较小的模型和数据集,作者留下了三个悬而未决的问题:

  消息一出,当时Muon的作者也都很激动,主要作者Keller Jordan表示这是Muon规模化的首个成功报告,为团队送上了祝贺。

  另一名贡献者,当时负责Muon规模化实验的Hyperbolic Labs联创兼CTOYuchen Jin也表示,月暗团队的这项成果,是Muon的一次胜利。

  这是一种神经网络隐藏层的2D参数优化器,主要作者是OpenAI深度学习团队的Keller Jordan。

  这项成果发表于去年的12月8日,而Keller也是去年12月加入的OpenAI。

  Muon的核心思想是通过正交化梯度更新矩阵,避免参数更新陷入局部极小,使模型能够学习到更加多样化的特征表示。

  不过当时Muon团队只证明了其在小型模型和数据集上的可行性,对于较大的模型能否适用则是个未知数。

  现在经过月暗团队的改进之后,Muon被证明对于更大的模型和数据集同样适用

  针对模型本身,团队吸收了AdamW中的一些特点,移植到了Muon当中,具体包括两个方面。

  这样做的原因是作者发现直接将Muon应用到大规模训练时,模型权重和层输出的幅度会持续增长,最终超出bf16的高精度表示范围,损害模型性能。

  在训练一个8亿参数模型至100B tokens(约5倍计算预算最优)的过程中,团队对比了AdamW、无权重衰减的Muon和带权重衰减的Muon。

  结果显示,带权重衰减的Muon在过拟合阶段取得了最佳效果,验证了权重衰减的必要性。

  第二项改进,是调整了Muon的参数更新尺度,使不同形状矩阵参数的更新幅度保持一致,并与AdamW的更新幅度匹配。

  Muon的一个特点是,对于形状为[A,B]的矩阵参数,其理论更新幅度为sqrt(1/max(A,B))。

  这导致不同形状矩阵参数的更新幅度差异很大,比如对于MLP这种宽矩阵,更新会过小,而将每个head看作独立矩阵时,更新又会过大。

  为了让不同矩阵参数的更新幅度匹配,并与AdamW保持一致,作者尝试了几种改进方案,最终选择直接基于形状调整每个参数的学习率

  其中0.2是通过实验确定的一个常数,用于将Muon的更新尺度与AdamW对齐。

  除了对Muon本身的改进,要想将Muon用于更大规模的训练,还需要将其扩展到分布式训练环境中

  由于Muon需要完整的梯度矩阵来计算正交化的更新量,而现有的分布式训练框架(如ZeRO-1、Megatron-LM等)都假设优化器状态可以独立地按元素切分到不同设备上,所以它们无法直接支持Muon。

  这种实现方式在最小化内存占用和通信开销的同时,最大限度地保留了原始Muon算法的数学性质。

  基于上述Muon改进,作者取得了以下成果,作者在Llama架构的一系列稠密模型上,进行了Muon和AdamW的模型缩放对比实验。

  结果表明,在计算预算最优的情况下,Muon的样本效率是AdamW的1.92倍,即训练FLOPS只需AdamW的52%,就能达到相当的性能。

  与相同规模和数据量的模型相比,Moonlight在英语理解与推理(MMLU、TriviaQA、BBH)、代码生成(HumanEval、MBPP)、数学推理(GSM8K、MATH、CMATH)、中文理解(C-Eval、CMMLU)等各类任务上都取得了明显更好的性能。

  即使与使用更大数据集训练的稠密模型相比,Moonlight也展现了极强的竞争力。

  与多个知名语言模型的对比表明,Moonlight在性能-训练预算平面上推进了帕累托前沿(Pareto Frontier)。

  (注:帕累托前沿是一个经济学和管理学中的概念,描述的是在多目标决策问题中所有可能的最优解的集合,这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点,都意味着一个目标的改善必然以牺牲另一个目标为代价,因此它代表了在多个目标之间实现的最佳权衡。)

  为了进一步分析Muon更新矩阵参数的内在机制,作者对比了Muon和AdamW训练得到的模型在不同训练阶段的参数矩阵奇异值谱。

  结果发现,Muon优化的矩阵在各层各类参数上,总是比AdamW有更高的奇异值熵。这从经验上验证了Muon通过正交化来学习更多样化表示的直觉。

  最后,在Moonlight模型的基础上,作者还探索了Muon在指导微调阶段的效果,结果表明,在预训练和微调阶段均使用Muon的效果是最佳的。

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 月之暗面开源改进版Muon优化器算力需求比Adam… (03-20)
    普通电脑内存 港媒曝光电诈的老板中有纪晓波!缅甸海波两次… (03-19)
    普通电脑内存 释放内存用英语怎么说 (03-19)
    普通电脑内存 释放内存命令Linux (03-19)
    普通电脑内存 内存条结构及工作原理知识详细介绍不懂这些怎… (03-18)
    普通电脑内存 电脑的内存条用英文怎么说? (03-18)
    普通电脑内存 周二早盘市场热点0121 (03-18)
    普通电脑内存 马斯克评论电脑存储价格大幅下降背后原因与未… (03-17)
    普通电脑内存 一码定蓝计算公式是什么 - 一码定蓝计算公式是… (03-17)
    普通电脑内存 饺子凌晨4点磨镜头雷军零下40度试车:成年人的… (03-17)
    普通电脑内存 未来人类18英寸笔记本电脑即将发布:192GB内存… (03-16)
    普通电脑内存 192GB内存与4K显示屏的震撼之作:未来人类发布… (03-16)
    普通电脑内存 192GB海量内存的“巨兽”即将登场 (03-16)
    普通电脑内存 内地去澳门需要什么手续 (03-15)
    普通电脑内存 十年前的旗舰电脑今天是什么水平 性能堪忧 (03-15)
    普通电脑内存 大人们的玩具迎来万亿风口 (03-15)
    普通电脑内存 为什么12GB内存条很少见 (03-14)
    普通电脑内存 2025年HBM出货量料增长70%AI兴起推动高带宽内… (03-14)
    普通电脑内存 内存终于有救了微信又有新功能! (03-14)
    普通电脑内存 苹果14 ufs配置详情介绍 (03-13)