返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 一文通透DeepSeek V2——通俗…
 盈通推出 RX 9060 XT 16GB 游…
 Sparkle 撼与推三款 Arc Pro…
 性能暴增:iGame RTX 5060 A…
 微软平板电脑报价及评测 推荐…
 25年百元投影仪为啥首推哈趣…
 MacBookPro16落榜苹果最值得…
 C盘从此成历史!华为鸿蒙电脑…
 致态携多款存储产品 首次亮相…
 西部数据750G 64M SATA3黑盘
 焕新经典游戏!华硕显卡+RTX…
 华硕电脑全面评测:超越期待…
 42 显卡行情
 联想拯救者Pro旗舰电竞显示器…
 外星人AW3425DW电竞显示器上…
 沉浸游戏体验的巅峰:联想80…
 红魔10S Pro系列支持外接游戏…
 AMD 锐龙 9 9950X3D 处理器体…
 宏碁新本采用酷睿7 240H处理…
 独家披露!哈尔滨亚冬会赛事…
 哈尔滨亚冬会赛事信息系统遭…
 关税风暴终端影响已显现
 空调配件价格表 最佳价格参考…
 华为Pura X维修费大揭秘:屏…
 华为Pura X维修配件价格公布
 中国股市:盘点医疗物资智能…
 最新欧美精品视频免播放器观…
 国偷产拍视频 MBA智库
 上官建华与黄仁勋的显卡战争…
 英伟达下跌586%报103951美元…
 从2D到3D:显卡的革命与游戏…
 618装机必看!这款处理器能让…
 e电源功率怎么算?电脑电源怎…
 华硕全球巡展开启首次公开展…
 什么是C盘?华为鸿蒙电脑硬盘…
 华为鸿蒙电脑硬盘完全无分区…
 配一台能玩黑神话悟空的电脑…
 有哪些维修服务的app平台
 【深圳开锁】附近师傅快速上…
 宁波附近开锁公司电线小时上…
 【科技趣玩】iPad4变身便携显…
 Minix 推出 SF15 Fold 便携显…
 10万步暴走MWC25:我们总结了…
 锐龙9 9950X3D开盖后测试:性…
 显卡温度多少正常 显卡温度标…
 DDR5出很久了可我仍然不建议…
 技嘉推出Z890 AORUS TACHYON…
 解锁!最新BD790iX3D主板带来…
 技嘉带来B760 GEN5系列主板:…
 必赢亚洲体育官网手机版下载
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
一文通透DeepSeek V2——通俗理解多头潜在注意力MLA:改进MHA从而压缩KV缓存提高推理速度(下)
作者:佚名 文章来源:本站原创 点击数: 更新时间:2025/5/28 21:06:32 | 【字体:

  鲁音屋为提高其性能,他们构建了一个高质量的多源预训练语料库,包括8.1T的token,与DeepSeek 67B使用的语料库相比,该语料库的数据量有所增加,特别是中文数据,并且数据质量更高

  且其采用与DeepSeek 67B相同的分词器,该分词器基于字节级字节对编码(BBPE)算法构建,词汇量为100K,其分词预训练语料库包含8.1T个token,其中中文token比英文标记多约12%

  对于模型超参数,将Transformer层数设置为60,隐藏维度设置为5120——即 。所有可学习参数均以标准差0.006随机初始化

  KV压缩维度设置为512「可以看出」,其实也远远小于 查询压缩维度设置为1536——依然远小于 对于解耦查询和键,设置每头维度为64

  将除第一层外的所有前馈神经网络替换为专家混合层 每个专家混合层由2个共享专家和160个路由专家组成,每个专家的中间隐藏维度为1536

  在这些路由专家中,每个token将激活6个专家 此外,低秩压缩和细粒度专家分割将影响层的输出规模

  因此,在实践中,在压缩的潜在向量之后使用额外的RMS Norm层,并在宽度瓶颈处(即压缩的潜在向量和路由专家的中间隐藏状态)乘以额外的缩放因子,以确保训练的稳定性

  学习率使用预热和阶梯衰减策略进行调度(DeepSeek-AI,2024) 最初,学习率在前2K步期间从0线性增加到最大值。 随后,在训练约60%的token后,学习率乘以0.316,并在训练约90%的token后再次乘以0.316 其中,最大学习率设置为2.4 × 10−4,梯度裁剪范数设置为1.0

  还使用批量大小调度策略,在前225B token的训练中,批量大小从2304逐渐增加到9216,然后在剩余的训练中保持9216

  利用流水线并行技术在不同设备上部署模型的不同层,对于每一层,路由的专家将均匀部署在8个设备上 ( =8) 至于设备限制路由,每个token最多会被发送到3个设备上 ( =3)。关于平衡损失,我们将 1设置为0.003, 2设置为0.05, 3设置为0.02

  在训练期间采用Token-Dropping策略以加速,但在评估时不丢弃任何token

  鉴于DeepSeek-V2激活的参数相对较少,并且部分操作符会重新计算以节省激活内存,因此可以在不需要张量并行的情况下进行训练,从而减少通信开销

  此外,为了进一步提高训练效率,我们将共享专家的计算与专家并行的全对全通信重叠

  在 DeepSeek-V2 的初始预训练之后,他们采用 YaRN「关于YaRN,详见此文《大模型长度扩展综述:从直接外推ALiBi、插值PI、NTK-aware插值(对此介绍最详)、YaRN到S2-Attention》的第四部分」将默认上下文窗口长度从 4K 扩展到 128K

  对于 YaRN,将比例scale 设置为 40, 设置为 1, 设置为 32,并将目标最大上下文长度设置为 160K

  另由于 DeepSeek-V2独特的注意力机制——MLA,与原始 YaRN 略有不同,故调整了长度缩放因子以调节注意力熵。因子计算为,旨在最小化困惑度

  且另外训练了模型 1000 步,序列长度为 32K,批量大小为 576 个序列。尽管训练仅在32K的序列长度下进行,但在128K的上下文长度下评估时,该模型仍表现出强大的性能

  如下图所示,“大海捞针”(NIAH)测试的结果表明,DeepSeek-V2在所有上下文窗口长度(最长至128K)上表现良好

  尽管训练一个 MoE 模型会引入额外的通信开销,但通过相应的操作和通信优化,DeepSeek-V2 的训练可以达到相对较高的模型 FLOPs 利用率 (MFU)

  为了高效地部署DeepSeek-V2服务,首先将其参数转换为FP8精度。此外,我们还对DeepSeek-V2进行KV缓存量化(Hooper等,2024;赵等,2023),以进一步将其KV缓存中的每个元素平均压缩到6位 得益于MLA和这些优化,实际部署的DeepSeek-V2所需的KV缓存显著少于DeepSeek 67B,因此可以服务更大的批处理大小

  基于之前DeepSeek-AI,他们整理了包含 150 万实例的指令微调数据集,其中包括 120 万个有用性实例和 30 万个安全性实例

  与初始版本相比,改进了数据质量,以减少幻觉反应并提高写作能力且对 DeepSeek-V2 进行了 2 个周期的微调,学习率设置为 5 × 10−6

  主要包括基于生成的基准测试,除了几个具有代表性的多项选择任务(MMLU 和 ARC)

  且还对 DeepSeek-V2 Chat(SFT)进行了指令跟随评估(IFEval),使用提示级松散准确率作为指标

  为了进一步释放DeepSeek-V2的潜力并使其与人类偏好对齐,进行强化学习(RL)以调整其偏好,且为了节省强化学习的训练成本,采用了上文第一部分介绍过的GRPO——详见《一文速览DeepSeekMath及GRPO:通俗理解群体相对策略优化GRPO(含DeepSeek-Coder的简介)》

  在具体的训练策略上,采用了两阶段的强化学习训练策略,首先进行推理对齐,然后进行人类偏好对齐

  在第一个推理对齐阶段,我们训练了一个奖励模型用于代码和数学推理任务,并通过的反馈优化策略模型

  在第二个人类偏好对齐阶段,采用了一个多奖励框架,即 一个有帮助的奖励模型 一个安全奖励模型 一个基于规则的奖励模型获取奖励 从而一个响应的最终奖励 是 其中 1, 2, 和 3是相应的系数

  除了以上,更多DeepSeek相关见七月在线的《DeepSeek原理与项目实战营》

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  哈利伯顿32+12+15步行者3-1尼克斯 西卡30+5布伦森31+5

  32+12+15+0失误!被低估?哈利伯顿一战刷爆纪录 达成历史第1神迹

  金价巨震!高位买金线只浮动费率基金质地如何?交银瑞安需警惕,基金经理连续3年跑输基准

  《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 一文通透DeepSeek V2——通俗理解多头潜在注意… (05-28)
    普通电脑内存 中国股市:盘点医疗物资智能管理概念股(5月2… (05-27)
    普通电脑内存 最新欧美精品视频免播放器观看 (05-27)
    普通电脑内存 国偷产拍视频 MBA智库 (05-27)
    普通电脑内存 资讯中心:软件--快科技--科技改变未来 (05-26)
    普通电脑内存 从代码诗人到网红CEO从极致技术控到真诚生活家… (05-26)
    普通电脑内存 《无人深空》玩家永久死亡模式深陷绝境!坦然赴… (05-26)
    普通电脑内存 思源黑体官方版 (05-25)
    普通电脑内存 腾讯混元T1:推理模型新时代的震撼降临! (05-25)
    普通电脑内存 腾讯强势出击!混元T1深度思考模型震撼发布秒… (05-25)
    普通电脑内存 广州小鹏申请NPU指令生成方法、装置及芯片专利… (05-24)
    普通电脑内存 一体机身纯铝打造 徕卡T无反相机评测首发 (05-24)
    普通电脑内存 洛奇Mobile无法组队组队不了无响应解决办法 (05-24)
    普通电脑内存 内存是什么意思?用英文字母怎么表示? (05-23)
    普通电脑内存 十大豪车品牌排行榜 豪车品牌排行榜100 (05-23)
    普通电脑内存 报告认为 SK hynix 正在开发高能效 LPDDR5M内… (05-23)
    普通电脑内存 电脑内存在哪个位置 (05-22)
    普通电脑内存 爱爱大学网站免费观看 (05-22)
    普通电脑内存 内存有件大事——LPCAMM2 (05-22)
    普通电脑内存 金士顿在2025台北电脑展展示多尺寸CAMM2内存模… (05-21)