返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 英伟达最强通用大模型Nemotr…
 4K高阶游戏性能!华硕TUF GA…
 联想GeekPro电脑主机上新:1…
 如何看电脑显卡好坏 电脑显卡…
 4核8线程的ITX主机支持MATX主…
 电脑一天24小时多少度电 电脑…
 【装机帮扶站】第989期:捂好…
 人在网中何以自处
 11款免费硬盘映像备份及恢复…
 HD Tune pro硬盘检测工具怎么…
 苹果将扩展自助维修计划支持…
 小编惨痛维修路 苹果售后究竟…
 苹果自助维修计划现已覆盖搭…
 以“奥铃M卡合伙人”制度发布…
 国画销售渠道_字画_方式_一定…
 电商平台的营销方式有哪些
 cpu温度过高解决办法 cpu温度…
 CPU温度太高怎么办
 40度高温考验钻石侠 如何给C…
 电脑显示器推荐(2021年100款…
 IT大神]显示器能薄过手机吗?…
 不嘘、不黑、不吹!玩转低调…
 全模组与LED完美结合 金河田…
 大雕展翅!技嘉B560M雪雕主板…
 【科普】PC主要硬件CPU、主板…
 服务器之 ECC 内存的工作原理
 国家队入场为智算中心再添一…
 高通8295座舱域控DHU内部基本…
 笔记本上跑AI!英伟达推出全…
 英伟达新显卡发布!笔记本AI…
 英伟达显卡是什么档次
 当前关注:电脑电源额定功率…
 2023年想配一台电脑9000预算…
 DIY小课堂开课了 气味大师手…
 体育摄影如何放心拍摄与存储…
 固态硬盘是干什么用的
 闪迪移动固态硬盘国潮风物版…
 上海华硕笔记本电脑售后服务…
 厦门华硕笔记本电脑售后客服…
 广州华硕笔记本售后维修地址
 微淼管理课:中小企业的传统…
 传统分销与网络分销的区别
 柏千网供应链阐述:传统供应…
 cpu温度多少度是正常的介绍
 英特尔回应 i7 7700K 高温问…
 cpu温度多少度为正常
 曝苹果头显有6种颜色和2种内…
 显示器桌面贴图
 电脑样机贴图
 铭瑄电竞之心B550M主板上USB…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
英伟达最强通用大模型Nemotron-4登场
作者:佚名 文章来源:本站原创 点击数: 更新时间:2024/3/3 2:42:47 | 【字体:

  最强掌柜最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8T token上完成了训练。

  值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。

  在7个评估基准上,与同等参数规模的模型相比,Nemotron-415B表现出色。

  最近发表的LLM研究受到了Chinchilla模型「缩放定律」的启发给定固定计算预算,数据和模型大小一同优化。

  研究表明,给定两个数据分布类似的IsoFLOP GPT模型,一个是在1.4万亿token上的65亿参数模型,另一个是3000亿token上的2800亿参数模型。

  从推理的角度来看,将计算分配给更多数据的训练,而不是增加模型大小特别有吸引力,可以减少延迟和服务模型所需的计算量。

  因此,语言建模训练工作的主要焦点已转向从CommonCrawl等公共资源中,收集高质量的数万亿token数据集。

  具体来说,Nemotron-415B是在8万亿个token,包括英语、多语种、编码文本的基础上进行训练。

  Nemotron-4采用了标准的纯解码器Transformer架构,并带有因果注意掩码。

  研究人员使用旋转位置编码(RoPE)、SentencePiece分词器、MLP层的平方ReLU激活、无偏置项(bias terms)、零丢失率,以及无限制的输入输出嵌入。

  研究人员在包含8万亿个token的预训练数据集上训练Nemotron-415B。

  分为三种不同类型的数据:英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。

  英语语料库由来自各种来源和领域的精选文档组成,包括网络文档、新闻文章、科学论文、书籍等。

  研究人员发现,从这些语言中适当地采样token是在这些领域获得高准确度的关键。

  此外,研究人员分别在图3和图4中共享预训练数据集中用于代码和多语言标记的分布。

  研究人员使用8路张量并行和数据并行的组合来训练模型,还使用了分布式优化器,将优化器状态分片到数据并行副本上。随着批大小的增加,数据并行度从96增加到384。

  表2总结了批大小提升的3个阶段,包括每次迭代时间和模型FLOP/s利用率(MFU)。MFU量化了GPU在模型训练中的利用效率。训练大约在13天内完成。

  与最近的研究类似,研究人员发现在模型训练结束时,切换数据分布和学习率衰减时间表,可以极大地提高模型质量。

  具体来说,在对整个8T预训练数据集进行训练之后,使用相同的损失目标,并对与预训练token相比的较少的token进行持续训练。

  第一个分布是,从持续训练期间大部分token采样。它利用在预训练期间已经引入的token,但其分布将更大的采样权重放在更高质量来源上。

  第二个分布,引入了少量基准式对齐示例,以更好地让模型在下游评估中回答此类问题,同时还增加来自模型性能较低区域的数据源的权重。

  研究人员在涵盖各种任务和领域的下游评估领域评了 Nemotron-415B。

  表3显示了Nemotron-415B在这组不同的任务中实现了最强的平均性能。

  从表4可以看出,Nemotron-415B在现有模型中获得了BBH的最佳分数,增长了近7%。

  几乎所有类似规模的开放模型都只根据Python相关任务的性能来确定其代码能力,而忽略了对其他编程语言能力的评估。

  研究人员特别强调了Nemotron-415B在Scala、Julia和R等低资源编程语言上的卓越性能。

  在表7中,可以清楚地看到Nemotron-4在所有模型中实现了最佳性能,在4次设置中实现了近12%的改进。

  表9显示了MGSM上的性能,进一步证明了Nemotron-415B令人印象深刻的多语言能力。

  在这项评估数学和多语言能力交集的挑战性任务中,Nemotron-415B在比较模型中实现了最佳性能,并且比最接近的分数提高了近30%。

  Nemotron-415B不仅在中文翻译成英文方面表现出色,而且在中文直接翻译成其他语言方面也能取得令人印象深刻的效果。

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 英伟达最强通用大模型Nemotron-4登场 (03-03)
    普通电脑内存 服务器之 ECC 内存的工作原理 (03-02)
    普通电脑内存 国家队入场为智算中心再添一把火 (03-02)
    普通电脑内存 高通8295座舱域控DHU内部基本结构 (03-02)
    普通电脑内存 电脑内存条的位置 (03-01)
    普通电脑内存 计算机术语英文缩写 (03-01)
    普通电脑内存 重点]主板组件英文缩写及名称解析 (03-01)
    普通电脑内存 报道称特斯拉Cybertruck无法运行Steam:电脑内… (02-29)
    普通电脑内存 今年如何购买内存 (02-29)
    普通电脑内存 电脑内存越大越好吗?网友们各持己见! (02-29)
    普通电脑内存 DeepMind CEO最新专访:AGI将使能源变得廉价甚… (02-28)
    普通电脑内存 电脑的内存是什么 (02-28)
    普通电脑内存 玩游戏显示内存条什么意思游戏中内存不足什么… (02-28)
    普通电脑内存 加入20L混动升级智舱 第九代凯美瑞3月6日将上… (02-27)
    普通电脑内存 小米14 Ultra正式官宣:2月22日发布! (02-27)
    普通电脑内存 内饰动力全面升级 第九代凯美瑞将于3月初正式… (02-27)
    普通电脑内存 存储战火重燃 (02-26)
    普通电脑内存 Redmi Book Pro 16 2024笔记本评测:70W全能释… (02-26)
    普通电脑内存 ddr5 16g和32g区别 (02-26)
    普通电脑内存 大模型最快推理芯片一夜易主:谷歌TPU创业团队… (02-25)