英伟达最强通用大模型Nemotron-4登场

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

英伟达最强通用大模型Nemotr…
4K高阶游戏性能！华硕TUF GA…
联想GeekPro电脑主机上新：1…
如何看电脑显卡好坏电脑显卡…
4核8线程的ITX主机支持MATX主…
电脑一天24小时多少度电电脑…
【装机帮扶站】第989期：捂好…
人在网中何以自处
11款免费硬盘映像备份及恢复…
HD Tune pro硬盘检测工具怎么…
苹果将扩展自助维修计划支持…
小编惨痛维修路苹果售后究竟…
苹果自助维修计划现已覆盖搭…
以“奥铃M卡合伙人”制度发布…
国画销售渠道_字画_方式_一定…
电商平台的营销方式有哪些
cpu温度过高解决办法 cpu温度…
CPU温度太高怎么办
40度高温考验钻石侠如何给C…
电脑显示器推荐（2021年100款…
IT大神]显示器能薄过手机吗？…
不嘘、不黑、不吹！玩转低调…
全模组与LED完美结合金河田…
大雕展翅！技嘉B560M雪雕主板…
【科普】PC主要硬件CPU、主板…
服务器之 ECC 内存的工作原理
国家队入场为智算中心再添一…
高通8295座舱域控DHU内部基本…
笔记本上跑AI！英伟达推出全…
英伟达新显卡发布！笔记本AI…
英伟达显卡是什么档次
当前关注：电脑电源额定功率…
2023年想配一台电脑9000预算…
DIY小课堂开课了气味大师手…
体育摄影如何放心拍摄与存储…
固态硬盘是干什么用的
闪迪移动固态硬盘国潮风物版…
上海华硕笔记本电脑售后服务…
厦门华硕笔记本电脑售后客服…
广州华硕笔记本售后维修地址
微淼管理课：中小企业的传统…
传统分销与网络分销的区别
柏千网供应链阐述：传统供应…
cpu温度多少度是正常的介绍
英特尔回应 i7 7700K 高温问…
cpu温度多少度为正常
曝苹果头显有6种颜色和2种内…
显示器桌面贴图
电脑样机贴图
铭瑄电竞之心B550M主板上USB…

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

英伟达最强通用大模型Nemotron-4登场

作者：佚名文章来源：本站原创点击数：更新时间：2024/3/3 2:42:47 | 【字体：小大】

　　最强掌柜最近，英伟达团队推出了全新的模型Nemotron-4，150亿参数，在8T token上完成了训练。

　　值得一提的是，Nemotron-4在英语、多语言和编码任务方面令人印象深刻。

　　在7个评估基准上，与同等参数规模的模型相比，Nemotron-415B表现出色。

　　最近发表的LLM研究受到了Chinchilla模型「缩放定律」的启发给定固定计算预算，数据和模型大小一同优化。

　　研究表明，给定两个数据分布类似的IsoFLOP GPT模型，一个是在1.4万亿token上的65亿参数模型，另一个是3000亿token上的2800亿参数模型。

　　从推理的角度来看，将计算分配给更多数据的训练，而不是增加模型大小特别有吸引力，可以减少延迟和服务模型所需的计算量。

　　因此，语言建模训练工作的主要焦点已转向从CommonCrawl等公共资源中，收集高质量的数万亿token数据集。

　　具体来说，Nemotron-415B是在8万亿个token，包括英语、多语种、编码文本的基础上进行训练。

　　Nemotron-4采用了标准的纯解码器Transformer架构，并带有因果注意掩码。

　　研究人员使用旋转位置编码(RoPE)、SentencePiece分词器、MLP层的平方ReLU激活、无偏置项(bias terms)、零丢失率，以及无限制的输入输出嵌入。

　　研究人员在包含8万亿个token的预训练数据集上训练Nemotron-415B。

　　分为三种不同类型的数据:英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。

　　英语语料库由来自各种来源和领域的精选文档组成，包括网络文档、新闻文章、科学论文、书籍等。

　　研究人员发现，从这些语言中适当地采样token是在这些领域获得高准确度的关键。

　　此外，研究人员分别在图3和图4中共享预训练数据集中用于代码和多语言标记的分布。

　　研究人员使用8路张量并行和数据并行的组合来训练模型，还使用了分布式优化器，将优化器状态分片到数据并行副本上。随着批大小的增加，数据并行度从96增加到384。

　　表2总结了批大小提升的3个阶段，包括每次迭代时间和模型FLOP/s利用率(MFU)。MFU量化了GPU在模型训练中的利用效率。训练大约在13天内完成。

　　与最近的研究类似，研究人员发现在模型训练结束时，切换数据分布和学习率衰减时间表，可以极大地提高模型质量。

　　具体来说，在对整个8T预训练数据集进行训练之后，使用相同的损失目标，并对与预训练token相比的较少的token进行持续训练。

　　第一个分布是，从持续训练期间大部分token采样。它利用在预训练期间已经引入的token，但其分布将更大的采样权重放在更高质量来源上。

　　第二个分布，引入了少量基准式对齐示例，以更好地让模型在下游评估中回答此类问题，同时还增加来自模型性能较低区域的数据源的权重。

　　研究人员在涵盖各种任务和领域的下游评估领域评了 Nemotron-415B。

　　表3显示了Nemotron-415B在这组不同的任务中实现了最强的平均性能。

　　从表4可以看出，Nemotron-415B在现有模型中获得了BBH的最佳分数，增长了近7%。

　　几乎所有类似规模的开放模型都只根据Python相关任务的性能来确定其代码能力，而忽略了对其他编程语言能力的评估。

　　研究人员特别强调了Nemotron-415B在Scala、Julia和R等低资源编程语言上的卓越性能。

　　在表7中，可以清楚地看到Nemotron-4在所有模型中实现了最佳性能，在4次设置中实现了近12%的改进。

　　表9显示了MGSM上的性能，进一步证明了Nemotron-415B令人印象深刻的多语言能力。

　　在这项评估数学和多语言能力交集的挑战性任务中，Nemotron-415B在比较模型中实现了最佳性能，并且比最接近的分数提高了近30%。

　　Nemotron-415B不仅在中文翻译成英文方面表现出色，而且在中文直接翻译成其他语言方面也能取得令人印象深刻的效果。

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存：服务器之 ECC 内存的工作原理下一个电脑内存：没有了

　栏目文章

英伟达最强通用大模型Nemotron-4登场 (03-03)	服务器之 ECC 内存的工作原理 (03-02)
国家队入场为智算中心再添一把火 (03-02)	高通8295座舱域控DHU内部基本结构 (03-02)
电脑内存条的位置 (03-01)	计算机术语英文缩写 (03-01)
重点]主板组件英文缩写及名称解析 (03-01)	报道称特斯拉Cybertruck无法运行Steam：电脑内… (02-29)
今年如何购买内存 (02-29)	电脑内存越大越好吗？网友们各持己见！ (02-29)
DeepMind CEO最新专访：AGI将使能源变得廉价甚… (02-28)	电脑的内存是什么 (02-28)
玩游戏显示内存条什么意思游戏中内存不足什么… (02-28)	加入20L混动升级智舱第九代凯美瑞3月6日将上… (02-27)
小米14 Ultra正式官宣：2月22日发布！ (02-27)	内饰动力全面升级第九代凯美瑞将于3月初正式… (02-27)
存储战火重燃 (02-26)	Redmi Book Pro 16 2024笔记本评测：70W全能释… (02-26)
ddr5 16g和32g区别 (02-26)	大模型最快推理芯片一夜易主：谷歌TPU创业团队… (02-25)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！