黄仁勋：NVIDIA 8年算力增长1000倍能耗降低350倍！

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

黄仁勋：NVIDIA 8年算力增长…
曝亚马逊《新世界》或会登录…
英伟达最新Blackwell GPU平台…
鑫谷昆仑九重1300W电源首次亮…
2024年6月组装电脑配置推荐 …
影驰GTX560黑将配置什么电源
硬盘通常可以按照什么分类？…
电脑用久了变慢变卡怎么办？…
现在笔记本主流配置是哪些
首发7999元！华硕无畏Pro15 …
华硕商用多款“明星”产品亮…
asus是什么牌子电脑华硕（AS…
盘点辽宁沈阳临期食品进货渠…
临期啤酒在哪里找货源？教你…
注册送68元电子游戏_全运体育…
电脑cpu过热如何处理
电脑温度过高怎么办？电脑CP…
如何处理电脑cpu太热
惊喜！华硕超薄显示器VX239H…
超薄简约宏碁20寸LCD促销价…
壁挂式嵌入式电脑
Computex 2024：铭瑄带来B76…
显卡挡住了pcie口怎么插网卡
华硕发布挖矿专用主板可支持…
小米电视3内存是多少
AMD A8-3870K的内存控制器是…
这样选绝对没错！CPU内存搭配…
显卡导购_泡泡网
买对不买贵蓝戟显卡618大促…
资讯中心：显卡--快科技--科…
索尼电视故障代码有哪些液晶…
PC电源的秘密——从零件到成…
测试结果对比及编辑总结
计算机会有意识吗？整合信息…
光电股份：该项目产品主要用…
德明利：公司存储模组产品已…
58同城等平台的家电维修乱象…
啄木鸟维修闯关上市背后：热…
啄木鸟维修冲击港股IPO小米、…
汉中电脑密集架总代（设备商…
政府采购变数大AI PC是联想的…
2015家电盘点之电脑篇：轻薄…
办公采购新选择？这款M-ATX机…
cpu温度70度正常吗
酷睿i5 3570K外壳温度是多少
2024台北电脑展开幕华硕携多…
34寸2K 180Hz高刷曲面屏的沉…
COMPUTEX 2024宏碁大秀肌肉：…
装机首选华硕重炮手主板 618…
华硕X870、下代ROG BTF背置主…

专题栏目

您现在的位置：电脑评测网 >> 电脑显卡 >> 正文

高级搜索

黄仁勋：NVIDIA 8年算力增长1000倍能耗降低350倍！

作者：佚名文章来源：本站原创点击数：更新时间：2024/6/10 17:29:17 | 【字体：小大】

　　99包邮清仓兔6月2日晚间，NVIDIA CEO黄仁勋在中国台湾大学综合体育馆发表主题为“开启产业革命的全新时代”的主题演讲。

　　在长达两个小时的发言中，黄仁勋梳理并介绍了NVIDIA如何推动人工智能（AI）演进，以及AI如何变革工业。

　　计算机行业发展至今已有 60 年的历史。从IBM System 360 引入了中央处理单元、通用计算、通过操作系统实现硬件和软件的分离、多任务处理、IO子系统、DMA以及今天使用的各种技术。

　　架构兼容性、向后兼容性、系列兼容性，所有今天对计算机了解的东西，大部分在1964 年就已经描述出来了。PC 革命使计算民主化，把它放在了每个人的手中和家中。

　　2007 年，iPhone 引入了移动计算，把计算机放进了我们的口袋。从那时起，一切都在连接并随时运行通过移动云。

　　这 60 年来，我们只见证了两三次，确实不多，其实就两三次，主要的技术变革，计算的两三次构造转变，而我们即将再次见证这一切的发生，即GPU（图形处理器）所带来的加速计算。

　　黄仁勋表示，计算机行业在中央处理器（CPU）上运行的引擎，其性能扩展速度已经大大降低。但我们必须做的计算量，仍然在以指数级的速度增长，如果所需的性能没有如此增长，那么行业将经历计算的通货膨胀。和计算成本的提升。

　　他指出，有一种更好的方法增强计算机的处理性能，减轻CPU的负担，那便是通过专用处理器，来实现了对于密集型应用程序的加速。

　　“现在，随着CPU扩展速度放缓，最终基本停止，我们应该加快让每一个处理密集型应用程序都得到加速，每个数据中心也肯定会得到加速，加速计算是非常明智的，这是很普通的常识。”黄仁勋表示。

　　他指出，计算机图形学是一门完全可以并行操作的学科。计算机图形学、图像处理、物理模拟、组合优化、图形处理、数据库处理，以及深度学习中非常著名的线性代数，许多类型的算法都非常适合通过并行处理来加速。

　　“通过结合GPU和CPU可以加速计算，我们可以让计算速度加快100倍，但功耗只增加了大约3倍，成本只增加了约 50%。”

　　在数据中心领域，NVIDIA也是这样做的，10亿美元的数据中心增加了5亿美元的GPU，它一下子变成了AI工厂。通过加速运算，还可以节省成本和能源。

　　黄仁勋指出，每一次加快应用程序的速度，计算成本就会下降，速度上升100倍，就可以节省96%、97%、98%的成本。在过去十年间，一种特定算法的边际计算成本降低了100万倍。

　　“现在我们得以用互联网上所有数据来训练大语言模型。人工智能出现成为可能，是因为我们相信随着计算变得越来越便宜，将会有人找到很好的用途。”

　　黄仁勋强调，加速计算确实带来了非凡的成果，但它并不容易。原因是因为这非常难。没有一种软件可以通过C编译器运行，突然间应用程序就快了100倍。这甚至不合逻辑。如果可以做到这一点，他们早就改造 CPU了。

　　因此，对于NVIDIA来说，必须重写软件，这是最难的部分。软件必须完全重写，以便能够重新表达在 CPU 上编写的算法，使其能够被加速、卸载并行运行。这种计算机科学的改变极其困难。

　　为了推动GPU所能够带来的计算加速，NVIDIA在2012年后改变了GPU的架构，采用Tensor Core（张量计算单元），并推出了一种协助“CPU任务分发+GPU并行处理”的编程模型/平台CUDA，用于加速GPU和CPU之间的计算。

　　可以说，CUDA 增强了 CPU，卸载并加速了专用处理器可以更好完成的工作。

　　随后，黄仁勋花了较大篇幅来强调NVIDIA运算平台CUDA的重要性。黄仁勋表示，作为使用神经网络来进行深度学习的平台，CUDA显著推动了计算机科学在近20年内的进展。现在，全球已有500万名CUDA开发者。

　　黄仁勋指出，CUDA已经实现了“良性循环”，能够在运算基础不断增长的情况下，扩大生态系统，令成本不断下降。

　　“这将促使更多的开发人员提出更多的想法，带来更多的需求实验，成为伟大事业的开端。”

　　在CUDA之后，NVIDIA还发明了NVLink（一种总线及其通信协议），然后是TensorRT、NCCL，收购了Mellanox，推出TensorRT-ML、Triton推理服务器，所有这些都整合在一台全新的计算机上，助力了生成式AI的诞生。

　　“当时没人理解这件事（推出CUDA，并使得NVIDIA GPU支持CUDA），我也不认为会有人来买，当时我们在GTC大会上宣布了这件事，旧金山的一家小公司OpenAI看到了，他们便要我给他们送去一台。”

　　黄仁勋表示，2016年，NVIDIA向OpenAI交付了第一台DGX超级计算机，随后继续扩展超级计算机的能力，以便训练大量数据。

　　2022年11月，基于成千上万的NVIDIAGPU加速卡，OpenAI推出了ChatGPT，并在5天内收获了上百万名用户。

　　黄仁勋表示，生成式人工智能的崛起，意味着我们可以学习并模拟物理现象，让人工智能模型理解并生成物理世界的各种现象。我们不再局限于缩小范围进行过滤，而是通过生成的方式探索无限可能。

　　如今，我们几乎可以为任何有价值的事物生成Token，无论是汽车的转向盘控制、机械臂的关节运动，还是我们目前能够学习的任何知识。因此，我们所处的已不仅仅是一个人工智能时代，而是一个生成式人工智能引领的新纪元。

　　更重要的是，NVIDIA最初作为超级计算机出现的设备，如今已经演化为一个高效运转的人工智能数据中心。

　　它不断地产出，不仅生成Token，更是一个创造价值的人工智能工厂。这个人工智能工厂正在生成、创造和生产具有巨大市场潜力的新商品。

　　“正如19世纪末尼古拉特斯拉（Nikola Tesla）发明了交流发电机，为我们带来了源源不断的电子，NVIDIA的人工智能生成器也正在源源不断地产生具有无限可能性的Token。这两者都有巨大的市场机会，有望在每个行业掀起变革。这确实是一场新的工业革命！”

　　黄仁勋兴奋的说道：“价值3万亿美元的IT行业，即将催生出能够直接服务于100万亿美元产业的创新成果。它不再仅仅是信息存储或数据处理的工具，而是每个行业生成智能的引擎。这将成为一种新型的制造业，但它并非传统的计算机制造业，而是利用计算机进行制造的全新模式。这样的变革以前从未发生过，这确实是一件令人瞩目的非凡之事。”

　　在今年3月的GTC2024大会，NVIDIA正式发布了面向下一代数据中心和人工智能应用的Blackwell GPU，时隔仅不到3个月，在此次的台大演讲当中，黄仁勋就披露了下一代的Blackwell Ultra GPU和再下一代的Rubin GPU。

　　据介绍，目前Blackwell芯片已经开始投产，它是当今世界上最复杂、性能最高的计算芯片。相比八年前的Pascal芯片，Blackwell芯片的AI算力提升了1000倍。

　　黄仁勋表示，NVIDIA在8年时间里，计算能力、浮点运算以及人工智能浮点运算能力增长了1000倍。这样的增长速度，几乎超越了摩尔定律在最佳时期的增长。

　　此外，相比八年前的Pascal芯片，Blackwell芯片用于训练GPT-4模型（2万亿参数和8万亿Token）训练的能耗下降了350倍。

　　黄仁勋解释称，如果使用Pascal进行同样的（GPT-4模型）训练，它将消耗高达1000吉瓦时的能量。

　　这意味着需要一个吉瓦数据中心来支持，但世界上并不存在这样的数据中心。即便存在，它也需要连续运行一个月的时间。而如果是一个100兆瓦的数据中心，那么训练时间将长达一年。

　　然而，利用Blackwell进行训练，则可以将原本需要高达1000吉瓦时的能量降低到仅需3吉瓦时，这一成就无疑是令人震惊的突破。

　　想象一下，使用1000个GPU，它们所消耗的能量竟然只相当于一杯咖啡的热量。而10,000个GPU，更是只需短短10天左右的时间就能完成同等任务。

　　Blackwell不仅适用于推理，其在Token生成性能上的提升更是令人瞩目。在

　　Pascal时代，生成每个Token消耗的能量高达17,000焦耳，这大约相当于两个灯泡运行两天的能量。而生成一个GPT-4的Token，几乎需要两个200瓦特的灯泡持续运行两天。

　　现在的情况已经截然不同，Blackwell的推出使得生成每个Token只需消耗0.4焦耳的能量，以惊人的速度和极低的能耗进行Token生成。

　　相比Pascal的Token生成能耗降低了约350倍，这无疑是一个巨大的飞跃。

　　但即使如此，NVIDIA仍不满足，为了更大的突破，在推出整合Blackwell芯片的DGX系统的同时，NVIDIA还在持续研发新一代的GPU。

　　根据外媒wccftech介绍，Rubin GPU将采用4x光罩设计，并将使用台积电3nm制程，以及CoWoS-L封装技术。

　　“在此展示的所有的新的芯片都处于全面开发阶段，确保每一个细节都经过精心打磨。我们的更新节奏依然是一年一次，始终追求技术的极致，同时确保所有产品都保持100%的架构兼容性。”黄仁勋说道。

　　但对于新的基于AI的工业革命来说，光有AI算力的提升这还不足以满足需求，特别是对于大型人工智能工厂来说更是如此，因此还必须使用高速网络将这些人工智能工厂连接起来。

　　其中，InfiniBand已经在全球各地的超级计算和人工智能工厂中广泛使用，并且增长迅速。然而，并非每个数据中心都能直接使用InfiniBand，因为很多企业在以太网生态系统上进行了大量投资，而且管理InfiniBand交换机和网络确实需要一定的专业知识和技术。

　　因此，NVIDIA的解决方案是将InfiniBand的性能带到以太网架构中，这并非易事。

　　原因在于，每个节点、每台计算机通常与互联网上的不同用户相连，但大多数通信实际上发生在数据中心内部，即数据中心与互联网另一端用户之间的数据传输。

　　然而，在人工智能工厂的深度学习场景下，GPU并不是与互联网上的用户进行通信，而是彼此之间进行频繁的、密集的数据交换。

　　它们相互通信是因为它们都在收集部分结果。然后它们必须将这些部分结果进行规约（reduce）并重新分配（redistribute）。

　　这种通信模式的特点是高度突发性的流量。重要的不是平均吞吐量，而是最后一个到达的数据，因为如果你正在从所有人那里收集部分结果，并且我试图接收你所有的部分结果，如果最后一个数据包晚到了，那么整个操作就会延迟。对于人工智能工厂而言，延迟是一个至关重要的问题。

　　所以，NVIDIA关注的焦点并非平均吞吐量，而是确保最后一个数据包能够准时、无误地抵达。

　　然而，传统的以太网并未针对这种高度同步化、低延迟的需求进行优化。为了满足这一需求，我们创造性地设计了一个端到端的架构，使NIC（网络接口卡）和交换机能够通信。

　　当GPU或NIC发送的数据量过大时，交换机会立即发出信号，告知它们减缓发送速率，从而有效避免网络热点的产生。

　　传统以太网按固定顺序传输数据，但在NVIDIA的架构中，其能够根据实时网络状况进行灵活调整。当

　　发现拥塞或某些端口空闲时，可以将数据包发送到这些空闲端口，再由另一端的Bluefield设备重新排序，确保数据按正确顺序返回。

　　在数据中心中，多个模型同时训练产生的噪声和流量可能会相互干扰，并导致抖动。NVIDIA的噪声隔离技术能够有效地隔离这些噪声，确保关键数据包的传输不受影响。

　　通过采用这些技术，NVIDIA成功地为人工智能工厂提供了高性能、低延迟的网络解决方案。

　　在价值高达数十亿美元的数据中心中，如果网络利用率提升40%而训练时间缩短20%，这实际上意味着价值50亿美元的数据中心在性能上等同于一个60亿美元的数据中心，揭示了网络性能对整体成本效益的显著影响。

　　幸运的是，带有Spectrum X的以太网技术正是NVIDIA实现这一目标的关键，它大大提高了网络性能，使得网络成本相对于整个数据中心而言几乎可以忽略不计。这无疑是NVIDIA在网络技术领域取得的一大成就。

　　目前NVIDIA已经拥有一系列强大的以太网产品线，其中最引人注目的是Spectrum X800。

　　这款设备以每秒51.2 TB的速度和256路径（radix）的支持能力，为成千上万的GPU提供了高效的网络连接。

　　接下来，我们计划一年后推出X800 Ultra，它将支持高达512路径的512 radix，进一步提升了网络容量和性能。

　　X 1600则是为更大规模的数据中心设计的，能够满足数百万个GPU的通信需求。

　　黄仁勋强调，随着技术的不断进步，数百万个GPU的数据中心时代已经指日可待。这一趋势的背后有着深刻的原因。

　　一方面，我们渴望训练更大、更复杂的模型；但更重要的是，未来的互联网和计算机交互将越来越多地依赖于云端的生成式人工智能。这些人工智能将与我们一起工作、互动，生成视频、图像、文本甚至数字人。

　　因此，我们与计算机的每一次交互几乎都离不开生成式人工智能的参与。并且总是有一个生成式人工智能与之相连，其中一些在本地运行，一些在你的设备上运行，很多可能在云端运行。这些生成式人工智能不仅具备强大的推理能力，还能对答案进行迭代优化，以提高答案的质量。这意味着我们未来将产生海量的数据生成需求。

　　NVIDIA还宣布，包括华硕、技嘉、鸿佰科技、英业达、和硕、云达科技、美超威、纬创及纬颖、永擎电子等将利用NVIDIA的GPU与网络技术，推出云端、本地端、嵌入式与边缘AI系统。

　　展望未来，机器人技术将不再是一个遥不可及的概念，而是日益融入我们的日常生活。

　　当提及机器人技术时，人们往往会联想到人形机器人，但实际上，它的应用远不止于此。

　　机械化将成为常态，工厂将全面实现自动化，机器人将协同工作，制造出一系列机械化产品。它们之间的互动将更加密切，共同创造出一个高度自动化的生产环境。

　　黄仁勋指出：“结合AI的机器人时代已经到来。有朝一日，移动的物体都将实现自主运行。我们正致力于通过推进NVIDIA机器人堆栈的发展，来加速生成式物理AI，其中包括用于仿真应用的 Omniverse、Project GR00T人形机器人基础模型，以及Jetson Thor机器人计算平台等。”

　　基于此，NVIDIA宣布，比亚迪电子、西门子、泰瑞达和 Alphabet 旗下公司Intrinsic等全球十多家机器人企业，正在采用NVIDIA的机器人平台NVIDIA Isaac研究、开发和生产下一代 AI 赋能的自主机器和机器人，以此提高工厂、仓库和配送中心的工作效率，使机器人的人类同事更安全地工作，并使机器人成为执行重复性或超精密任务的智能助手。

　　未来，工厂内的机器人将成为主流，它们将制造所有的产品，其中两个高产量机器人产品尤为引人注目：一个是自动驾驶汽车或具备高度自主能力的汽车；另一个则可能是由机器人工厂高产量制造的产品是人形机器人。

　　在自动驾驶汽车方面，NVIDIA宣布，明年计划计划与梅赛德斯-奔驰车队携手，随后在2026年与捷豹路虎（JLR）车队合作。

　　NVIDIA提供完整的解决方案堆栈，但客户可根据需求选择其中的任何部分或层级，因为整个驱动堆栈都是开放和灵活的。

　　在人形机器人方面，黄仁勋表示:“近年来，在认知能力和世界理解能力方面取得了巨大突破，这一领域的发展前景令人期待。我对人形机器人特别兴奋，因为它们最有可能适应我们为人类所构建的世界。与其他类型的机器人相比，训练人形机器人需要大量的数据。由于我们拥有相似的体型，通过演示和视频能力提供的大量训练数据将极具价值。因此，我们预计这一领域将取得显著的进步。”

　　黄仁勋还提出“数字人类”（digital humans）的概念，称“数字人类是我们的愿景”，可应用在客服、广告及电玩游戏等产业。

　　在演讲中，黄仁勋还披露了NVIDIA进军AI PC的企图心。黄仁勋强调，NVIDIA在每一个 RTX GPU 中安装了张量核心处理器，因此也可以理解为，现在全球有 1 亿台基于 GeForce RTX 的AI PC，有超过200款搭载NVIDIA芯片的RTX AI PC，包括华硕、微星等PC品牌厂商都是合作伙伴。

　　在本次 Computex 2024展会上，NVIDIA将展示四款新的令人惊叹的笔记本电脑。

　　黄仁勋表示:“它们都能够运行AI，运行由AI增强的应用程序。未来的PC 将成为一个AI，它将不断在后台帮助你、协助你。你所有的照片编辑、写作工具、你使用的一切工具都将由AI增强。你的PC还将托管带有数字人类的 AI 应用程序。因此，AI 将在不同的方式中表现出来并被用于PC中。PC 将成为非常重要的 AI 平台。”

　　考虑到目前NVIDIA在云端人工智能领域的统治地位，在生成式AI开始从云端进入到边缘端的趋势之下，NVIDIA希望凭借其强大的GPU能力以及近年来在自研Grace Arm CPU上积累的经验，以及期与PC制造商和服务器厂商多年来的深度合作，进入Arm Windows PC市场无疑一个市场机遇，特别是在PC市场正面临生成式AI PC所带来的换机潮的背景之下。

电脑显卡录入：admin 责任编辑：admin
	上一个电脑显卡：曝亚马逊《新世界》或会登录PS主机：商店页面现端倪下一个电脑显卡：没有了

　栏目文章

黄仁勋：NVIDIA 8年算力增长1000倍能耗降低3… (06-10)	曝亚马逊《新世界》或会登录PS主机：商店页面… (06-10)
英伟达最新Blackwell GPU平台即将登陆亚马逊云… (06-10)	显卡导购_泡泡网 (06-09)
买对不买贵蓝戟显卡618大促不容错过 (06-09)	资讯中心：显卡--快科技--科技改变未来 (06-09)
AMD RX 5700(XT)首发评测：7nm RDNA架构大改造… (06-08)	笔记本显卡天梯图简析【图解】 (06-08)
NVIDIA GeForce GTX 1050Ti (06-08)	AI PC加持显卡大厂挺进GPU服务器市场2024台北… (06-06)
电脑哪个是显卡 (06-06)	壹号本推出游侠X1锐龙版三合一电脑：搭锐龙R7… (06-06)
英伟达RTX 5090显卡仍采用双风扇设计：体积几… (06-05)	NVIDIA GeForce RTX 5090和5080BlackwellGPU传… (06-05)
英伟达显卡支持Copilot+AI PC行业要变天了？ (06-05)	“网红”英伟达不止想做“AI卖铲人” (06-04)
美国显卡和主板进口关税再推一年 PC硬件供应商… (06-04)	英伟达CEO称芯片缺货将持续到2022年华硕被逼到… (06-04)
老黄再动手术刀：GeForce RTX 5090将小砍仍然… (06-03)	6000以上轻薄本盘点：618笔记本电脑哪一款好预… (06-03)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！