返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 GPU推理谁最具性价比?
 神仙打架各显神通!8月即将上…
 荣耀MagicBook 14 2022(R5-6…
 联想GeekPro 2022(i5-12400F…
 苹果MacBook Air 2022(M28GB…
 航嘉GX550 PRO全模组电源
 航嘉睿智330DS
 航嘉WD650K全模电源
 佳创视讯获得发明专利授权:…
 磁盘分区怎么分
 十年内将被人遗忘的15种技术
 福州变速箱维修站福州自动变…
 农林大e修哥赴长乐爱心服务居…
 福州市工业和信息化局电脑维…
 二手sony笔记本报价多少
 铜陵最新二手信息汇总!快来…
 常德一女子网上购买二手平板…
 2016年度十五款笔记本推荐:…
 考虑过电脑感受?散热误区小…
 小白入门必备攻略 电脑风扇全…
 超扬 Z740
 清华同方线wLCD)
 清华同方线+)
 华硕PRIME Z690-P
 技嘉推出个人免费帮修选主板…
 技嘉推出个人免费帮修选主板…
 内存条涨价背后:厂家纷纷将…
 全球内存价格连涨六个季度有…
 Meta 训练 Llama 3 遭遇频繁…
 美国离谱制裁中国老头乐他们…
 RTX 4070及以上显卡严重缺货…
 Arrow Lake-S超前瞻:分离模…
 如何设置u盘启动
 bios设置u盘启动
 最强DIY一体电脑:兼容99%主…
 笔记本硬盘和移动硬盘有什么…
 更换PS3 HDD之硬盘转速缓存篇
 win10简易版需要多少硬盘容量…
 同一序列号被多辆新能源汽车…
 摆脱维修套路这样维修英朗变…
 机械师电脑质保期内主板故障…
 联想Y700-14ISK-IFI
 戴尔灵越Ins14-7430-R1665S(…
 华为MateBook D 15(R5-3500U…
 win11 mscorsvw空闲狂占CPU解…
 游戏经常未响应怎么办
 cpu占用率100怎么办 cpu占用…
 联想ThinkVision 发布4K裸眼…
 电脑显示器无信号
 2024ChinaJoy海信展台:100吋…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
GPU推理谁最具性价比?
作者:佚名 文章来源:本站原创 点击数: 更新时间:2024/7/31 8:55:03 | 【字体:

  月高高心寥寥来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。

  训练 AI 模型的成本很高,只要能够降低这些日益复杂的transformer 模型的推理成本,世界在一定程度上可以容忍这一点。训练涉及研究、开发和开销,但推断是为了赚钱——无论是通过寻找新收入,还是通过从企业或其他机构的工作流程中消除成本高昂的人员。

  鉴于此,近年来人们更加关注推理硬件及其成本,特别是因为 Transformer 模型需要非常重的节点来提供较低的响应时间——大约 200 毫秒,这是普通人和小昆虫的注意力跨度。

  众所周知,我们认为,鉴于 PyTorch 框架和 Llama 模型(均来自 Meta Platforms)的开源性质,以及它们与其他超大规模计算公司和云构建者创建和使用的开放 AI 框架和闭源 AI 模型的竞争力,我们认为 PyTorch/Llama 组合将非常受欢迎。AMD 的技术人员确保 Antares GPU 首先针对此堆栈进行了优化,这并非偶然。

  这里有一个简单的前提:需要多少个 GPU 来容纳 4050 亿个参数变体的 Llama 3.1 权重,包括这些权重和内存开销?看一看:

  如果您将数学精度降低到 FP8(通过眯着眼睛模糊数据),数据将全部缩小一半,并且权重仅需 405 GB,开销仅需 121.5 GB。这意味着您可以将其放入一半的计算引擎中。如果您将其降低到 FP4 精度,眯着眼睛看得更远,您将 HBM内存量减少一半,并且所需的 GPU 数量也减少一半,因为数据又减少了一半。同样,为了降低数据精度,您需要牺牲 LLM 响应的一些准确性。

  使用常见的 Hopper H100 GPU 及其仅 80 GB 的 HBM 内存,您需要两张八路 HGX 卡才能满足 Llama 3.1 405B 的重量和开销。(实际上,您需要 13.2 张 GPU,但实际上,您必须以 8 张为一包购买。)如果您降到 FP8 精度,则可以在一个带有 8 张 Hopper GPU 的单个 HGX 板上将其全部安装在一个服务器系统上。

  使用单个 AMD MI300X 八路 GPU 板的系统可以轻松适应 Llama 3.1 405B 模型的模型权重。事实上,如果您可以这样购买,只需要 5.5 个 GPU 就可以做到这一点。另一种看法是,使用合适的 MI300X GPU,就可以对具有大约 5900 亿个参数的未来 Llama 模型进行推理(假设权重和开销呈线性增长),所有这些都在八路系统板的共享内存范围内进行。

  我们不喜欢 H200、B100 和 B200 GPU 没有被纳入比较,我们也始终认为,除了性能和内存容量之外,金钱也是一个必须考虑的因素。因此,我们采用了人工分析的想法,并在下表中运用了它:

  说到这里。以如今 GPU 的价格,我们认为装载了 GPU 的机器将用于 LLM 推理和 LLM 训练。因此,我们将使用这些八路 GPU 主板构建的服务器的基本配置非常庞大,具有双 X86 CPU,具有大量内核和大量主内存(2 TB),大量用于东西向流量的网络带宽(八张 200 Gb/秒卡)和大量本地闪存(6.9 TB)。我们认为这样配置的基本机器(减去 GPU)的成本约为 150,000 美元。

  最终的系统价格(将 GPU 板添加到基础 X86 硬件)仅供参考,而非购物指南。实际价格受需求压力和时间问题的影响,人们通常会为 GPU 支付更多费用。对于推理,您可能能够使用更少的网络和主机服务器上更轻的内存和闪存。但是,在紧急情况下,当您尝试在其上进行训练时,您会受到轻量配置的阻碍。

  因此,我们的想法是这样的。是的,HBM 内存容量将决定推理服务器的配置,并且您希望以这些价格购买尽可能少的 GPU,同时为模型增长留出一点空间。

  因此,您需要查看每单位 HBM 内存的成本,正如您所看到的,在系统级别,如果我们对 AMD 和 Nvidia GPU 的基本定价大致正确,那么 AMD 将在 MI300X 方面具有显着优势。

  某些 AI 工作负载对内存带宽的敏感度将高于对内存容量或给定精度下的计算容量的敏感度。在这方面,我们预计基于 MI300X 的系统在每单位内存带宽成本方面将与使用 Nvidia B200 GPU 加速器的系统相当。基于 Nvidia HGX B200 主板的系统将在相同的 1.5 TB 内存下提供 51% 以上的带宽,但成本要高出 51%。(我们独立得出了这两个数字。我们没有猜测价格上涨会与内存带宽上涨相匹配。我们将看看 Nvidia 和市场实际上会做什么。)

  有趣的是,如果定价符合我们的预期,使用 B100 的系统将提供更物有所值的内存容量和内存带宽,但 B100 预计不会提供同等水平的计算性能。B100 和 B200 的 FP4 数字是线%,原因 Nvidia 尚未解释。B200 的内存容量可能比 B100 高 6.7%,这将有所帮助,但看起来 B100 在今年晚些时候开始发货时激活的流式多处理器将比 B200 少。

  有趣的是,就原始峰值浮点规格而言,Nvidia B100 将击败 MI300X,而 B200 的表现甚至会更好,正如您所见。在峰值 FP16 性能水平上,将 B100/B200 与 MI300X 进行比较,它的性价比大约是 Nvidia 的两倍。

  不过,与 Nvidia H100 和 H200 一样,AMD MI300X 现已上市,其性价比比 H200 高出 41% 到 66%。但请注意:根据 Nvidia 在 H200 发布期间发布的基准测试,在线 高出 1.9 倍。因此,请注意触发器与内存容量的比率以及触发器与内存带宽的比率,具体取决于您购买 GPU 的用途。AMD MI300X 和 Nvidia H100 和 H200 在这两个比率上大致相同,但 Nvidia B100 和 B200 的每内存容量和每内存带宽的触发器要多得多,而且由于内存限制,在实际工作负载下,可能无法实现该性能。

  所以,在购买之前,一定要测试、测试、测试、购买。AMD MI325X 将于今年晚些时候推出,具有 288 GB 和 6 TB/秒,MI350 将于明年推出,具有 288 GB 和未知内存带宽,MI400X也将于 2026 年推出。

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 GPU推理谁最具性价比? (07-31)
    普通电脑内存 神仙打架各显神通!8月即将上市三款SUV看点十… (07-31)
    普通电脑内存 内存条涨价背后:厂家纷纷将产能挪到利润较高… (07-30)
    普通电脑内存 全球内存价格连涨六个季度有望“减速” (07-30)
    普通电脑内存 Meta 训练 Llama 3 遭遇频繁故障:16384 块 H… (07-30)
    普通电脑内存 32GB套条只要500多?从4800到60玖合星域内存实… (07-28)
    普通电脑内存 臧继辉委员:5G你真的了解吗? (07-28)
    普通电脑内存 引发网民吐槽!韩国地铁被发现204个英文指示牌… (07-28)
    普通电脑内存 MTs与MHz谁是真正内存性能单位? (07-27)
    普通电脑内存 原神寻找完整降魔印的地方 原神降魔印在哪里使… (07-27)
    普通电脑内存 这个团队做了OpenAI没Open的技术让对齐大模型… (07-27)
    普通电脑内存 MATROX G2008M TV (07-26)
    普通电脑内存 什么最占手机内存空间 (07-26)
    普通电脑内存 内存故障的表现有哪些 (07-26)
    普通电脑内存 电脑内存条小常识:什么是闪存、什么是内存颗… (07-25)
    普通电脑内存 1G等于1000兆还是等于1024兆? (07-25)
    普通电脑内存 内存条是ram还是rom (07-25)
    普通电脑内存 Chrome新增内存释放开关:再次优化内存占用问… (07-24)
    普通电脑内存 基于SAP HANA的华为一体机采用英特尔傲腾持久… (07-24)
    普通电脑内存 内存条什么牌子好 (07-24)