月高高心寥寥来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。
训练 AI 模型的成本很高,只要能够降低这些日益复杂的transformer 模型的推理成本,世界在一定程度上可以容忍这一点。训练涉及研究、开发和开销,但推断是为了赚钱——无论是通过寻找新收入,还是通过从企业或其他机构的工作流程中消除成本高昂的人员。
鉴于此,近年来人们更加关注推理硬件及其成本,特别是因为 Transformer 模型需要非常重的节点来提供较低的响应时间——大约 200 毫秒,这是普通人和小昆虫的注意力跨度。
众所周知,我们认为,鉴于 PyTorch 框架和 Llama 模型(均来自 Meta Platforms)的开源性质,以及它们与其他超大规模计算公司和云构建者创建和使用的开放 AI 框架和闭源 AI 模型的竞争力,我们认为 PyTorch/Llama 组合将非常受欢迎。AMD 的技术人员确保 Antares GPU 首先针对此堆栈进行了优化,这并非偶然。
这里有一个简单的前提:需要多少个 GPU 来容纳 4050 亿个参数变体的 Llama 3.1 权重,包括这些权重和内存开销?看一看:
如果您将数学精度降低到 FP8(通过眯着眼睛模糊数据),数据将全部缩小一半,并且权重仅需 405 GB,开销仅需 121.5 GB。这意味着您可以将其放入一半的计算引擎中。如果您将其降低到 FP4 精度,眯着眼睛看得更远,您将 HBM内存量减少一半,并且所需的 GPU 数量也减少一半,因为数据又减少了一半。同样,为了降低数据精度,您需要牺牲 LLM 响应的一些准确性。
使用常见的 Hopper H100 GPU 及其仅 80 GB 的 HBM 内存,您需要两张八路 HGX 卡才能满足 Llama 3.1 405B 的重量和开销。(实际上,您需要 13.2 张 GPU,但实际上,您必须以 8 张为一包购买。)如果您降到 FP8 精度,则可以在一个带有 8 张 Hopper GPU 的单个 HGX 板上将其全部安装在一个服务器系统上。
使用单个 AMD MI300X 八路 GPU 板的系统可以轻松适应 Llama 3.1 405B 模型的模型权重。事实上,如果您可以这样购买,只需要 5.5 个 GPU 就可以做到这一点。另一种看法是,使用合适的 MI300X GPU,就可以对具有大约 5900 亿个参数的未来 Llama 模型进行推理(假设权重和开销呈线性增长),所有这些都在八路系统板的共享内存范围内进行。
我们不喜欢 H200、B100 和 B200 GPU 没有被纳入比较,我们也始终认为,除了性能和内存容量之外,金钱也是一个必须考虑的因素。因此,我们采用了人工分析的想法,并在下表中运用了它:
说到这里。以如今 GPU 的价格,我们认为装载了 GPU 的机器将用于 LLM 推理和 LLM 训练。因此,我们将使用这些八路 GPU 主板构建的服务器的基本配置非常庞大,具有双 X86 CPU,具有大量内核和大量主内存(2 TB),大量用于东西向流量的网络带宽(八张 200 Gb/秒卡)和大量本地闪存(6.9 TB)。我们认为这样配置的基本机器(减去 GPU)的成本约为 150,000 美元。
最终的系统价格(将 GPU 板添加到基础 X86 硬件)仅供参考,而非购物指南。实际价格受需求压力和时间问题的影响,人们通常会为 GPU 支付更多费用。对于推理,您可能能够使用更少的网络和主机服务器上更轻的内存和闪存。但是,在紧急情况下,当您尝试在其上进行训练时,您会受到轻量配置的阻碍。
因此,我们的想法是这样的。是的,HBM 内存容量将决定推理服务器的配置,并且您希望以这些价格购买尽可能少的 GPU,同时为模型增长留出一点空间。
因此,您需要查看每单位 HBM 内存的成本,正如您所看到的,在系统级别,如果我们对 AMD 和 Nvidia GPU 的基本定价大致正确,那么 AMD 将在 MI300X 方面具有显着优势。
某些 AI 工作负载对内存带宽的敏感度将高于对内存容量或给定精度下的计算容量的敏感度。在这方面,我们预计基于 MI300X 的系统在每单位内存带宽成本方面将与使用 Nvidia B200 GPU 加速器的系统相当。基于 Nvidia HGX B200 主板的系统将在相同的 1.5 TB 内存下提供 51% 以上的带宽,但成本要高出 51%。(我们独立得出了这两个数字。我们没有猜测价格上涨会与内存带宽上涨相匹配。我们将看看 Nvidia 和市场实际上会做什么。)
有趣的是,如果定价符合我们的预期,使用 B100 的系统将提供更物有所值的内存容量和内存带宽,但 B100 预计不会提供同等水平的计算性能。B100 和 B200 的 FP4 数字是线%,原因 Nvidia 尚未解释。B200 的内存容量可能比 B100 高 6.7%,这将有所帮助,但看起来 B100 在今年晚些时候开始发货时激活的流式多处理器将比 B200 少。
有趣的是,就原始峰值浮点规格而言,Nvidia B100 将击败 MI300X,而 B200 的表现甚至会更好,正如您所见。在峰值 FP16 性能水平上,将 B100/B200 与 MI300X 进行比较,它的性价比大约是 Nvidia 的两倍。
不过,与 Nvidia H100 和 H200 一样,AMD MI300X 现已上市,其性价比比 H200 高出 41% 到 66%。但请注意:根据 Nvidia 在 H200 发布期间发布的基准测试,在线 高出 1.9 倍。因此,请注意触发器与内存容量的比率以及触发器与内存带宽的比率,具体取决于您购买 GPU 的用途。AMD MI300X 和 Nvidia H100 和 H200 在这两个比率上大致相同,但 Nvidia B100 和 B200 的每内存容量和每内存带宽的触发器要多得多,而且由于内存限制,在实际工作负载下,可能无法实现该性能。
所以,在购买之前,一定要测试、测试、测试、购买。AMD MI325X 将于今年晚些时候推出,具有 288 GB 和 6 TB/秒,MI350 将于明年推出,具有 288 GB 和未知内存带宽,MI400X也将于 2026 年推出。
|