旌旗txt下载Meta 发布的一份研究报告显示,其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。
由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。尽管如此,Meta 团队还是保持了 90% 以上的有效训练时间。
IT之家注意到,在为期 54 天的预训练中,共出现了 466 次工作中断,其中 47 次是计划中断,419 次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。 GPU 问题是导致故障的主要原因,占意外中断的 58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。
在 419 个意外中断中,148 个(30.1%)是由各种 GPU 故障(包括 NVLink 故障)引起的,而 72 个(17.2%)是由 GPU 的 HBM3 内存故障引起的。有趣的是,54 天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。
为提高效率,Meta 团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta 还关注到了环境因素的影响,如午间温度波动对 GPU 性能的轻微影响,以及巨量 GPU 同时运行对数据中心电网的巨大压力。
然而,随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。以 xAI 计划中的 10 万块 H100 显卡集群为例,故障率可能会成倍增长,给未来的 AI 训练带来更大的挑战。
中国恒大新能源汽车集团有限公司发布公告称,关于潜在股份转让的讨论仍......
在印度降低智能手机及零部件进口关税,以推动当地的制造业及降低高端机......
日前,前OPPO副总裁沈义人在微博发文,对百度搜索引擎体验表示不满。他......
日前,调研机构IDC发布2024年第二季度中国折叠屏手机市场份额,该季度......
现在有最新消息,近日有数码博主进一步带来了小米15 Pro在影像方面的更......
比亚迪方程豹品牌总经理熊甜波今日在媒体沟通会上表示,方程豹汽车接下......
外媒援引研究机构的数据报道称,就出货量来看,国内厂商今年上半年在全......
从LG显示发布的财报来看,他们二季度营收6.708万亿韩元,环比增长28%,......
现在有最新消息,近日疑似OPPO的工程师带来了该系列机型电池上的更多细......
美团在香港上线的外卖平台 KeeTa 近期将供给品类拓展到便利店类别。......
据博主 @孙少军09 披露,零跑上周新增订单接近 8000,本月累积订单破 3......
据报道,奔驰汽车的电动车商务政策大变,目前该品牌4S店都在清理电动车......
日前,前OPPO副总裁沈义人在微博发文,对百度搜索引擎体验表示不满。他......
从LG显示发布的财报来看,他们二季度营收6.708万亿韩元,环比增长28%,......
比亚迪方程豹品牌总经理熊甜波今日在媒体沟通会上表示,方程豹汽车接下......
外媒援引研究机构的数据报道称,就出货量来看,国内厂商今年上半年在全......
7月26日至29日,西部数据携旗下创新的高性能存储解决方案亮相2024中国......
7月26日消息,据媒体报道,2024年OpenAI年亏损可能高达50亿美元。......
7月26日消息,东方甄选昨日晚间发布多项公告,宣布知名主播董宇辉离职......
“CrowdStrike 对全球商业造成的破坏,比所有勒索软件攻击的总和还要大......
2023年10月17日,百川智能对外披露已完成A1轮战略融资,融资金额3亿美......
|