返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 时代变了大人:RTX3090时代哪…
 四川内江罗茨风机风量和风压…
 清远揭阳罗茨风机风量和风压…
 LNG船能效指数和碳强度指标计…
 机械硬盘和固态硬盘的差距有…
 不仅不掉速还能升级容量!一…
 10TB 硬盘只要不到四百元 新…
 【手慢无】3500MBs!一线固态…
 美国政府警告希捷停止向华为…
 联想维修客服网点|联想笔记…
 苏州联想售后维修中心|联想…
 石家庄联想售后 石家庄联想客…
 深圳联想笔记本电脑售后客服…
 联想笔记本电脑维修|笔记本…
 爱朋医疗获2家机构调研:目前…
 火线位机构代表对话 小B渠道…
 华特达因:11月16日投资者关…
 海外独立站是什么?独立站有…
 九牧王:线上销售渠道主要包…
 宏碁(Acer)办公家用215英寸…
 超薄LED新旗舰 飞利浦239CL2…
 超薄LED 可挂壁易美逊P2280w…
 宏碁(Acer)暗影骑士27英寸…
 华硕ET2013超薄可壁挂一体电…
 苹果iPhone14上市时间是什么…
 科普|什么是持久内存?
 普通内存条和马甲内存条哪个…
 iQOO10处理器是什么 iQOO10可…
 手机运行内存和手机内存的关…
 笔记本CPU系列型号
 游戏笔记本电脑指南
 i9-12900H笔记本继续出货最低…
 如何选购属于自己的第一台笔…
 2022年笔记本电脑选购指南笔…
 技嘉X670E AORUS MASTER超级…
 CPU内存双超频AMD新架构性价…
 主板赏析:扩展插槽与接口
 知道工控机主板上的接口干啥…
 用PC我们应该知道的 主板知识…
 笔记本电脑报价大全_笔记本电…
 世界观速讯丨电脑速度太慢如…
 RTX 4080电脑来了攀升战舰系…
 显卡性能排行榜 2019年4月最…
 显卡性能天梯图2020 游戏笔记…
 1800X+GTX1080ti要多大电源才…
 RTX 4060用多大电源 4060预计…
 1050ti需要多大的电源
 3070TI用多大的电源?_RTX 3…
 不是越大越好!电源瓦数选太…
 Sims 4 193更新了……啥?+电…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑电源 >> 正文
高级搜索
时代变了大人:RTX3090时代哪款显卡配得上我的炼丹炉?
作者:佚名 文章来源:本站原创 点击数: 更新时间:2022/11/28 11:48:56 | 【字体:

  俊男坊19楼黄老板的 RTX 30 系列显卡 9 月 17 日就要发售了,现在我要怎么买 GPU?很急很关键。

  在 9 月 2 日RTX 30 系列发布时,英伟达宣传了新显卡在性能上和效率上的优势,并称安培可以超过图灵架构一倍。但另一方面,除了 3090 之外,新一代显卡的显存看起来又有点不够。在做 AI 训练时,新一代显卡效果究竟如何?

  近日,曾经拿到过斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在华盛顿大学读博的知名评测博主 Tim Dettmers 发布了一篇新文章,就深度学习从业者如何选择 GPU 发表了他的看法。

  众所周知,深度学习是一个很吃算力的领域,所以,GPU 选得好不好直接决定了你的炼丹体验。那么,哪些指标是你在买 GPU 时应该重视的呢?RAM、core 还是 tensor core?如何做出一个高性价比的选择?文本将重点讨论这些问题,同时指出一些选购误区。

  RTX 3070 打 2080Ti,这是真的吗?不少人已经被这样一张性能对比图「改变了信仰」。

  首先是 Tensor Core,它可以让你在计算乘法和加法时将时钟周期降至 1/16,减少重复共享内存访问,让计算不再是整个流程中的瓶颈(瓶颈变成了获取数据的速度)。现在安培架构一出,更多的人可以用得起带 Tensor Core 的显卡了。

  因为处理任务方法的特性,显存是使用 Tensor Core 进行矩阵乘法的周期成本中最重要的部分。具体说来,需要关注的参数是内存带宽(Bandwidth)。如果可以减少全局内存的延迟,我们可以进一步拥有更快的 GPU。

  我们预计两代配备 Tensor Core 的 GPU 架构之间的差异主要在于内存带宽,其他提升来自共享内存 / L1 缓存以及 Tensor Core 中更好的寄存器使用效率,预估的提升范围约在 1.78-1.87 倍之间。

  在实际应用中,通过 NVLink 3.0,Tesla A100 的并联效率又要比 V100 提升 5%。我们可以根据英伟达提供的直接数据来估算特定深度学习任务上的速度。与 Tesla V100 相比,A100 的速度提升是:

  看来对于计算机视觉任务来说,新架构的提升相对不明显。这可能是因为小张量尺寸、准备矩阵乘法所需的运算无法让 GPU 满负载。也可能是由于特定架构(如分组卷积)导致的结果。在 Transformer 上,预估的提升和实际跑起来非常接近,这可能是因为用于大型矩阵的算法非常简单,我们可以使用这些实际效果来计算 GPU 的成本和效率。

  当然,在发布会中英伟达着重指出:安培架构在稀疏网络的训练当中速度提升了一倍。稀疏训练目前应用较少,但是未来的一个趋势。安培还带有新的低精度数据类型,这会使低精度更加容易,但不一定比以前的 GPU 更快。

  英伟达花费大量精力介绍了新一代 RTX 3090 的风扇设计,它看起来很好,但并联起来效果如何还要打上问号。在任何情况下水冷都是效果更好的方案,如果想要并联 4 块 GPU,你需要注意水冷的解决方案——它们可能会体积过大。解决散热问题的另一种方法是购买 PCIe 扩展器,并在机箱内原先不可能的位置放 GPU。这非常有效,华盛顿大学的其他博士研究生和作者本人使用这种方法都取得了成功。它看起来不漂亮,但是可以让你的 GPU 保持凉爽!

  4 块 RTX 2080Ti 创始版 GPU 的装法:虽然看起来乱作一团,但用了两年没出问题。

  还有电源问题,RTX 3090 是一个 3 插槽 GPU,因此在采用英伟达默认风扇设计的情况下,你不能在 4x 的主板上使用它。这是合情合理的,因为它的标准功率是 350W,散热压力也更大。RTX 3080 的 320W TDP 压力只是稍稍小一点,想要冷却 4 块 RTX 3080 也将非常困难。

  在 4x RTX 3090 的情况下,你很难为 4x 350W = 1400W 的系统找到很好的供电方式。1600W 的电源或许可以,但最好选择超过 1700W 的 PSU——毕竟黄仁勋在发布中希望你给单卡的 RTX 3080 装上 700W 的电源。然而目前市面上并没有超过 1600W 的台式电脑电源,你得考虑服务器或者矿机 PSU 了。

  下图展示了当前热门的 Nvidia 显卡在深度学习方面的性能表现(以 RTX 2080 Ti 为对比基准)。从图中可以看出,A100(40GB)在深度学习方面表现最为强劲,是 RTX 2080 Ti 两倍还多;新出的 RTX 3090(24GB)排第二,是 RTX 2080 Ti 的 1.5 倍左右。但比较良心的是,RTX 3090 的价格只涨了 15%。

  排在天梯图顶端的显卡确实是香,但普通人更关心的还是性价比,也就是一块钱能买到多少算力。在讨论这个问题之前,先来看一下各种任务的大致内存需求:

  下图是根据各种 GPU 在亚马逊、eBay 上的价格和上述性能排行榜算出的「每一美元的 GPU 性能」:

  图 4:以 RTX 3080 为基准(设为 1),各种 GPU 的每一美元性能排行(4 个 GPU)。

  图 5:以 RTX 3080 为基准(设为 1),各种 GPU 的每一美元性能排行(8 个 GPU)。

  这里首先强调一点:无论你选哪款 GPU,首先要确保它的内存能满足你的需求。为此,你要问自己几个问题:

  我要拿 GPU 做什么?是拿来参加 Kaggle 比赛、学深度学习、做 CV/NLP 研究还是玩小项目?

  我选的这款 GPU 有什么额外要求吗?比如,如果我要买 RTX 3090,我能顺利地把它装进我的计算机里吗?我的电源瓦数够吗?散热问题能解决吗?

  上面说过,如果你要使用预训练 transformer 或从头训练小型 transformer,你的内存至少要达到 11GB;如果你要做 transformer 方向的研究,内存最好能达到 24GB。这是因为,之前预训练好的那些模型大多都对内存有很高的要求,它们的预训练至少用到了 11GB 的 RTX 2080 Ti。因此,小于 11GB 的 GPU 可能无法运行某些模型。

  除此之外,医学影像和一些 SOTA 计算机视觉模型等包含很多大型图像的任务(如 GAN、风格迁移)也都对内存有很高的要求。

  RTX 3070 和 RTX 3080 性能都很强大,就是内存有点小。但在很多任务中,你确实不需要那么大的内存。

  如果你想学深度学习,RTX 3070 是最佳选择,因为把模型或输入图像缩小一点就能学到大部分架构的基本训练技巧。

  对于原型神经网络而言,RTX 3080 是迄今为止性价比最高的选择。在原型神经网络中,你想用最少的钱买最大的内存。这里的原型神经网络涉及各个领域:Kaggle 比赛、为初创公司开拓思路 / 模型、以及用研究代码进行实验。RTX 3080 是这些场景的最佳选择。

  假设你要领导一个研究实验室 / 创业公司,你可以把 66-80% 的预算投到 RTX 3080 上,20-33% 用于推出带有强大水冷装置的 RTX 3090。这是因为,RTX 3080 性价比更高,而且可以通过一个 slurm 集群设置作为原型机共享。由于原型设计应该以敏捷的方式完成,所以应该使用更小的模型和更小的数据集,RTX 3080 很适合这一点。一旦学生 / 同事有了一个很棒的原型模型,他们就可以在 RTX 3090 机器上推出该模型并将其扩展为更大的模型。

  总之,RTX 30 系列是非常强大的,值得大力推荐。选购时还要注意内存、电源要求和散热问题。如果你在 GPU 之间有一个 PCIe 插槽,散热是没有问题的。否则,RTX 30 系列需要水冷、PCIe 扩展器或有效的鼓风机卡。

  作者表示,他会向所有买得起 RTX 3090 的人推荐这款 GPU,因为在未来 3-7 年内,这是一款将始终保持强大性能的显卡。他认为,HBM 内存在未来的三年之内似乎不会降价,因此下一代 GPU 只会比 RTX 3090 的性能提升 25% 左右。未来 5-7 年有望看到 HBM 内存降价,但那时你也该换显卡了。

  对于那些算力需求没那么高的人(做研究、参加 Kaggle、做初创公司),作者推荐使用 RTX 3080。这是一个高性价比的解决方案,而且可以确保多数网络的快速训练。

  如果你觉得 RTX 3070 还是太贵了,可以选择一个二手 RTX 2070。现在还不清楚会不会有 RTX 3060,但如果你确实预算有限,可以选择再等等。

  GPU 集群的设计高度依赖于你的应用场景。对于一个 + 1024 GPU 的系统,网络是最重要的;但如果用户的系统一次只用 32 个 GPU,那大手笔投资网络基础设置就是一种浪费。

  一般情况下,RTX 显卡被禁止通过 CUDA 许可协议接入数据中心,但通常高校例外。你可以与英伟达取得联系,以寻求豁免。

  如果你被允许使用 RTX 显卡,作者推荐使用装有 RTX 3080 或 RTX 3090 的标准 Supermicro 8 GPU 系统(如果散热没问题的线 节点就可以保证原型的 rollout,特别是在无法保证 8x RTX 3090 服务器能够有效冷却的情况下。在这种情况下,作者推荐使用 A100,而不是 RTX 6000 / RTX 8000,因为 A100 性价比很高,也颇有潜力。

  如果你想在 GPU 集群上训练非常大的网络,作者推荐装备了 A100 的 NVIDIA DGX SuperPOD 系统。在 +256 GPU 的规模下,网络变得非常重要。如果你想扩展到 256 个 GPU 以上,你就需要一个高度优化的系统。

  与 TPU 系统相比,GPU 系统可以为深度学习模型和应用提供更大的灵活性,但 TPU 系统也有优势,它可以支持更大的模型并提供更好的扩展。

  不建议买 Tesla V100 或 A100,因为性价比不高,除非你被逼无奈或者想在庞大的 GPU 群集上训练非常大的网络。

  如果已经拥有 RTX 2080 Ti 或更好的 GPU,升级到 RTX 3090 可能没什么意义。相比于 RTX 30 系列的 PSU 和散热问题,性能提升所带来的好处有些微不足道。从 4x RTX 2080 Ti 升级到 4x RTX 3090 的唯一原因可能是,在做 Transformer 或其他高度依赖算力去训练网络的研究。

  如果你有一个或多个 RTX 2070 GPU,这也已经相当不错了。但如果常常受到 8GB 内存的限制,那么转让这些再入手新的 RTX 3090 是值得的。

  用户关于 GPU 肯定有很多不了解甚至是误解的地方,本文作者做出了以下相关问答总结,主要涉及 PCle 4.0、RTX3090/3080 以及 NVLink 等等。

  一般来说不需要。如果你有一个 GPU 集群,那么拥有 PCle 4.0 棒极了。如果你有一个 8x GPU 机器,那么拥有 PCle 4.0 也挺好的。但除此之外,PCle 4.0 就没什么用。

  PCle 4.0 可以实现更好的并行化处理以及更快的数据传输。但是数据传输不会成为任何应用中的瓶颈。在计算机视觉领域,数据存储可以成为数据传输 pipeline 的瓶颈,但从 CPU 到 GPU 的 PCle 传输却不会成为瓶颈。

  所以对于大多数人来说,PCle 4.0 是没有必要的。在 4 个 GPU 设置下,PCle 4.0 只能实现 1%-7% 的并行化提升。

  在 4x 通路上运行 GPU 就挺好的,特别是当你只有 2 个 GPU 时。在 4 个 GPU 设置下,作者倾向于每个 GPU 上有 8x 通路,但如果你在全部 4 个 GPU 上进行并行化处理,则在 4x 通路上运行可能仅降低大约 5%-10% 的性能。

  你需要一个双插槽变体或者尝试使用 PCle 扩展器。除了空间外,还应该考虑冷却和合适的 PSU。所以最可行的解决方案是获取带有自定义水冷回路的 4x RTX 3090 EVGA Hydro Copper。

  PCle 扩展器或许也可以同时解决空间和冷却问题,但你需要确保有足够的空间来扩展 GPU。

  也许你想要使用多个不同型号的 GPU 的原因是:想要利用旧的 GPU。这种情况下正常运行是没问题的,但这些 GPU 上的并行化处理将会非常低效,因为速度最快的 GPU 需要等待最慢的 GPU 来赶上一个同步点(通常是梯度更新)。

  一般来说没有用。NVLink 是 GPU 之间的高速互连,当你拥有一个配备 128 个 GPU 以上的 GPU 集群时,它才有用。否则相较于标准 PCle 传输来说,NVLink 几乎没有任何益处。

  实在不行,你还可以薅羊毛,去使用免费的 GPU 云服务。这种通常会有时间、账户等限制,超过之后需要付费。那么,就在不同账户之间切换使用吧,直到你买得起 GPU。

  这样的线Gbits/s 的网卡才能加快速度,之前作者写过一篇文章专门论述这件事()。现在的建议是至少要上 EDR Infiniband,也就是至少 50 GBit / s 带宽的网卡,价格大概在 500 美元左右。

  不建议使用英特尔 CPU,除非你要在 Kaggle 竞赛中大量使用 CPU。即便如此,使用 AMD CPU 也很棒。就深度学习而言,AMD CPU 通常比 Intel CPU 更便宜且更好。

  对于内置的 4x GPU,作者的首选是 Threadripper。在大学期间作者曾使用 Threadripper 搭建了数十个系统,它们都运行良好。对于 8x GPU 系统,CPU 和 PCIe / 系统的可靠性比直接的性能或性价比更重要。

  GTX XX90 的名称通常会留给双 GPU 卡,现在英伟达算是打破了这个规则。从价格和性能上看,RTX 3090 似乎取代了 RTX 3080 Ti。

  如果 GPU 之间存在间隙的话,通常能够很好地冷却。机箱的设计会带来 1-3 摄氏度的效果提升,但 GPU 之间的空间将带来 10-30 摄氏度的效果提升,所以说只要 GPU 之间留有空间,散热就不成问题。但如果 GPU 之间没有空间,则需要好的散热器设计(风扇)和其他解决方案(水冷、PCIe 扩展)。

  就纯硅芯片来说,AMD 的 GPU 非常优秀:出色的 FP16 性能和内存带宽。但与英伟达 GPU 相比,在缺少张量核心或等效条件下,AMD 的深度学习性能更差。大量的低精度数学运算也未能解决这个问题。达不到这种硬件功能,AMD GPU 将永远无法与之竞争。有传言表明,一些与张量核心等效的 AMD 数据中心卡计划于 2020 年推出,但估计很少有人会买吧。

  即便假设 AMD 将来会推出类似张量核心的硬件功能,但很多人也会说:「可是没有适用于 AMD GPU 的软件,我该如何使用它?」这里存在一些误解,AMD ROCm 平台日渐成熟,并且对 PyTorch 也实现了原生支持,大可不必担心。

  如果你解决了软件和不具有张量核心的问题,还会意识到另外一个问题:AMD 的社区不成熟。如果你在使用英伟达 GPU 时遇到了什么问题,可以 Google 一下找到解决方案,而且还能了解到很多的使用技巧和专业人士的经验帖。AMD 在这方面就不那么尽如人意了。

  拿编程语言来举例的话,就像是 Python 和 Julia 的关系。Julia 被认为潜力巨大,而且是科学计算领域的高级编程语言,但其使用者数量与 Python 完全无法相提并论。归根结底是因为 Python 社区非常完善。

  在前沿研究重要性高于开发实体产品的行业,专用 GPU 的利用率较低。从研究领域上看,一些领域的利用率很低(可解释性研究),另一些领域的利用率则高得多(机器翻译、语言建模)。通常人们都会高估个人计算机的利用率,所以作者强烈建议研究小组和企业使用 slurm GPU 集群,但个人的话就不必了。

  对于个人来说,这些 GPU 不要买:任何 Tesla 卡、任何 Quadro 卡、任何「创始版」GPU,还有包括 Titan RTX 的所有型号泰坦。

  什么也别说了,我没有钱:请使用各家云服务的免费额度,直到你买得起 GPU。

  我是一个高端的计算机视觉、预训练模型或者机器翻译研究人员:四块 RTX 3090 并联,但请等散热压得住的版本出现,而且也要考虑电源负载(作者还会继续更新这篇文章,可以等待未来的评测)。

  我是普通 NLP 研究者:如果不研究机器翻译、语言模型、预训练等,一块 RTX 3080 应该就够了。

  我要入门深度学习,不开玩笑:你可以从购买一块 RTX 3070 开始,如果半年之后仍然热情不减,你可以把 RTX 3070 出售,购买四块 RTX 3080。再远的未来,随着你选择路线不同,需求也会出现变化。

  我想试试深度学习:RTX 2060 Super 非常出色,但你可能需要为它更换电源。如果你的主板有 PCIe×16 卡槽,电源有 300W,一块 GTX 1050Ti 是最适合的。

  本文作者 Tim Dettmers 目前是华盛顿大学在读博士,他硕士毕业于瑞士卢加诺大学。对于 DIY 深度学习「炼丹炉」的人来说,这个名字应该不会陌生。他撰写并更新的深度学习 GPU 评测文章一直受人关注,Tim 的 AI 技术文章也时常被英伟达的开发博客所收录。

  值得一提的是,Tim Dettmers 在申请读博方面也颇有心得,他拿到了斯坦福大学、华盛顿大学、伦敦大学学院、卡内基梅隆大学以及纽约大学的 offer 并最终选择了华盛顿大学。在 2018 年的一篇博客文章中,他总结了自己申请读博的经验和技巧,需要的同学可以去读一下:《我收到了斯坦福、UCL、CMU、NYU、UW 的博士 offer,这是我的经验》 。

电脑电源录入:admin    责任编辑:admin 
  • 上一个电脑电源:

  • 下一个电脑电源: 没有了
  •  
     栏目
    普通电脑电源 时代变了大人:RTX3090时代哪款显卡配得上我的… (11-28)
    普通电脑电源 四川内江罗茨风机风量和风压计算电机功率公式 (11-28)
    普通电脑电源 清远揭阳罗茨风机风量和风压计算电机功率公式 (11-28)
    普通电脑电源 LNG船能效指数和碳强度指标计算 (11-28)
    普通电脑电源 1800X+GTX1080ti要多大电源才够用 游戏悍将SP… (11-28)
    普通电脑电源 RTX 4060用多大电源 4060预计比3强多少? (11-28)
    普通电脑电源 1050ti需要多大的电源 (11-28)
    普通电脑电源 3070TI用多大的电源?_RTX 3070TI最新消息汇总 (11-28)
    普通电脑电源 不是越大越好!电源瓦数选太大的害处 (11-28)
    普通电脑电源 组装电脑电源计算方法(怎么计算电脑需要多大… (11-27)
    普通电脑电源 电脑主机的电源要用多少瓦是怎么算的 (11-27)
    普通电脑电源 手把手教你电脑电源功率计算的方法 (11-27)
    普通电脑电源 帮朋友组装一台12490F加3070Ti显卡游戏主机亏… (11-27)
    普通电脑电源 要怎么才知道自己台式机的电源是多少啊 (11-27)
    普通电脑电源 40种CPU电压 昂达NF4 AM2主板测试 (11-27)
    普通电脑电源 长效稳定 华硕主板5重防护数字供电解析 (11-27)
    普通电脑电源 多少相供电够用?CPU超频来检验 (11-27)
    普通电脑电源 中华网--科技频道 (11-27)
    普通电脑电源 CPU供电电压 (11-27)
    普通电脑电源 功率 - OFweek电子工程网 (11-27)