无颜之月第一部其实90级别产品在NVIDIA早几代的型号中,属于TITAN级别,其超大显存是标志性差别。而80级产品才是玩家认知中的旗舰。
src=外包装依旧采用了哑光黑色硬纸盒,而且可以清楚地看到GeForce RTX 4080字体的变化,GeForce RTX的英文字样更圆滑,而数字则更厚实。
src=打开后的包装有点像帐篷形状,而如果买来收藏的话,显卡展示的角度也非常合适。有意思的是,显卡周围的装饰纹路自带震惊效果。
src=不过这次相比RTX 4090不同的是,本次GeForce RTX 4080包装内附赠的是一根16pin转8pin*3的转接线W,当然有条件的玩家还是建议使用最新标准的ATX 3.0电源。
src=NVIDIA GeForce RTX 4080的整体设计依旧沿用了RTX 30系显卡的外观,但由于架构升级,发热量增大,散热自然也需要同步升级。
src=本次GeForce RTX 4080的整卡功耗为320W,采用单16pin的辅助供电。目前已有部分电源厂商发布了最新的ATX 3.0标准高端电源,自带12VHPWR的16pin供电接口,最高可支持600W供电。所以不出意外的话,或许下一代显卡也将采用这样的单16pin来供电。
需要注意的是,目前适用于RTX 30系列的12pin接口和电源转接器与RTX 40系列显卡不兼容。
src=其实根据完整的架构图就能看出,此次Ada架构整体结构性的改动并不大,这一点从SM单元便能清晰印证,同样的FP32 CUDA核心,同样的FP32/INT32混合CUDA核心,同样的L1级缓存等等。当然,每个SM单元内部的Tensor Core升级为第四代。
src=不过变化最为显著的,则是第三代光追核心,我们结合两代架构来看。在第二代光追核心中,包含负责边界交叉测试的Box Intersection Engine引擎,和负责三角形交叉测试的Triangle Intersection Engine引擎。
src=至此,每2个SM单元组成一个TPC单元,每6组TPC单元组成一个完整的GPC顶层单元(在部分核心中,会出现5组TPC组成一个GPC单元的情况)。
由于整体架构分析篇幅较长,关于NVIDIA Ada架构的其他新特性就不在这里介绍了,将在文章末尾以附录的形式展开说明,有兴趣的用户可翻至最后。
src=本次测试平台的处理器采用了Intel最新的13代i9-13900K,性能绝对强悍,并且电源和显示器上进行了着重升级。
src=本次因为性能大幅升级,且DLSS 3的加入,所以线K时代已经来了。我们选择了爱攻&保时捷(Porsche Design)联合设计的PD32M。设计理念这里不再多讲,但这款显示器的性能也着实强悍。
src=本次固态硬盘我们选择了致态TiPlus7100,借助晶栈Xtacking 3.0架构闪存颗粒的强大优势,高达2400MT/s的闪存接口带宽为TiPlus7100带来高达7000MB/s和6000MB/s的最高读写速度,使性能达到了高阶PCIe4.0的水准,加上较高的TBW和5年硬核质保,是用户组建最新平台的优秀选择。
src=这里着重说明一下,i9-13900K在测试3DMARK FS成绩中存在BUG,GPU占用不足,导致分数较低;这里的FS成绩为i9-13900K处理器关闭小核心测试所得。
src=另外我们使用3DMARK刚刚更新的DLSS 3进行了相关性能测试。
src=首先在《地平线》中,可以明显看到,虽然我们使用了i9-13900K处理器,但在1080p分辨率下依然能感受到帧数瓶颈。
src=《光明记忆:无限》的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多,测试条件为RTX最高/DLSS质量。所以测试帧数相对较低,但实际游戏配置相当亲民。
src=在另外一款国产游戏《边境》的跑分软件中,情况基本与《光明记忆:无限》相同,测试条件均在RTX最高/DLSS质量下进行。
src=本次DLSS 3的测试图表比较繁琐,并且增加了1% Low FPS和延迟的测试,普通的FPS好理解,那么这个1% Low FPS是什么意思。
而1% Low FPS则是将一段时间内的帧数从大到小排列,取最小的1%出来,再对这1%的数求平均值。
src=src=看懂了1% Low FPS,我们再来看这张图表,在坐标轴左侧的为延迟(越低越好),坐标轴右侧的均为帧数(越高越好),并且由于牵扯到正负坐标,所以两侧的值有可能会不同。
src=src=《幻塔》是本次新增的DLSS 3测试,作为一款移动端和PC端多平台的游戏,在PC端中已经加入了光线追踪以及DLSS,并且相当耗费性能。
src=src=在《赛博朋克2077》中的数据反映比较真实,可以看到在DLSS关的光线追踪最高的情况下,即便GeForce RTX 4080显卡也只有28帧,并且延迟达到了126.5毫秒。
src=src=《瘟疫传说:安魂曲》目前已经发布,相信不少玩家都感受到了其精美的画面,不过除了显卡需求较高,同屏30万只老鼠对于CPU的要求也异常高。
src=src=目前《F1 22》的数据测试同样有问题,在DLSS关和DLSS 2中均没有延迟数据。这一组主要看帧数的提升。其中DLSS 3相比DLSS关的帧数提升了165%,DLSS 2的提升也达到了134%。
src=src=在国产游戏《逆水寒》的光追测试中,本次我们选择的测试demo采用了真正的全局光照。所以在我尝试关闭DLSS运行后,第一次电脑直接崩溃重启,第二次侥幸能够运行,帧数也仅有个位数,而延迟早已上万。
src=src=《暗影火炬城》也是本次新增的DLSS 3测试,在开启光追后对于性能要求明显提高。其中DLSS 3相比DLSS关的帧数提升了122%,DLSS 2的提升则达到了110%。
src=src=《毁灭全人类2》是一款开放世界爽游,玩家将扮演外星人入侵地球。在开启DLSS 3后不仅帧数相较关闭有87%的提升,1% Low的帧数提升更大,达到了123%。
src=src=在Unity的测试软件中,将会自动播放一段即时演算视频,我们通过FrameView记录全程。不过由于程序仅提供关闭和开启DLSS 3的操作,所以我们取两组分数。
src=src=在UE5提供的测试游戏中,方便的给出了DLSS的快捷测试,这里分为DLSS关(超分辨率关+帧生成关+Reflex关);DLSS 2(超分辨率性能+帧生成关+Reflex开);DLSS 3(超分辨率性能+帧生成开+Reflex开)三档测试。
src=当然针对画质方面,我们也进行了测试,在上图中我们截取《赛博朋克2077》中的一角,可以看到在两种DLSS模式下,相较原画质几乎没有明显变化,只在栅栏处的光影效果有所不同,但对于如此大幅度的帧数提升,这点瑕疵几乎可以忽略不计。
src=在SPECviewperf 13的软件测试中,可以看到部分软件对比上一代游戏旗舰RTX 3080 Ti的提升非常明显,其中3DS MAX的提升幅度达到81%。不过由于我们为1080p下的软件环境测试,RTX 4090在显存方面的优势并不明显。
src=src=Blender是一款专业的三维渲染软件,本次推出了固定的benchmark跑分软件,省去了安装软件下载素材的麻烦。这款跑分软件只需下载好启动程序,软件会自动渲染测试monster/junkshop/classroom共三个场景。
src=下面我们通过达芬奇来对NVIDIA AV1编码进行实测,对比输出为H.264编码。输出尺寸为4K UHD,质量选择最好,来看看两组成品有何区别。
src=由于我们没有固定码率,而选择了相同的画面质量,可以看到在同质量下,AV1所生成的视频码率更低,几乎为H.264的三分之一。
src=而低码率也就意味着视频体积越小,该段视频采用AV1编码的大小为H.264编码的四分之一,对于硬盘的空间节省非常明显,下面再来看看两段视频的画质表现如何。
src=我们选择NVIDIA的ICAT软件进行分屏对比,将这段4K视频放大500%后查看噪点情况。可以看到使用AV1编码远处角色的像素过度更平滑,几乎没有很明显的颗粒感,这波AV1完胜。
src=可以看到GeForce RTX 4080这张显卡对于温度的控制同样令人惊叹,看来改进的散热器效果显著。通过1小时左右的拷机测试,温度一直控制在64℃以下,热点温度也仅有74℃左右。
44%,相应的对比RTX 3080提升约为55%左右,称得上包里,但对比之前发布的RTX 4090稍逊一筹。
src=对于常规的3A游戏来说,RTX 4080能够在4K分辨率下体验到顺滑的百帧效果,虽然相比RTX 4090的电竞级有些差距,但对比上一代RTX 3080 Ti来说,提升了一大步的游戏体验。
src=但说到底,一切商品都是根据市场供需关系来调整的,接近万元的售价能够负担得起的还是少数玩家,也只能交给时间来打磨了。
不过RTX 40系最大的亮点在于DLSS 3的帧生成技术,它可以无视CPU瓶颈强行提升帧数,不过我们测试平台的13900k作为目前的旗舰处理器能碰到瓶颈确实不容易……但对于大部分玩家来说,CPU的更新换代相比于其他硬件更慢,相信目前正在使用9代10代处理器的依然大有人在,此时正式DLSS 3发挥作用的时候。
src=SER则可以将这些杂乱的指令重新分门别类,动态重组为更高效的工作负载。根据NVIDIA的说法,SER可将着色器性能最多提升2倍,并将游戏帧率最高提升25%。
src=举个简单的例子,当光线第一次从发射端到碰撞端是非常有规律的射线,而碰撞到物体后的二次光追,则会出现大量发散的、无规律的反射,这对于光追负载是非常高的。而从图中便能看到,SER可以将这些指令进行二次排序,以发挥出着色器的最大性能。
src=可以说SER对于手持RTX 20系及以上(能够开启光线追踪)的N卡用户来说,是极大地福音。毕竟免费提升的光追性能,谁不喜欢呢。
src=不过Opacity Micro-Map Engines可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则形状和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。
src=DMM由第三代RT core本地处理,与前几代相比,它只使用基本三角形渲染复杂几何图形,极大减少了存储和处理需求。
src=通过一些模型数据我们可以具体看到,新的DMM将模型简化了多少。原本1100万三角面的模型,经过简化后,只有15万左右的微网格,BVH的构建速度提升了8.5倍,小了6.5倍。
src=DLSS 3结合了DLSS超分辨率、DLSS帧生成和NVIDIA Reflex这三大技术,能够重建八分之七的像素,极大提高性能。
src=这也不负NVIDIA给它起了个神经网络渲染新时代的名号。纵观目前市面上的XeSS、FSR技术,DLSS绝对称得上巨人的肩膀。当然,连年的创新,苦的是手持上一代显卡的玩家,想体验DLSS 3的帧生成,目前唯一的办法就是购入一张RTX 40系显卡。
src=以《赛博朋克2077》为例,在第一帧,光流加速器会捕捉到每一个像素中的粒子、反射和光照等信息。并在第二帧中查找匹配的像素区域,计算帧之间的差值。
src=另外由于DLSS 3的帧生成是在GPU中处理和运行的,所以即使遇到CPU瓶颈的游戏,AI同样能够提升帧率。这也是为什么在此次发布会中说到,DLSS 3能够突破CPU的限制来提升帧数。
src=相比传统的H.264编码,AV1编码的效率平均提升了40%,在同码率下AV1编码的画质将更好。目前大部分直播的分辨率和清晰度,均受限于平台规定的最大比特率。以Twitch限制的8Mbps为例,可以看到在同等带宽下,同为2K 60帧的画面,采用AV1编码的清晰度明显比H.264更高。
src=所以,如图所见。NVIDIA已经为广大用户铺好了一条完整的生态链,从编码API、软件、平台到播放器,将全面支持AV1编码。
src=首先,根据官方宣传的,在4K H.265的导出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的导出速度上更是达到了2.5倍。这部分的提升,大家常用的剪映同样适用,感兴趣的用户不妨亲自体验一下。
随着图像逐渐进入到超清时代,硬件编码和渲染几乎已经成为不可或缺的帮手。虽然论质量,硬件编码仍不及CPU软编,但软编做到了极限画质,也要承受时间的无穷长。甚至在一张8K渲染图中,两种编码方式的时间差距就已经达到了几个小时,遑论一段10秒的CG动画。在不断进步的硬件编码中,质量和时间也在不断地被挑战和刷新。
src=1842年到1843年花了9个月时间翻译了Babbage的《分析机概论》的备忘录,写了很多注记,其中给出了用计算机进行Bernoulli数求解的详细说明。由此,Ada被广泛认为是世界上第一个程序员。
|