返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 GPU集大成者!GeForce GTX48…
 未来人类AMD-3070-600S4游戏…
 22年5月更新最新CPU天梯图显…
 苹果突然发布两颗芯片:M2 P…
 2019电脑cpu处理器最新排名
 cpu天梯图2018最新版 2018电…
 热门B760主板不知道怎么选?…
 华硕 PCIe 50 12-pin 供电接…
 发挥稳定这块板子妖味十足华…
 2023游戏佳作频出 华硕吹雪主…
 科个普:主板供电 最麻烦的事…
 40系列显卡比30系列强多少 4…
 4080显卡出了吗 支持PCI50吗…
 ARC迎战未来!GUNNIR A770 P…
 微星RTX 3060 Ti 魔龙显卡测…
 掠夺者Bifrost英特尔锐炫A77…
 如何计算电源功率
 跟着TDP配电源怎么就蓝屏了?…
 锂离子动力电池功率的测试以…
 RTX 4050显卡功耗多少 显卡用…
 四天省一度电:入门级80Plus…
 怎么看自己的电脑里面有没有…
 主板怎么查看固态硬盘信息技…
 怎么查看自己电脑硬盘的缓存…
 如何查看电脑硬盘
 小编教你如何查看硬盘是gpt还…
 京东开通个人快递业务:当日…
 上门服务被京东抛弃O2O真的要…
 无惧电脑卡死 京东推7×24小…
 套路太深!空调维修内幕曝光:…
 京东服务+推手机2小时上门维…
 CES 2023 首日发布会新品盘点…
 备齐数码年货为笔记本、雷电…
 笔记本配件评测
 ThinkBook双屏笔记本发布 首…
 联想新款 ThinkBook 16p 支持…
 手机上的内存融合技术是什么…
 Windows 7系统最低需1GB内存…
 锐龙R7 5800X3D支持多大的内…
 电脑内存介绍及安装指南
 电脑内存条的作用是什么 电脑…
 年货节必看!这几款华硕无畏…
 独创双屏幕+升降式散热!华…
 年货节选本看这 华硕无双轻薄…
 京东方独供华硕ROG系列高阶电…
 年货节高性能轻薄本换新 华硕…
 笔记本电脑重装系统后CPU风扇…
 电脑cpu风扇声音大有哪些解决…
 怎么解决笔记本风扇声音大的…
 Windows笔记本风扇声音过大解…
专题栏目
网络
您现在的位置: 电脑评测网 >> 显示器 >> 正文
高级搜索
GPU集大成者!GeForce GTX480470全球同步解密
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/1/21 5:42:12 | 【字体:

  都市花盗小说这一刻让我们等的太久了!除了当年的GeForce FX 5800 Ultra,NVIDIA从来没有哪一代产品落后AMD-ATI如此之久, 在落后Radeon HD5870发布半年这段时间内,我们对GeForce GTX 480充满了期待,在漫长的等待日子里,我们不断的对其憧憬,每一个有关于GeForce GTX 480都会让我们兴奋不已,哪怕毫无根据的谣言!因为NVIDIA这个词已经对显卡创新的代名词,我们不在乎等待,因为每个人都相信,GeForce GTX 480不会让我们失望!

  怎么样才能将一款显卡定位在完美?这个问题并不需要玩家回答,因为GeForce GTX 480将会我们诠释完美这个概念,GeForce GTX 480是一个全新的设计,它将完全颠覆之前对于显卡的定义,无论是游戏、通用计算、物理加速、DirectX 11、3D显示、近乎双倍的SLI性能,都会为我们带来前所未有的性能体验。

  有关于GeForce GTX 480的信息之前网络上已经曝光的非常多,可以说出了实际游戏性能及具体的频率规格,GeForce GTX 480已经没有什么秘密可言,但是GeForce GTX 480却又很多你并不了解的内涵

  游戏的发展趋势只有一个,就是更加接近真实世界,无论是静态的还是动态的,GPU的每次革新都是以此为目标,下面我们来回顾一下NVIDIA引领显卡高速发展的10年。

  1999年,GeForce 256实现了硬件转换与阴影(T&L),这可以说是GPU发展史上第一次重大革命,解放了CPU,GPU的概念也就是从GeForce 256开始提出的。T&L引擎主要是用来进行复杂的坐标处理和光源的运算,让用户能够感受到物体真实的光影。过去在没有T&L引擎的平台上,大部分坐标处理的工作及光影特效需要由CPU亲自来执行,因此占用了CPU太多的运算时间,从而造成整体画面不能非常流畅地表现出来。如果应用了T&L引擎,就将大大减轻CPU处理3D时的负荷,并且使CPU能够有更多的资源来处理更精彩的3D特效,提供更好的视觉效果,从那时起,GPU的3D运算能力已经凌驾于CPU之上。

  2001年,GeForce 3开始支持DirectX 8,并且首次引入了可编程着色的概念,这种像素与顶点分离式可编程单元设计一直延续了5年的时间,诞生了很多经典的产品,随后,GeForce FX在整个GPU中提供了 全32位浮点精度,虽然GeForce FX 5800 Ultra算不上成功,但是NVIDIA的创新精神是非常值得我们肯定的。

  2006年,GeForce 8问世,这也是世界上第一款支持DirectX 10的产品,采用了强大、高效统一的标量着色器设计,再次引发一场计算革命,也就是从G80开始,NVIDIA开始在自己的产品研发中重视起通用计算能力,并且一直延续,而AMD方面至今在GPU设计中仍没有注意到此点。GeForce GTX 200系列可以说是GeForce 8系列的延续,不过拥有更多的CUDA核心。

  今天,NVIDIA代号为GF100最新的GPU GeForce GTX 480发布,是首款基于GF100架构的的GPU。GF100可实现所有DirectX 11硬件特性,其中包括Tessellation(曲面细分)以及DirectCompute等等。GF100提出了一种大幅改进的计算架构,这种架构专为支持下一代游戏特效而设计,例如光线追踪、顺序无关透明度以及流体模拟等等。游戏性能与图像质量均得到了大幅提升,在游戏人物与物体的渲染上,GF100可实现电影般的几何学逼线架构的图形增强来说,几何学逼真度极为重要。此外,PhysX模拟的速度也更快,凭借GF100,开发者能够在游戏中最有效地利用GPU计算的诸多特性。

  NVIDIA将GeForce GTX 480定位为全球最快的GPU,拥有比GeForce GTX 285高1.5~3.5倍的性能,出色的Tessellation(曲面细分)硬件性能,支持3屏3D立体幻境技术,设计目标包括一流的图像质量、电影般的几何学逼真度 、一款专为游戏量身打造的革命性计算架构。

  GF100专提供顶级游戏性能而设计,GF100基于GF100的第三代流式多处理器(SM)架构,其CUDA核心数量高达上一代架构的两倍。几何学流水线得到了大幅改进,几何学着色、流输出以及剔除的性能均实现了大幅提升。每个ROP分区的ROP单元的数量翻了一番,填充率也得到了极大的提高,从而能够轻松驱动多台显示器。

  之前NVIDIA产品在打开抗锯齿后性能下降确实非常严重,AMD也经常用这点来说事,但是在GF100中,通过增强型ROP压缩,8倍速多重采样抗锯齿(MSAA)的性能得到了大幅提高。即使是对于不能压缩的场景部分,附加的ROP单元也能够更好地平衡整体GPU吞吐量。

  画质改进方面,GF100可根据八个多重采样以及24个覆盖采样来实现全新的32倍速覆盖采样抗锯齿(CSAA)模式。同时还对CSAA进行了扩展,使其能够在所有样本上支持“透明至覆盖”(Alpha-to-Coverage),从而让叶子与透明纹理的渲染变得更加流畅。

  无论是多边形边缘还是透明纹理(Alpha Texture),GF100都能够以最小的性能损失为其生成最高质量的抗锯齿效果。硬件加速的DirectX 11四偏置点(Four-offset)Gather4大大提升了阴影贴图性能。

  虽然可编程着色让PC游戏能够在每像素特效上与电影相媲美,但是在几何学逼真度上PC游戏还差得很远。当今最先进的PC游戏在每一帧中运用一两百万个多边形。相比之下,计算机生成的电影中每一帧通常会运用数以亿计的多边形。这种巨大的差异在一定程度上可以归咎于硬件,虽然像素着色器的数量已经从一个发展到数以百计,但是三角形配置引擎仍然只是一个单独的单元,相对于每个像素来说,这就极大地影响了当今GPU的几何学处理能力。例如,与GeForce FX相比,GeForce GTX 285的着色性能高达150倍以上,但是几何学处理速度却不足前者的三分之一。结果就是像素的着色有些拘泥,而几何学的细节呈现相对薄弱一些。

  在解决几何学逼真度这一问题上,NVIDIA从电影上获得了启发。电影中人物的精细画质归功于两种关键技术:Tessellation(曲面细分)以及Displacement Mapping(贴图置换)。Tessellation(曲面细分)能够将大型三角形细化为诸多较小三角形的集合体,而Displacement Mapping(贴图置换)则能够改变它们的相对位置。这两种技术相结合,让多变的复杂模型能够通过相对简单的描绘来形成。例如《加勒比海盗》中Davy Jones等一些我们最喜爱的电影人物都是利用这些技术制作出来的。

  GF100整个图形流水线旨在为Tessellation(曲面细分)与几何学吞吐量提供极高的性能。凭借一款利用多个“PolyMorph引擎”所实现的全新分布式几何学处理架构,GF100在图形处理流水线的前端取代了传统的几何学处理架构。每一个PolyMorph引擎均包含一个Tessellation(曲面细分)单元、一个属性设置单元以及其它几何学处理单元。每一个流式多处理器(SM)均拥有自己专用的PolyMorph引擎。新生成的基元被四个并行工作的Raster引擎(相比之下,上一代GPU中只有一个Raster引擎)转化为像素。片上一级以及二级高速缓存能够实现SM与Tessellation(曲面细分)单元之间或不同SM之间基元属性的高带宽传输。在GF100上,Tessellation(曲面细分)及其所有支持步骤均能够并行地运行,从而能够在几何学吞吐量上实现巨大突破。

  虽然与过去的GPU架构相比,GF100包含了诸多增强特性与性能提升,但是最重要的GF100架构进步当属几何学处理的并行执行能力。使设置速率能够达到每时钟周期一基元以上、同时保持正确的渲染顺序,这是GPU领域前所未有的巨大技术成就。

  提高通用计算,人们第一想到的肯定是视频转码之类的应用,然而今天,NVIDIA已经将通用计算能力加入到了游戏之中,革命性计算架构就此诞生!

  光栅化流水线已经有很长的历史了,但是因为游戏渴望实现电影般的画质,所以图形处理正在朝着先进算法的方向发展。先进的算法需要GPU来负责执行通用计算以及可编程着色。G80是包含计算特性的首款NVIDIA GPU。GF100吸取了在G80上所获得的经验,从而能够为游戏大幅提升计算特性。

  GF100利用GF100革命性的计算架构来处理游戏应用。在图形处理方面,诸多线程独立地工作,有一个预先裁定的流水线,展示了很好的存储器本地存取特性。另一方面,计算线程通常彼此间相互通信,以没有预先裁定的方式工作,通常读写存储器的不同部分。GF100上所改进的重要计算特性在游戏中将非常实用,其中包括图形处理与PhysX之间更快的上下文切换、计算内核的同时执行以及有益于光线追踪与AI算法等不规则算法的增强型高速缓冲架构。

  大幅提升的原子运算性能让诸多线程能够通过工作队列来安全地协作,从而能够加快这些新颖的渲染算法。例如,快速的原子运算能够在没有预先排序的情况下对透明物体进行渲染(顺序无关透明度),从而让开发人员能够用复杂的玻璃环境来创建多种级别。

  就无缝的图形互操作来说,GF100的GigaThread引擎将上下文切换时间缩短至大约20微秒,从而使其能够执行多种计算以及每一帧的物理效果内核。例如,一款游戏可能会使用DirectX 11来渲染场景、切换至CUDA来应付选择性的光线追踪、调用Direct Compute内核以进行后期处理以及利用PhysX来执行流体模拟。

  Tessellation(曲面细分)以及Displacement Mapping(贴图置换)实际上并不是什么新型渲染技术,但是目前电影行业还大都一直在运用这两项技术,因为其可以实现非常完美的特效。随着DirectX 11与NVIDIA GF100的推出,开发人员将能够利用这些强大的技术来打造游戏应用程序。

  物体与人物等游戏内容一般需要用Mudbox、ZBrush、3D Studio Max、Maya或Softimage等建模软件包来创建。这些软件包能够提供基于Displacement Mapping(贴图置换)表面的工具来辅助艺术家创建细腻的人物与环境。现在,艺术家必须手动创建各种细腻程度的多边形模型,以满足游戏中各种渲染场景所需、达到保持可玩性帧速率的目的。这些模型就是带有相关纹理贴图的三角形网格,而这些纹理贴图则是正确着色所需要的。当游戏中运用到这些模型时,每一帧的模型信息都通过主接口(Host Interface)发送给GPU。由于PCI Express总线的带宽限制,游戏开发商倾向于使用相对简单的几何模型以及目前GPU最保守的几何学吞吐量。

  即使在最好的游戏中,也会因为现有图形API以及GPU的限制而存在几何学伪像。在下列《FarCry 2》游戏截图中即可看到复杂几何图形的折衷表现结果。手枪皮套有太多刻画面,皮带的分割感太强。瓦楞屋顶本应看起来有波纹感,但是实际上是带有条纹纹理的平面。最后,正如游戏中的大多数人物一样,这个人戴着一顶帽子,细心地避开了渲染头发所涉及的复杂度。

  利用基于GPU的Tessellation(曲面细分),游戏开发人员能够发送物体或人物的紧凑型几何表现形式,Tessellator单元能够为特定场景生成合适的几何学复杂度。现在我们来看看更加细腻的细节表现,研究一下Tessellation(曲面细分)与Displacement Mapping(贴图置换)结合使用的特点与优势。

  让我们来看一下面的实例,左边的图像使用了四边形网格来勾勒人物的大致轮廓。即使与一般的游戏内容相比,这种表现形式占用空间也是非常少的。中间这幅人物图像是对左侧图像进行了精细Tessellation(曲面细分)与描绘的结果。拥有了非常光滑的外观,没有因几何形状的限制而形成多个刻画面。

  但是人物虽然外表光滑,但是与粗糙的网格相比,细节部分并无改善。右侧的图像是对中间图像附上了一个Displacement Mapping(贴图置换)的效果。这个人物拥有可媲美电影制作中的丰富几何细节。

  Displacement Mapping(贴图置换)与Tessellation(曲面细分)的结合使用具有许多优势。这种表现形式占用空间少、可扩展,能够实现高效存储与计算。紧凑型绘图形式意味着占用的显存较少、当将构成这些图像的顶点发送给GPU处理时所消耗的带宽较少。因为动画是由紧凑型绘图所组成的,因此就能够表现出计算密集度更高、更复杂、更逼真的动作。当游戏人物出现在特定帧中时,这种按需分配的三角形合成法让其几何复杂度能够与针对特定人物情况所生成的三角形数量相匹配。

  这种控制几何细节级别(LOD)的能力非常强大。因为它是按需分配的,数据全部处于片上,所以维持了从前的显存带宽。而且,因为一个模型可能会产生许多个细节级别,所以同一项游戏内容都能够应用在各种平台上,无论在性能最平庸的笔记本还是在强大的四路SLI系统上均可使用。游戏人物还能够为特定场景而量身缩放,如果尺寸小那么几何图形就相对简单;如果离屏幕较近,那么就以最高的细节级别进行渲染。此外,可扩展的游戏内容意味着,开发人员能够在前后几代游戏中均使用相同的模型。这样,在性能更强的未来GPU上,细节表现将比当初游戏问世时效果更好。复杂度能够实现动态调整,以适应特定的帧速率。最终,利用Displacement Mapping(贴图置换)与Tessellation(曲面细分)相结合的方式所渲染出来的模型与艺术家所用工具中的原生模型很相似,从而让艺术家不必创建不同几何细节级别的模型,无需重复地进行这种一般性劳动。

  Displacement Mapping(贴图置换)是一种非常强大的建模与渲染技术。Displacement Mapping(贴图置换)是一种能够表现出高度信息的纹理。当附加到一个模型上时,Displacement Mapping(贴图置换)可用来改变该模型顶点的相对位置。Displacement Mapping(贴图置换)让复杂的几何图形能够存储在一个紧凑的贴图当中。因此,Displacement Mapping(贴图置换)可以被看作是一种几何信息的压缩形式。

  与浮雕贴图、法线贴图以及视差贴图这些仅改变像素外观的贴图不同,Displacement Mapping(贴图置换)能够改变顶点的位置。这样一来,就能够在阴影的边缘实现自遮挡、精确的影子、以及更加生动的运动效果。

  Displacement Mapping(贴图置换)对现有的凹凸贴图技术是一种补充。例如,Displacement Mapping(贴图置换)可以用来定义主要的表面特性,而法线贴图等纹理更细的技术则用于刮痕和斑点等等低级别的细节表现。

  除作为一种创建复杂几何信息的简单方式以外,Displacement Mapping(贴图置换)的几何效果还能够在制作动画时表现得很自然。看看右图中的简单实例吧,钝角钉板在折弯时仍然保持着基本形状。采用Displacement Mapping(贴图置换)方式所制作出来的人物也与之类似。再来看看上一页中的Imp游戏人物。通过操纵粗糙的控制外壳(左图)才可以让它产生动画效果。而Displacement Mapping(贴图置换)的人物(右图)则能够自然地随着下垫面的运动而产生动画效果。

  最后,Displacement Mapping(贴图置换)最有趣的一点就是能够在游戏期间轻松修改它们。在当今的诸多游戏中,用枪对金属门扫射的动作只会留下弹孔的痕迹,但门的形状不会改变。凭借Displacement Mapping(贴图置换),可以用相同的弹孔纹理来更改Displacement Mapping(贴图置换),从而让玩家不仅能够将游戏中的物体的外观打得变形而且还能够将其底层结构打得变形。

  有关于GF100的架构我们在之前的文章中有过简单介绍,此次我们将深入探讨GF100的架构!GF100 基于大量可扩展的图形处理集群(GPC)、流式多处理器(SM)以及存储器控制器。完整的GF100拥有4个GPC、16个SM以及6个存储器控制器。NVIDIA希望能够推出在GPC、SM以及存储器控制器等方面具有不同配置的GF100产品,以满足不同价位的市场需求。

  GPU能够通过主接口来读取CPU指令,GigaThread引擎能够从系统内存中获取指定的数据并将其复制到显存中。GF100采用了6个64位GDDR5存储器控制器(总共384位),便于显存高带宽存取。GigaThread 引擎然后会为各个SM创建和分派线程块。单个SM反过来会将多个Warp(32个线程的群组)调度至多个CUDA核心以及其它执行单元。当图形流水线中出现工作膨胀现象时,例如在Tessellation(曲面细分)以及光栅化阶段之后,GigaThread引擎还能够将工作重新分配至SM。

  GF100拥有512个CUDA核心,每32个核心构成一个SM,共有16个SM。需要注意的是,面向高性能计算领域的Tesla C2070和下一代图形系列才会配备完整的512个流处理单元,GeForce GTX 480被屏蔽了32个(一组)!每个SM都是一个高度并行的多处理器,它们在任何时候都能够支持多达48个Warp。每个CUDA核心都是统一的处理器核心,能够执行顶点、像素、几何学以及计算内核。统一的2级高速缓存架构能够提供载入、存储以及纹理操作等服务。

  GF100拥有48个ROP单元,它们可用于像素混合(Pixel Blending)、抗锯齿以及原子存储器操作。ROP单元每8个一组,共有6组。每一组均由一个64位存储器控制器来进行控制。存储器控制器、2级高速缓存、以及ROP群组全都密切关联,扩展一个单元就会自动地扩展其它部件。

  GF100的图形架构由四个“图形处理集群”(GPC)的硬件模块构成。每个个GPC包含一个Raster引擎以及最多四个SM。

  GPC是GF100的主要高级硬件模块。它拥有两项重要的创新:一个用于三角形设置、光栅化以及Z坐标压缩(Z-cull)的可扩展Raster引擎,一个用于顶点属性提取与Tessellation(曲面细分)的可扩展PolyMorph引擎。Raster引擎驻留在GPC当中,而PolyMorph引擎则驻留在SM中。

  如其名称所示,GPC囊括了所有主要的图形处理单元。它代表了顶点、几何、光栅、纹理以及像素处理资源的均衡集合。除了ROP功能以外,GPC可以被看作是一个自给自足的GPU,而一颗GF100拥有四个GPC !

  在G80和GT200中,SM与纹理单元在一种叫做“纹理处理集群”(TPC)的硬件模块中聚集在一起。在GF100中,每一个SM都拥有四个专用的纹理单元,这样就不再需要TPC了。

  之前的GPU设计一直采用一个单片电路前端来获取、汇集、以及对三角形实现光栅化。无论有多少个并行执行核心,这种固定的流水线所实现的性能都是固定的。因为应用程序的工作负荷是不尽相同的,所以这种流水线通常会导致瓶颈或未充分利用的情况。实现光栅化并行处理同时还要保持API的顺序是非常困难的,这种难度阻碍了这一领域的重大创新。虽然单个前端的设计在过去的GPU中曾有过辉煌的历史,但是随着对几何复杂度的需求不断增长,它现在已经变成了一个主要障碍。

  Tessellation(曲面细分)的使用从根本上改变了GPU图形负荷的平衡。凭借Tessellation(曲面细分),特定帧中的三角形密度能够增加数十倍,给设置于光栅化单元等串行工作的资源带来了巨大压力。为了保持较高的Tessellation(曲面细分)性能,有必要重新平衡图形流水线。

  为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph引擎”的可扩展几何引擎。16个PolyMorph引擎均拥有自己专用的顶点获取单元以及Tessellator,从而极大地提升了几何性能。与之搭配,NVIDIA还设计了四个并行Raster引擎,它们在每个时钟周期内可设置最多四个三角形。同时,它们还能够在三角形获取、Tessellation(曲面细分)、以及光栅化等方面实现巨大性能突破。

  PolyMorph引擎拥有五个阶段:顶点获取、Tessellation(曲面细分)、观察口转换、属性设置以及流输出。每个阶段中所运算得出的结果均被发送至一个SM。该SM能够执行游戏的着色程序、将结果返回至PolyMorph引擎中的下一个阶段。在所有阶段都完毕之后,结果会被传递给Raster引擎。

  第一个阶段是从一个全局顶点缓冲区中获取顶点。所获取的顶点于是被发送至SM,以进行顶点着色以及外壳着色。在这两个阶段中,顶点从一个物体空间转变成了世界空间,而且还算出了Tessellation(曲面细分)所需的参数(例如Tessellation(曲面细分)系数)。Tessellation(曲面细分)系数(或LOD)被发送至Tessellator。

  在第二个阶段中,PolyMorph引擎读取Tessellation(曲面细分)系数。Tessellator将修补面(控制点网格所定义的光滑表面)分成小方块并输出许多顶点。修补(u、v)值定义了网格以及形成网格的连接方式。

  全新的顶点被发送至SM,域着色器与几何着色器均在这里执行。域着色器能够根据外壳着色器与Tessellator的输入来运算每个顶点的最终位置。在本阶段中,通常会附上一个Displacement Mapping(贴图置换)以提升修补面的细节表现。几何着色器能够执行任何后期处理、按需增加或删除顶点以及基元。结果最终将被发回至Tessellation(曲面细分)引擎。

  在第三个阶段,PolyMorph引擎会执行观察口转换以及视角校正。接下来就是属性设置,把后期观察口顶点属性转变成了平面方程,以进行高效的着色器评估。最后,可以选择将顶点“流出”至存储器,使其能够用于更多处理。在之前的架构上,固定功能的操作由单个流水线上,固定功能与可编程操作全部都实现了并行化,从而极大地提升了性能。

  GF100拥有15组Tessellation单元,而Radeon HD 5870只有一个,采用串行的方式进行运算,NVIDIA认为这种方式并不能很好的体现Tessellation的优势,因为当Tessellation运算很多的场景,一个Tessellation单元不能满足其运算需求,会导致性能严重下降,我们在后面的DirectX 11程序测试中会涉及到这个问题!而GF100拥有15组Tessellation单元则能避免这种情况的出现,这部分也正是GF100与AMD产品在DirectX 11部分的根本不同之处!

  在PolyMorph引擎处理完基元之后,它们就被发送至光栅(Raster)引擎。为了实现较高的三角形吞吐量,GF100采用四个Raster引擎并行工作的方式,而之前的显卡中只有一个。

  Raster引擎由三个流水线阶段组成。在边缘设置阶段中,可提取顶点位置、计算三角形边缘方程。没有朝向屏幕方向的三角形都通过背面剔除而删掉了。每一个边缘设置单元在一个时钟周期中最多都能够处理一个点、线或三角形。

  光栅器(Rasterizer)为每一个基元而运行边缘方程并计算像素的覆盖。如果开启了抗锯齿功能,那么就会为每一个多采样以及覆盖采样执行覆盖操作。每一个光栅器在每个时钟周期内均可输出8个像素,整个芯片每个时钟周期内总共可输出32个光栅化的像素。

  光栅器所生成的像素将被发送至Z坐标压缩(Z-cull)单元。Z坐标压缩单元获取像素图块(Pixel Tile)并将图块中像素的深度与显存中的现有像素进行比较。完全处于显存像素后面的像素图块将从流水线中剔除,从而就不再需要进一步的像素着色工作了。

  GPC架构在集合流水线方面实现了巨大突破。Tessellation(曲面细分)需要全新级别的三角形与光栅化性能。PolyMorph引擎为三角形、Tessellation(曲面细分)以及流出(Stream Out)等方面实现了大幅性能提升。四个并行Raster引擎在三角形设置与光栅化方面能够提供持久的高吞吐量。通过为每一个SM配备一个专用的Tessellator、为每一个GPC配备一个Raster引擎,GF100所能够实现的几何性能可达GT200的8倍。

  SM单元从G80时代开始提出,到GF100已经进化到第三代,每个SM都有32个CUDA处理器,相比之下G80/G92/GT200都只有8个,达到了之前SM中处理器数量的四倍。GF100的CUDA核心专为在着色器的任何负荷下均实现最高性能以及最高效率而设计。通过采用标量架构,无论输入向量尺寸如何,都能够实现全部性能。Z缓冲区(1D)或纹理存取(2D)方面的操作均可充分利用GPU。

  每一个CUDA处理器都拥有一个完全流水线化的整数算术逻辑单元(ALU)以及浮点单元(FPU)。GF100采用了全新的IEEE754-2008浮点标准,能够为单精度以及双精度算术提供融合的乘法加法(FMA)指令。FMA在一个最终的四舍五入步骤中即可完成乘法与加法运算,改进了乘法加法(MAD)指令,在加法中不会损失精度。FMA在处理紧密重叠的三角形时能够最大限度地减少渲染错误。

  在GF100中,全新设计的整数ALU支持所有指令全32位精度,符合标准编程语言的要求。整数ALU还经过了优化,可有效支持64位以及更高精度的运算。它支持各种指令,其中包括Boolean、移位、移动、比较、转换、位字段提取、位反向插入(Bit-reverse Insert)以及种群统计。

  每一个SM都拥有16个载入/存储单元,从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和存储到高速缓存或DRAM中。

  特殊功能单元(SFU)可执行抽象的指令,例如正弦(sin)、余弦(cosine)、倒数和平方根。图形插值指令也在SFU上执行。每个SFU在一个时钟周期内针对每个线程均可执行一条指令,一个Warp(32个线程)的执行时间可超过八个时钟周期。SFU流水线从分派单元中分离出来,让分派单元能够在SFU处于占用状态时分发给其他执行单元。复杂的程序着色器在特殊功能专用硬件上的运行优势尤为明显。

  双精度算法是HPC应用程序如线性代数、数值模拟和量子化学的关键。GF100架构为此进行了专门的设计,提供了前所未有的双精度性能:每个SM每个周期能执行高达16 个双精度FMA指令,相比 GT200来说有了显著地提升。

  SM可对32个为一组的并行线程(又叫做Warp)进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元,这样,就能够同时发出和执行两个Warp。GF100的双Warp调度器可选出两个Warp,从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的,所以GF100的调度器无需检查指令流内部的依存关系。

  通过利用这种优秀的双指令执行(Dual-issue)模式,GF100能够实现接近峰值的硬件性能。

  大多数指令都能够实现双路执行,两条整数指令、两条浮点指令或者整数、浮点、载入、存储的混合指令以及SFU指令均可同时执行。双精度指令不支持与其它指令同时分派。

  每个SM都拥有四个纹理单元。每个纹理单元在一个时钟周期内能够计算一个纹理地址并获取四个纹理采样。返回的结果可以是经过过滤的也可以是未过滤的。支持的模式包括双线性、三线性以及各向异性过滤模式。

  GF100的目标是通过提升效率来提升纹理性能。通过将纹理单元搬到SM当中,我们实现了这一目标,提升了纹理高速缓存的效率、实现了更高的时钟频率。

  在以往的GT200架构中,最多三个SM共享一个纹理引擎,该引擎含有八个纹理过滤单元。在GF100 架构中,每个SM都拥有自己专用的纹理单元以及一个专用纹理高速缓存。而且,纹理单元的内部架构还得到了大幅增强。在阴影贴图、屏幕空间环境光遮挡等实际使用情况中,净效应就是所实现的纹理性能得到了大幅提升。

  GF100专用的1级纹理高速缓存经过重新设计,可实现更高的效率。而且,通过配备统一的2级高速缓存,纹理可用的最大高速缓存容量达到了GT200的三倍,为纹理密集的着色器提升了命中率。

  之前架构上的纹理单元能够以GPU的核心频率工作。在GF100上,纹理单元的运行频率更高,从而在单元数量相同时提升了纹理性能。GF100的纹理单元还新增了对DirectX 11中BC6H与BC7纹理压缩格式的支持,从而减少了HDR纹理与渲染器目标的存储器占用。

  纹理单元通过DirectX 11的四偏置点(Four-offset)Gather4特性,还支持抖动采样。这样一来,单一纹理指令就能够从一个128×128的像素网格中获取四个纹理像素。GF100在硬件上采用了DirectX 11四偏置点Gather4,大大加快了阴影贴图、环境光遮挡以及后期处理算法的速度。凭借抖动采样,游戏就能够高效地执行更加平滑的软阴影或定制纹理过滤器。

  3DMark 2006(左图)中的软阴影是通过纹理贴图(右图)中的抖动采样来实现的。GF100在硬件上采用了抖动采样技术,最高性能可达GT200的2倍!

  对于图形程序,GF100能够利用16 KB 1级高速缓存配置。1级高速缓存的作用是充当用于寄存器溢出的缓冲区,让寄存器的使用能够实现不俗的性能提升。针对计算程序,1级高速缓存以及共享存储器让同一个线程块中的线程能够互相协作,从而促进了片上数据广泛的重复利用并减少了片外的通信量。共享存储器是使许多高性能CUDA应用程序成为可能的重要促成因素。

  作为一种高速、可编程的片上存储器,共享存储器是第一代CUDA架构中的一项重要架构创新。通过促进线程间的通信,共享存储器让各种各样的应用程序均能够在GPU上高效地运行。从此共享存储器便被所有主要的GPU计算标准与同类架构所采用。

  由于意识到共享存储器至关重要的作用以及保持数据本地性的重要性,NVIDIA再一次扩展了GPU存储器模型。GF100中,每个SM均包含了一个专用的1级高速缓存。

  1级高速缓存能够起到与共享存储器互补的作用,共享存储器能够为明确界定存储器存取的算法提升存储器存取速度,而1级高速缓存则能够为这些不规则的算法提升存储器存取速度。

  在GF100 GPU上,每个SM均拥有64 KB片上存储器,这部分存储器可配置为16 KB的1级高速缓存外加48 KB共享存储器,或配置为16 KB共享存储器外加48 KB的1级高速缓存。 例如当游戏需要大量计算时,那么就可以分配到L1更多的空间,而如果需要和外部缓存交换大量信息时,就可以分配到共享存储器更多的空间,非常灵活!

  GF100拥有一个768 KB的统一2级高速缓存,该缓存可以为所有载入、存储以及纹理请求提供服务。2级高速缓存可在整个GPU中提供高效、高速的数据共享。物理效果解算器、光线追踪以及稀疏数据结构等事先不知道数据地址的算法在硬件高速缓存上的运行优势尤为明显。后期处理过滤器需要多个SM才能读取相同的数据,该过滤器与存储器之间的距离更短,从而提升了带宽效率。

  统一的高速缓存比单独的高速缓存效率更高。在不统一的高速缓存设计中,即使一个高速缓存被程序过多地预订,它也无法使用其它高速缓存中未贴图的部分。高速缓存的利用率将时钟低于理论峰值。GF100的统一2级高速缓存可在不同请求之间动态地平衡负载,从而充分地利用高速缓存。2级高速缓存取代了之前GPU中的2级纹理高速缓存、ROP高速缓存以及片上FIFO。

  GF100的高速缓存架构让各流水线阶段之间可以高效地通信,减少了片外存储器的通信量

  统一的高速缓存还能够确保存储器按照程序的顺序执行存取指令。当读、写路径分离(例如一个只读纹理路径以及一个只写ROP路径)时,可能会出现先写后读的危险。一个统一的读/写路径能够确保程序的正确运行,同时也是让NVIDIA GPU能够支持通用C/C++程序的重要因素。

  与只读的GT200 2级高速缓存相比,GF100的2级高速缓存既能读又能写,而且是完全一致的。NVIDIA采用了一种优先算法来清除2级高速缓存中的数据,这种算法包含了各种检查,可帮助确保所需的数据能够驻留在高速缓存当中。

  L1/L2本是CPU中的概念,显卡中之前虽然也出现过,但是定义并不十分明朗,GF100中的L1/L2的加入,使其更像是一个通用处理器,这方面AMD要向NVIDIA学习!

  GF100的ROP子系统经过重新设计,可提升吞吐量与效率。一个GF100 ROP分区包含8个ROP单元,数量比上一代架构翻了一倍。每个ROP单元在一个时钟周期内均能够输出一个32位整数像素,一个FP16像素需要两个以上的时钟周期,一个FP32像素需要四个以上的时钟周期。原子指令性能也得到了大幅提升,相同地址的原子操作执行速度最高可达GT200的20倍,邻近存储区的操作执行速度最高可达7.5倍。

  在GF100上,由于压缩效率的提升以及更多ROP单元能够更有效地渲染这些无法被压缩的较小基元,因此8倍速多重采样抗锯齿(MSAA)的性能得到了大幅提升。当压缩不起作用时,场景中几何逼真度的提升更加需要ROP单元良好地运行。

  在上一代架构中,8倍速多重采样抗锯齿(MSAA)模式所导致的性能下降在不同游戏上的表现差异很大,Tom Clancy的《鹰击长空》(HAWX)就是这种游戏的一个例子。这款游戏在8倍速多重采样抗锯齿模式下表现出了非常低下的效率。在GF100上,8倍速多重采样抗锯齿的性能有了很大的提升。在4倍速抗锯齿模式下,GF100比GT200快1.6倍。在8倍速抗锯齿模式下,GF100比GT200快2.3倍,仅比自己在4倍速模式下慢了9%。

  GF100还新增了一种新型32倍速覆盖采样抗锯齿(CSAA)模式,该模式能够提供最高图像质量并利用“透明至覆盖”(Alpha-to-Coverage)来为当今游戏提升感官上的几何逼真度。

  由于受到API与GPU计算能力的限制,当今的游戏能够渲染的几何图形数量还很有限。叶子的渲染是一个尤其突出的难题。针对叶子的一种常用技术就是创建一个包含许多树叶的透明纹理公告板,利用“透明至覆盖”来除去树叶之间的缝隙。覆盖采样的数量决定了边缘的画质。如果只有四个覆盖或八个采样,那么将会出现非常糟糕的锯齿以及镶边现象,尤其是在纹理靠近屏幕的时候。采用32倍速覆盖采样抗锯齿(CSAA),GPU共有32个覆盖采样,从而最大限度减少了镶边效果。

  左侧图像显示了在过去GPU上利用16xQ抗锯齿(8倍速多重采样、8倍速覆盖采样)所实现的TMAA效果。右图显示了在GF100上利用32倍速抗锯齿(8倍速多重采样、24倍速覆盖采样)所实现的TMAA效果。因为覆盖采样被用作GF100中TMAA计值的一部分,所以生成了平滑得多的渐变效果。

  透明多重采样(TMAA)也能够从CSAA中获益匪浅。由于“透明至覆盖”不在DirectX 9 API当中,所以DirectX 9游戏无法直接使用“透明至覆盖”。而TMAA恰恰对这样的游戏有所帮助。取而代之的是,它们采用了一种叫做“透明测试”的技术,该技术能够为透明纹理产生硬边缘。TMAA能够转换DirectX 9应用程序中旧的着色器代码,使其能够使用“透明至覆盖”。而“透明至覆盖”与CSAA相结合,能够生成大幅提升的图像质量。

  因为覆盖采样对存储器的要求很低,所以32倍速覆盖采样抗锯齿(CSAA)的性能在很大程度上可与8倍速多重采样抗锯齿(MSAA)比肩。各种游戏中的平均成绩显示,32倍速CSAA的性能仅比8倍速MSAA低7%。

  GF100除针对曲面细分单元进行大幅度改进外,另一个目标就是做最好的图形计算处理器,针对图形计算架构的解释我们在GF100架构介绍部分已经有多详细介绍,比如L1/L2高速缓存、特殊功能单元等,这些设计都能让GF100的图形计算能力再上一层楼,我们可以发现NVIDIA的CUDA技术不但可以用作视频转码,更是可以用在游戏之中!

  近年来,可编程着色器让每像素逼真度的大幅提升成为了可能。今后,可编程性将继续作为发展的第一要务,以便让开发人员能够创造出新一代视觉特效。

  计算机图形是一系具有无数种途径的多样化问题。光栅化、光线追踪以及Reyes都是为人们所广泛认可的通用渲染算法。在每一种渲染风格中,都存在着针对各种子问题的不同解决方案。迄今为止,GPU已经专为光栅化而进行了设计。随着开发人员不断探索全新的方式来改进其图形引擎,GPU将需要在各种不断发展的图形算法上实现出色的性能。因为这些算法是通过通用计算API来执行的,所以一个强大的计算架构对GPU的图形功能来说是至关重要的。实质上,你可以将计算视作新型可编程着色器。

  GF100的计算架构旨在满足各种各样的算法需求以及促进GPU在解决并行难题方面的应用普及。由于程序存储器的本地性仅在运行时(Runtime)上有效,因此例如光线追踪、物理效果以及人工智能等诸多算法无法利用共享存储器。GF100的高速缓存架构在设计过程中考虑到了这些问题。凭借每个SM所配备的最多48KB的1级高速缓存以及一个全局2级高速缓存,在运行时存取存储器同一位置的线程将自动加速运行,无论这些线程选用了那种算法都会实现加速。

  G80是NVIDIA的首款计算架构。其设计反映了人们对扩展GPU功能以解决HPC类难题的愿望。例如,G80的一大创新就是共享存储器,共享存储器有助于加快矩阵乘法的运算速度,而矩阵乘法则是诸多数学与物理效果算法的基础。

  GF100计算架构针对游戏的另一个改进方面是调度。G80与GT200均能够利用相对较慢的上下文切换来在同一时间执行大型内核。由于HPC应用程序采用了大型数据集,对延迟的感觉不敏感,因此这一模型运行得相对较好。在游戏应用程序中,并不会执行单个占主导地位的内核,而是执行各种较小的内核(例如布料、流体、刚性体)。在GF100上,这些内核能够并行地执行,从而最大限度地利用了诸多CUDA核心。

  在利用计算的游戏当中,每一帧都会出现上下文切换,这一点使其性能很难达到灵敏帧速率的要求。GF100将上下文切换的时间缩短至约20微妙,使其能够在每帧多个内核之间执行精细的上下文切换。例如,一款游戏可以使用DirectX 11来渲染场景、切换至CUDA以实现选择性光线追踪、调用一个DirectCompute内核来执行后期处理以及利用PhysX执行流体模拟。

  随着开发人员越来越多地将GPU应用于通用用途,在编程语言以及调试方面提供更好的支持就变得愈加重要。GF100是首款完全支持C++的GPU,C++是游戏开发人员所选用的一种编程语言。为了使向GPU编程的过渡过程变得轻而易举,NVIDIA还开发了Nexus,Nexus是一种面向GPU的微软Visual Studio编程环境。加上这些能够提供更好调试支持的全新硬件特性,开发人员将能够在GPU上轻松开展开发工作,正如他们在CPU上开发应用程序一样。

  因为计算算法在性质上是通用的,所以它们可用于解决各种各样视觉计算以及模拟算法问题。诸多游戏开发商在其即将问世的游戏中所研究的算法有很多,例如:

  GF100是第一个支持新并行线指令集的体系结构。PTX是级别较低的虚拟机和ISA,目的是为了支持并行线程处理器的运作。在程序安装的时候,PTX指令会被GPU驱动转译成机器代码。

  提供一个支持 C、C++、Fortran 以及其他编译器对象并且与机器无关的 ISA

  为优化映射 PTX 代码至对象机器的代码产生器和转移器提供一个一般化的 ISA

  让库以及性能核心程序(performance kernel)人手代码编写更容易

  PTX2.0具备许多新特性,大大提升了GPU的可编程性、精度及性能。这些特性包括:完全的IEEE 32位浮点精度;所有变量和指针都有统一的寻址空间;64位寻址;以及针对OpenCL和DirectCompute的新指令。尤为重要的是,PTX2.0完全支持C++编程语言。

  GF100和PTX 2.0 ISA采用统一寻址空间,将存取操作的三个不同的寻址空间(线程的私有局部空间、线程块的共用空间、全局空间)进行了统一。在PTX 1.0中,存取指令都具体对应这三个寻址空间中的一个,程序就可以在一个编译时确知的指定寻址空间中存取数值。这样很难为C和C++指针提供完全的支持,因为一个指针的目标寻址空间在编译时可能根本无从知晓而只有在运行时才能动态确定。

  PTX 2.0把三个寻址空间都统一为一个单独、连续的寻址空间,因此只需一套存取指令,而不再需要三套针对不同寻址空间(局部的、共用的及全局存储器)的存取指令。统一寻址空间为40位,可以支持1 Terabyte的可设定地址的内存,而存取ISA支持 64位以适应未来的增长。

  采用统一的寻址空间让GF100可以真正支持C++程序。在C++中,所有的变量和函数都存在于对象中,而对象又通过指针进行传递。有了PTX 2.0,就可以利用统一的指针传递任意存储空间里的对 象。GF100的硬件地址转译单元自动将指针参考映射到正确的存储空间。

  GF100和PTX 2.0 ISA还支持C++虚拟函数、函数指针、针对动态对象分配、解除分配“new”和“delete”操作以及针对异常处理的“try”和“catch” 操作。

  单精度浮点指令现在在硬件上默认支持非规格化数以及IEEE 754-2008所有四种舍入模式(最接近、零、正无穷大、负无穷大)。

  非规格化数是分布在零与给定的浮点数系统的最小规格化数之间的非常小的数。前一代的GPU会将非规格化操作数和结果冲刷为零,从而导致精度上的损失。CPU通常在异常处理软件中进行非规格化计算,这需要消耗数千个周期。GF100 的浮点单元能以硬件方式处理 非规格化数,使得数值逐渐下溢至零而不导致性能上的损失。

  在电脑图形、线性代数和科学应用中常见的运算操作序列是两个数相乘然后把获得的积与第三个数相加,例如D = A × B + C。前一代GPU使用MAD指令实现加速,允许两个运算在单个周期内完成。在MAD指令中,乘运算积作为中间结果是会被切掉部分,并在接下来的加法运算中使用“舍入到最近偶数”的方式作舍入操作。GF100对32位单精度和64位双精度浮点数(GT200仅对双精度运算采用FMA指令)运算采用新的FMA指令,可以保证运算执行的中间结果得以全精度保留。提升精度可以让多种算法获益,例如精密的交叉几何体渲染、迭代数学方面的高精度计算以及快速准确舍入的除法与平方根操作。

  在GF100 ISA中,以前用于不同线程管理的本机硬件预测支持现在被应用于指令一级。预测能够使较短的条件代码段高效执行,无需调用分支指令。

  GF100是第一个在内存中提供了基于纠错码(ECC)的数据保护功能的GPU。CPU(图形处理器)计算用户使用ECC来在高性能计算环境中增强数据完整性。ECC是诸如医疗成像以及大型集群计算等领域中一个迫切需要的特性。

  自然发生的辐射可能导致内存中的数据被更改,导致软错误。ECC技术能够在单位软错误影响系统之前就予以发现并进行纠正。由于此类辐射所致错误的可能性随已安装系统的数量直线增长,ECC是大型集群部署中的一个必备要求。

  GF100支持单错纠正双错检测(SECDED)ECC代码,能够在数据被访问期间纠正硬件中的任意单位错误。此外,SECDED ECC还确保了所有双位错误和众多多位错误能够被发现和报告,以便能够重新运行程序,而不是继续执行不良数据。

  GF100的寄存器文件、共享内存、一级高速缓存、二级高速缓存和DRAM内存均提供有ECC保护功能,从而不仅是适用于HPC应用的最强大GPU,同时也是最可靠的GPU。此外,GF100还支持行业标准,能够当在芯片间传输数据时对其进行检查。所有NVIDIA?(英伟达?)GPU均支持用于CRC检查的PCI Express标准,能够在数据链路层进行重试。GF100还支持用于CRC检查的同类GDDR5标准,能够当数据在内存总线上传输时进行重试(也称作“EDC”)。

  原子内存操作对于并行编程非常中药,它们能够允许多个线程在共享数据结构上正确执行读-修改-写操作。诸如加、减、最大值和比较-交换等原子操作均为原子级别,意味着在执行读、修改和写操作时不会被其它线程所中断。原子内存操作被广泛用于并行排序、减法操作和并行构建数据结构,并按顺序执行线程。

  得益于硬件中多个原子单元的组合,以及二级高速缓存的添加,GF100的原子操作性能比GT200一代高出20倍之多。

  GF100架构的一项最重要的技术为双级分布式线程调度器。在芯片一级,全局工作分配引擎为不同SM提供线程块。而在SM一级,每一个Warp调度器为其执行单元分配32个线程。第一代GigaThread引擎被应用于G80之中,可实时管理高达12,288个线架构在这一基础上得到了大幅改进,不仅显著提升了线程吞吐率,同时动态加快了上下文交换、并发内核执行、以及改进的线程块调度等操作。

  同CPU相同,GPU使用上下文交换来支持多任务处理,每一个程序收到处理器资源的一个时间片段。GF100后续产品线专门进行了优化,可将应用上下文交换的时间缩短到25秒,这也是相比上一代GPU的一个重大改进。除了改进的性能外,它还支持开发人员创建出能够充分利用频繁内核间通信优势的应用,如在显卡和PhysX应用之间的出色互操作性等。

  GF100支持并发内核执行,其中同一应用上下文的不同内核能够同时在GPU上执行。并发内核执行允许程序执行大量小型内核,以充分利用整个GPU。例如,一个PhysX程序可能调用一个流体解算器和一个刚体解算器,如果这两个解算器顺序执行,将仅能使用可用线程处理器的一半。在GF100架构中,同一CUDA上下文的不同内核能够同时执行,从而支持最大限度地利用GPU资源。同时,借助改进的上下文交换性能,来自不同应用上下文的内核仍能够高效顺序执行。

  Nexus支持Visual Studio开发人员使用与在编写和调试CPU代码时用到的完全相同的工具与接口,来编写和调试GPU源代码,包括来源和数据断点、以及内存检测等。此外,Nexus还扩展了Visual Studio的功能,提供了工具来管理大规模并行计算,如支持对数千个并行运行的线程中的某一个进行检测和调试,以及对所有并行线程计算得出的结果进行高效的可视化呈现等。

  Nexus是开发能够同时利用CPU和GPU的协处理应用最佳环境。它能够在两个处理器间捕获性能事件和信息,并在单个相互关联的时间线内将信息显示给开发人员。在此基础之上,开发人员能够了解到其应用在整个系统中的执行和表现情况,而不是被局限于某个子系统或处理器。

  光线追踪是现在非常火的技术,无论是光线追踪本身还是它与光栅化的结合都被许多人视作是图形处理的未来发展趋势。随着GF100的问世,交互式光线追踪首次在标准PC上成为了可能。

  过去在GPU难以高效运行的难题当中,光线追踪一直是很有代表性的一个。光线追踪反复循环地工作,而GPU也大多反复地工作。光线方向具有不可预测性,需要大量随机存储器的存取。为高效起见,GPU一般以线性块的方式存取存储器。

  GF100的计算架构在设计期间就已将光线是首款在硬件上支持循环的GPU,它能够执行高效的光线追踪以及大量其它图形算法。通过提升精细存储器存取性能,GF100的1级以及2级高速缓存大幅提升了光线级高速缓存 为邻近的光线增强了存储器的本地性,而2级高速缓存则增大了至显存的带宽。

  GF100不仅在标准光线追踪中表现出色,而且在路径追踪等高级全局照明算法中也有不凡的表现。路径追踪采用大量光线来收集场景中的环境光照信息。路径追踪的早期评价显示,GF100的性能最高可达GT200的四倍。

  为了维持性能,游戏可以有选择地运用光线追踪。例如,光栅化可以用来执行场景的第一个通道。被确定为反射光的像素可以通过光线追踪来接受进一步的处理。这种混合型渲染模式能够实现更高性能以及更佳的图像质量。

  逼真的流体模拟长期以来一直被运用于电影中,以创造出新颖奇特人物以及戏剧性的效果。《终结者2:审判日》中的T-1000便是由计算机生成的“液态金属”所打造。大量水的模拟对完成《2012》中的气候镜头来说至关重要。虽然游戏设计师渴望能够制作出类似的效果,但是流体模拟的计算复杂度阻碍了它们在实时应用程序中的应用。

  2003年,Mller等人在交互式流体模拟中采用了平滑粒子流体力学(SPH)算法,这是一种天体物理学算法。他们最初的作品展示了5,000个SPH 粒子,足以模拟每秒5帧的水杯倾泻效果。从此以后,Muller的SPH算法便被集成到了PhysX API当中。首款利用PhysX SPH的游戏《雪域危机》能够在极短的时间内模拟30,000个水粒子,这不能不说是一个突破。

  《雪域危机》中的水粒子的数量不足,无法表现出足以乱真的流体效果,而图形互操作极高的成本也限制了实际性能。

  GF100是首款能够实现高保真流体模拟所需性能的GPU。GF100搭配一款改进型SPH解算器就能够让游戏设计师在整个游戏环境加入高品质SPH流体效果。GF100能够模拟每帧128,000个以上的SPH粒子,足以支持大量的水以及各种基于流体的特效。例如,SPH可用于为雨水建模,制作出自然形成的水花四溅、水漩涡以及溢流效果。

  AMD在Radeon HD5000系列上提出了3屏宽域技术,而3D立体幻镜Surround可以看作是对其技术的反击,同样可以实现3屏显示,而且可以支持3D立体幻镜,这是AMD宽域技术多不具备的优势!当然3D立体幻镜Surround也有一定的局限,那就是最少需要两片GF100显卡,之前的GT200系列也可以支持改技术!

  NVIDIA3D立体幻镜集高科技无线眼镜与先进的软件于一身,可自动将游戏(400多款)转化为完全立体的3D形式。即将问世的NVIDIA 3D立体幻镜 Surround技术由NVIDIA SLI配置的GF100 GPU提供支持。该项技术通过在三台显示器上以全立体3D形式呈现完全身临其境、可媲美IMAX 3D的游戏效果,从而将3D游戏推向了全新高度。

  NVIDIA3D立体幻镜Surround的渲染能力最高可达每秒7.46亿个像素,是上一代顶级游戏配置的3倍。开启Tessellation(曲面细分)、计算着色器以及PhysX之后,游戏对GPU的要求是非常高的。GF100专为在NVIDIA 3D立体幻镜 Surround上实现最高性能而打造。GF100全新的ROP子系统在每个分区中都拥有双倍数量ROP单元,从而能够同时向多台显示器输出数据。其并行Tessellation(曲面细分)与光栅引擎能够在Tessellation(曲面细分)任务繁重的场景中保持高性能。而且其搭载了高速上下文切换技术的强大计算架构令计算运算变得轻而易举。

  三台最高分辨率为1920x1080的同型号3D立体幻镜液晶显示器与投影仪即可呈现出3D立体幻镜 Surround视觉效果。对于这些还没有准备好投身立体游戏的玩家,非立体3D显示器也能够实现NVIDIA Surround效果,玩家可以使用多台分辨率相同、最高分辨率为2560x1600的显示器来体验NVIDIA Surround

  之所以一片GF100不支持3屏立体游戏,NVIDIA认为3D游戏渲染会耗费太多的GPU资源,一片显卡很难胜任,其实这种说法也不无道理,因为现在旗舰级显卡也不可能在1920x1080x3的分辨率下进行游戏,更何况还要加入3D立体运算!

  NVIDIA 3D立体幻镜 Surround包含了控制部分,控制部分让用户能够调整显示器,以补偿显示器的边框间隙,从而呈现出更加逼真的全屏游戏视觉效果。凭借边框校正功能,游戏视图的一部分可以隐藏到显示器边框后面,这样一来,边框似乎就成为游戏的一部分了。这样能够在多个显示器上呈现出更加连贯的图像,为玩家提供更加逼真的体验。它就好像乘客观看座舱窗外的风景一样,窗框挡住了玩家的一部分视线。Radeon HD 5000也是在最新的10.3驱动中才加入了该技术!

  有关于Physx物理加速游戏的介绍之前的文章中已经有很多,比如《镜之边缘》、《MKZ》、《蝙蝠侠:阿卡姆疯人院》、《黑暗之日》、《一舞成名》等等,今天将为大家介绍另外一款国产网游大作《剑侠情缘3》。

  《剑侠情缘3》是由金山珠海西山居工作室开发一款网络游戏(我最爱的《月影传说》也是该工作室的作品),该游戏采用金山自主研发的游戏引擎,采用DirectX 9 API,支持NVIDIA Physx物理特效!这是中国第一款采用Physx物理加速的MMORPG游戏,同时更是第一款成功应用NVIDIA CUDA技术在GPU上计算骨骼动画与蒙皮的多人在线个粒子的Massive Instancing全场景无缝雨粒子。每一个雨粒子都能在不同视角,不同的光照,不同的下落时间下产生独一无二的效果。

  通过软体(softbody)的使用, 所有荷叶都与人的踩踏和雨滴自然交互。每片荷叶都包含数百个顶点。

  粒子做的雪片在两个角色的打斗过程中被人物身上PhysX力场(Force Field)卷起。粒子做的雪片在两个角色的打斗中被人物身上的力场和人物动作的剑气扰动, 数千个粒子的运动轨迹随着角色的动作而变化。通过对真实碰撞的模拟, 角色将布料撞开。每一块布料都包含数百个顶点, 可以更加精确地展示出柔软的效果。

  粒子模拟的万花谷中满地的花瓣,随着人物角色的气场而运动,展现出剑3的动作美学。

  同屏200名完全独立的玩家角色,使用CUDA逐帧计算所有玩家角色的动画, 解决了现有游戏在显示大量同屏玩家时无法开启高特效的困难。所有人物均使用最高精度模型、最高精度阴影、完整的水面反射和折射。

  初次见到这款NVIDIA GeForce GTX480显卡的时候就被其威武雄壮的外观所震撼,显卡外观依然延续了NVIDIA以往的风格,只不过这次的GeForce GTX480在外观中加入了金属元素。犹如铁甲一般的金属是显卡核心散热器的一部分,而其上布满了增加金属凹槽,这一方面可以增加散热器的表面积,提升散热效率;另一方面也为显卡增加了更多的视觉效果。而GeForce的铭牌也镶嵌其中,稳重、大气。

  这款GeForce GTX480显卡毫无意外的采用了双插槽、涡轮风扇设计。这款显卡长度为10.5英寸,也就是26.5厘米,与AMDRadeon HD5870长度一样,因此中意这款显卡的玩家们首先要准备一个足够大的机箱,以免进行裸奔。

  而在重量上,这款GeForce GTX480也绝对称得上是重量级选手。经过电子秤的称量,GeForce GTX480的实际重量为932克,在当今民用显卡中绝无仅有。这一方面是因为其10.5英寸的身形,另一方面是因为其采用了超大体积金属散热器和全金属框架设计。

  说这款显卡雄壮的另一个原因,那就是GeForce GTX480汲取了非公版显卡设计的一个重要元素,那就是热管裸露。GeForce GTX480采用了四根8毫米直径热管将散热器底座与上部的散热片结构连接在一起,能够有效的将核心的发热量传递到散热片的上部,并借助流动的外部空气和强劲的涡轮风扇将热量带走。由于采用了容量大1.5GB的GDDR5显存和强劲的显示核心,所以本次GeForce GTX480显卡在外接供电的配置上也首次启用了6Pin+8Pin的外接供电组合。而根据输出规格来看,8Pin供电接口可以为显卡提供两路12V输入,功率可达150W;而6Pin接口也可以为显卡提供一组12V输入,功率最大为75W。所以两组供电接口总计可以为显卡提供最多225W的电力,保证显卡的稳定运行。

  在接口部分的配置上,GeForce GTX480也有相当的进步。显卡提供了两组DL-DVI接口,每组都可以支持最高2560×1600 60HZ的显示模式。另外,显卡还颇具前瞻性的提供了一组mini-HDMI接口。但不幸的是,我们并没有在显卡上看到DisplayPort接口。

  为了增加散热器的进风量,NVIDIA特意在显卡PCB上开了一个与风扇形状一直的口,方便冷空气从显卡背面进入散热器。而根据一般机箱中的结构来看,显卡正面一般都要面对北桥、CPU等高发热元件,而面对显卡后背的电源则发热量很小,从正面吸入的空气温度要比从背面吸入的空气温度高很多,所以从背面取风也是个相当精妙的设计。

  拆掉散热器,我们就见到了全呼万唤始出来的GF100显示核心。处在PCB中央位置的就是核心代号为GF100的GeForce GTX480显示核心,而周围分布了12颗三星产GDDR5显存。而这颗GF100核心也按照NVIDIA的传统,加上了金属保护罩,所以我们无法得知GF100核心真正的DieSize。显卡采用8相供电设计,其中的6相负责核心供电,两项负责显存供电。从元件的排布上我们也可以发现,由于PCB上有取风口的设计,所以显卡PCB的后半部元件排列并不十分紧密,因此在之后的非公版GeForce GTX480显卡中,我们很可能见到更短的PCB设计。当然,前提是要保证核心和显存部分的充分散热。

  总体来说,显卡供电部分设计相当豪华。既然采用全包围式散热器,那么体积更小、高度更低的数字式供电就成为了GeForce GTX480的首选。为了保证核心供电,显卡采用了顶级富士通贴片固态电容,并配以带有金属屏蔽罩的高品质全封闭式电感。而在供电的Mosfet部分,NVIDIA则不惜工本采用了难得一见的飞利浦LFPAD封装Mosfet,这种封装模式不仅具有体积小、发热低的特点,更能够提供接近20A的电流输出能力。在这款显卡的供电部分中,每项供电配备了三个LFPAD封装Mosfet。而在显存部分中,显卡也采用了数字式供电模块。其组成形式与核心供电部分相近,同样采用了固态电容+全封闭式电感+LFPAD封装Mosfet的模式。只不过由于GDDR5显存的耗电量并不高,所以每项供电之配备了两支Mosfet。

  不少朋友也许会疑惑,如此高端的显卡为何不见钽电容的身影?其实为了方便布线,显卡的钽电容被设计在了背面,而这样的设计也更显YY。显卡采用的钽电容为日本三洋生产,采用E型封装。显卡为每项核心供电都配备了一支钽电容,总计六支,而加上核心时钟发生器部分的一枚钽电容,GeForce GTX480显卡的钽电容用量达到了7枚,奢华程度可见一斑。

  NVIDIA在GeForce GTX480显卡的性能和供电上做足了功夫,而最基本画质输出部分当然也不会有所收敛。为了保证显卡输出画质的完美,每个接口部分都有相应的输出滤波电路。

  介绍完显卡内部,下面就让我们来看看显卡散热器。显卡散热器采用了双层结构。除核心之外的电子元件(包括供电部分以及显存)均与金属框架相连,而金属框架上的散热鳍片也可以增大散热面积、有效保证这些部件的凉爽。显卡核心拥有独立的散热器,也就是我们前面见到的4热管散热器。这样的设计可以加强显卡核心的散热,不让其他高发热元件将热量传导给核心。最后,我们就来看一下参与本次评测的NVIDIA两代显卡全家福。从上至下分别是GeForce GTX480、GeForce GTX470和美国BFGGeForceGTX285OCFU。

  另外,由于属于上一代显卡的GeForce GTX285并不支持DX11 API,所以GTX285显卡并不参与本次测试的DX11游戏环节。

  首先我们为您带来将是NVIDIA为配合这次费米显卡发布而准备的几款DEMO,首先登场的是一款名为Hair的DEMO,其主要考验GPU的曲面细分能力和物理运算能力。

  这款DEMO可以模拟任务头发摆动的场景。由于DX11曲面细分技术的加入,用户可以藉由显卡GPU来生成更加逼真浓密的秀发。而根据DEMO的效果来看,其逼真程度已经接近CG水平。而由于NVIDIA CUDA技术的加入,头发摆动路径也更加自然、流畅。

  DEMO预制了风和三种人物动作方式,玩家可以从各个角度细致的观察人物头发在风和不同动作中的摆动方式。DEMO支持硬件曲面细分和软件模拟两种模式,硬件曲面细分会利用GPU资源来进行运算,而软件模拟模式则只会用到CPU资源。玩家可以通过两种模式体验到硬件曲面细分在帧数和动作质量上的巨大提升。另外,DEMO还可以选择长短发以及人物动作幅度。

  经过测试,我们发现,长发模式比短发模式更消耗资源。在使用GeForce GTX480显卡进行测试时,短发模式即便在激烈的运动中也可以接近100帧,而长发模式的帧数则只有约60帧。同样支持DX11曲面细分技术的AMD Radeon HD5000系列显卡也可以运行此DEMO,不过帧数就相差很远,而且由于不支持NVIDIA CUDA技术,所以在头发剧烈摆动时帧数下降非常剧烈且摆动也不自然。在长发测试中,NVIDIA GeForce GTX480显卡能时刻保持在60帧以上,而AMD Radeon HD5870显卡在同样的测试中只能保持在20帧左右,差距十分悬殊。

  后我们将要为您呈现的是另一个体现显卡曲面细分能力的测试场景Island。

  众所周知,水面运动是极其复杂和不规则的,而这种运动如果用显卡来表现则非常困难,因为每个波浪都需要由大量的多边形进行构建,而无数的波浪对于显卡来说只能用灾难来形容。这款名为Island的DEMO则可以通过最新的硬件曲面细分技术来模拟水面的波浪运动。DEMO可以通过调节曲面细分等级来实现不同真实度的水面波浪,多边形生成量可以从最低的几万多边形到最高接近600万多边形。而水面波浪效果也会随着多边形数量的提升而更趋真实,这一点可以通过上面的两张截图充分体现出来。

  通过上面的两张截图的对比,我们可以直接的看到高等级曲面细分所带来的多边形数量提升。与Hair场景相同,AMD Radeon HD5870显卡同样可以运行该DEMO。但通过实际运行我们发现,NVIDIA GeForce GTX480显卡在最高等级曲面细分下帧数仍能保持在20帧以上,而AMD Radeon HD5870显卡在同样的设置下帧数只有1-2帧。超过10倍的差距主要得益于NVIDIA独创的曲面细分优化技术,和更高效的执行单元。

  之后我们为您呈现的将是一款名为Design Garage的场景,其主要测试NVIDIA显卡的通用计算能力。场景通过创建光线追踪模型来考察显卡在通用计算当中的性能,DEMO最大分辨率为1024×768。DEMO预制了数个场景、车型和视角,而光源的位置和强弱也可以自由调节。众所周知,光线追踪是一种对计算能力要求极为苛刻的运算,如果通过CPU来计算的线分辨率的图片往往需要数十分钟至数小时的渲染时间,而这也是众多Maya用户每天都会遇到的情况。而采用NVIDIA GeForce GTX480显卡之后,渲染一张分辨率为1024×768分辨率的光线追踪图片仅仅需要几十秒的时间,真实天壤之别。由此我们可以大胆的想象,即时光线年内成为可能并应用到游戏当中,而游戏和CG电影中的最大区别也会渐渐模糊,令人激动不已。而这款DEMO最大的现实意义就在于广大CG工作者可以借助NVIDIA GF100核心显卡极大的提升工作效率和利润,而CG的入门学生也可以藉由渲染效率的大幅提升而加快学习进步的速度。

  由于这款DEMO采用最新的CUDA C++语言编写,所以目前只有GF100核心显卡才能支持此DEMO。

  这款DEMO主要考察显卡的PhysX能力,DEMO中大量飞溅的水花、水的流动、小艇的运动以及方格旗都是对显卡物理性能的最好体现。除此之外,在DEMO中还会有巨石不时从山上滚下,溅起大量的水花。DEMO中水花的数量和运动质量都是我们在游戏中不曾见到的,而采用GF100核心的GeForce GTX480显卡则可以时刻保持流畅,物理性能可见一斑。

  之后登场的是一款名为Supersonic Sled的DEMO。游戏通过控制一辆超音速雪橇来展现其对周遭环境的影响。DEMO中有三个标志性的场景,分别是被吹飞的小木屋,坍塌的桥梁和坍塌的巨石。三个场景都带有大量的物体运动以及完整模型的破碎,对显卡物理能力是最好的考验。而我们的GeForce GTX480及时是在2560×1600的分辨率下也能够在大量物体运动的场景中达到20帧的水平,物理性能十分强大。而如果仔细观察,我们发现这个场景中也有曲面细分技术的参与。

  人类寿命的延长在很大程度上与医学进步有关。而目前医学的主要探索方向则是微观而复杂的。通过人工制造各种不同的蛋白质,人们可以战胜疾病,所以蛋白质的研究已成为当前医学领域中的主要研究方向之一。用户可以通过下载一个免费小程序来参与到Floding@Home项目中来,这是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程。他使用联网式的计算方式和大量的分布式计算能力来模拟蛋白质折叠的过程,并指引科学家们近期对由折叠引起的疾病的一系列研究。而即便是在这一领域,GeForce GTX400系列显卡仍然能够发挥作用。让用户可以在更短的时间内为公共医学项目贡献更多的计算资源,帮助科学家们早日攻克帕金森综合症等顽疾。

  通过上面的测试结果,我们可以发现,在采用GF100核心系列显卡之后计算资源输出效率有了大幅度的提升,也就是说用户可以在更短时间内作出更多贡献。而同为GF100核心的GeForce GTX480也因为核心内部集成更多流处理器而具备更高效能。

  3DMark Vantage是专门针对微软DX10 API的综合性基准测试工具。 此前的3DMark最终结果只有一个简单的分数,3DMark Vantage一个全新特性是引入了四种不同等级的参数预设(Preset),按照画质等级划分成了入门级(Entry,E)、性能级(Performance,P)、高端级(High,H)、极限级(Extreme,X)四类。测试结果改成了“字母等级”加“数字”的组合形式。

  之前v1.0.0发布时,除专业版外其他版本必须联网提交数据才能生成分数,导致很多玩家对其敬而远之,看来Futurmark是听取了玩家的建议,最新的1.0.1补丁已经取消了这个限制,高级版、基础版和试用版都可以离线DMark Vantage中我们测试了Performance和Extreme两种模式,在Performance模式下,分辨率为1280x1024,关闭抗锯齿,各项异性过滤为三线性过滤;而在Extreme模式下,分辨率则为1920x1080,4倍抗锯齿,16倍各项异性过滤。通过测试结果对比我们可以发现,GeForce GTX480显卡领先竞争对手产品达到10%,而其绝对分数已经非常接近20000分,根据以往的经验3DMark Vantage已经离下一代不远了。而在追求极致画面的Extreme测试模式下,GeForce GTX480更将领先优势扩大至14%,看来GF100优秀的核心架构和巨大的显存带宽在高分辨率高抗锯齿环境下更具优势。另外需要说明的是由于Future对测试程序作出改动,所以显卡在测试时将PhysX功能禁用,否则将无法通过测试中的CPU TEST第二场景《Crash&Burn》。

  日前,游戏引擎开发商BitSquid与游戏开发商Fatshark联合公布了一个叫“山岭巨人(StoneGiant)”的测试DEMO,这款DEMO集中展示了DX11中大放异彩的曲面细分技术,并将其与软阴影、景深等DX11的拿手好戏结合起来,是DEMO画面美轮美奂,非常真实。DEMO的主角是山岭巨人,其凹凸起伏的岩石身躯是展现曲面细分技术的最好平台,而这一点与我们常用的Unigine测试DEMO如出一辙,只不过在对硬件曲面细分引擎的优化上《山岭巨人》后来居上。

  这款游戏支持DX11,所以我们把不支持DX11的GTX285显卡剔除测试队列,因为其在不同架构、不同API、不同游戏设置下产生的测试数据与其他三款显卡相比没有测试意义。在整个测试过程中GeForce GTX480/470显卡运行都比较流畅,而这一情况在最终的测试结果中也有所反应。而就绝对帧数而言,采用GF100核心的GeForce GTX400系列显卡都能够大幅领先竞争对手的产品,最高幅度达到90%。这一方面是由于GF100强大的核心处理能力,另一方面也是由于GF100核心对曲面细分运算的细致优化所致,所以得到这样大差距的对比并不稀奇。

  喜欢FPS类型游戏的玩家一定不会错过《使命召唤6:现代战争2》这款游戏,在经历了《使命召唤5:世界战争》后,这款经典的游戏又重新以现代战争为题材,战争氛围的营造、武器人物建模的设计都让每一个玩家大呼过瘾,这样经典的游戏设计再多的关卡大家也觉得不经玩,笔者和很多玩家一样,感觉没怎么玩就通关了,多少有些意犹未尽,没关系,因为在3月2日,另外一款FPS大作《战地:叛逆连队2》发布了。

  EA DICE小组之前已经推过8款“战地”系列游戏,在这一代作品中,玩家继续扮演普雷斯顿马罗威(Preston Marlowe)的角色,与“B连队”,即“叛逆连队”,展开新一场冒险旅程。此时,B连队的士兵们已经归队,这意味着他们可以使用自己军队提供的各种支援,不必再四处搜寻、掠夺物资。此时,国际局势已经完全恶化,俄美战争全面打响,俄军进攻阿拉斯加的战役已持续近两星期。游戏开始。

显示器录入:admin    责任编辑:admin 
  • 上一个显示器:

  • 下一个显示器: 没有了
  •  
     栏目文章
    普通显示器 GPU集大成者!GeForce GTX480470全球同步解密 (01-21)
    普通显示器 年货节必看!这几款华硕无畏高性能轻薄本限时… (01-20)
    普通显示器 独创双屏幕+升降式散热!华硕灵耀X双屏笔记本… (01-20)
    普通显示器 年货节选本看这 华硕无双轻薄本好价来袭 (01-20)
    普通显示器 京东方独供华硕ROG系列高阶电竞MiniLED面板 (01-20)
    普通显示器 年货节高性能轻薄本换新 华硕无畏Pro15 2022让… (01-20)
    普通显示器 这些才是我用的最舒服的苹果产品! (01-20)
    普通显示器 90后清华博士的内蒙古印象:海阔凭鱼跃 天高任… (01-20)
    普通显示器 元故事│宝岛设计师圆梦“设计之都” (01-20)
    普通显示器 宝岛设计师圆梦“设计之都”:希望更多台湾年… (01-20)
    普通显示器 迷你电脑同价位小米远不是零刻的对手!零刻SE… (01-20)
    普通显示器 从CRT到LCD再到LED背光 超薄显示器知识普及 (01-19)
    普通显示器 微星发布156英寸便携式显示器PRO MP161:仅重… (01-19)
    普通显示器 可用于皮肤的有机发光二极管显示器 (01-19)
    普通显示器 超薄LED什么是超薄LED?的最新报道 (01-19)
    普通显示器 三星将推“世界最薄智能显示器” 白色机身超高… (01-19)
    普通显示器 宏碁推出Nitro XV5系列游戏显示器:可超频至2… (01-19)
    普通显示器 显示器行情_显示器_DIY硬件_太平洋电脑网DIY硬… (01-19)
    普通显示器 今日MicroLED协会预估178英寸AppleWatch的OLE… (01-19)
    普通显示器 第一款8K显示器发售6年:居然没人接班了 (01-19)