NVIDIA Fermi GF100游戏架构全解析

  • 时间:
  • 浏览:0

  1509年十一期间,NVIDIA第一次向让当我们展示了代号Fermi的全新图形架构,不过几乎完总要关于通用计算的,展示了NVIDIA开辟新领域的决心。到了今年初的CES 2010上,NVIDIA终于首次公开背熟了Fermi架构高端型号GF1150,展示立体多屏环绕技术3D Vision Surround的一块儿,内部运行了有几条新的演示DEMO。

  今天,NVIDIA终于公开了Fermi GF1150在游戏架构方面的诸多价值形式,这才是普通消费者最为关心的,也是让当我们要和让当我们分享的。

  不过让当我们仍未看后最终零售版的GF1150显卡,不少关键的核心参数也暂时缺失,本来有你会你急切地想知道下边那些内容,抱歉要失望了。

  - 核心面积

  - 时钟频率

  - 产品型号

  - 实际功耗

  - 零售价格

  - 游戏性能

  Fermi芯片至今仍未结束了了真正的批量生产,而核心面积在很大程度上决定着良品率,良品率又是时钟频率的前提,功耗和性能又总要建立在频率基础上,它们又总要价格的组成偏离 。当然了,GF1150须要要比Radeon HD 5870下行速率 调快,你会领先幅度要尽量高;功耗和价格都不 刚刚不可避免地要更高,只看能控制到那些程度了。

  下边是1509年9月1日拍摄的Fermi GF1150内核照片:

一、GF1150游戏架构的两颗新心脏

  让当我们你会知道,GF1150采用台积电40nm工艺制造,集成离米 150亿个晶体管,含高51本来流避免器(SP),你会按照NVIDIA官方的说法是CUDA核心。3本来你是什么 核心组成本来流式多避免器阵列(SM),你会再六个组成本来图形避免集群(GPC)。GF1150本来本来的三层分级架构:本来GPC、16个SM、51本来SP

  此外GF1150还有6本来纹理寻址单元、256个纹理过滤单元、48个ROP单元,显存位宽384-bit,搭配GDDR5颗粒。核心/Shader/显存频率都没人 定夺,显存容量也尚待挑选。

 GF1150GTX 295GTX 28591150 GTX+
流避免器5122 x 240240128
纹理寻址/过滤单元64/2562 x 150 / 150150 / 15064 / 64
ROP单元482x 283216
核心频率576MHz648MHz738MHz
Shader频率1242MHz1476MHz1836MHz
显存频率 GDDR5999MHz GDDR31242MHz GDDR311150MHz GDDR3
显存下行速率 384-bit2 x 448-bit512-bit256-bit
显存容量2 x 896MB1GB512MB
晶体管3B2 x 1.4B1.4B754M
制造工艺TSMC 40nmTSMC 55nmTSMC 55nmTSMC 55nm
价格$?000 - 150

  先看一下NVIDIA最新提前大选的比较详尽的GF1150架构图,接下来让当我们就完整篇 阐述其中的有几条重点之处。

[第2页][第3页][第4页][第5页][第6页][第7页][第8页][下一页]

  NVIDIA声称Fermi GF1150是本来全新架构之本来有没人 道理。不你会通用计算方面,游戏方面它也位于了翻天覆地的变化,几乎每本来原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)

  光栅引擎严格来说光栅引擎之本来有全新硬件,本来此前所有光栅化避免硬件单元的组合,以流水线的土方法执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期避免8个像素。GF1150有六个光栅引擎,每组GPC分配本来,整个核心每周期可避免3本来像素。

  多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等六个方面的避免工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF1150含高16个多形体引擎,每组SM本来,亦即每组GPC六个。

  多形体引擎绝非几何单元改头换面、增强15倍而已,它融合了本来的固定功能硬件单元,使之成为本来有机整体。实在每另本来形体引擎总要简单的顺序设计,但16个作为一体就能像CPU那样进行乱序执行(OoO)了,也本来趋向于并行避免。NVIDIA还特地为那些多形体引擎设置了本来专用通信通道,让它们在任务避免中维持整体性。

  当然,你是什么 变化比较复杂得要命,也消耗了NVIDIA工程师无数的精力、资源和时间。事实还还可否否没人 说,多形体引擎正是GF1150核心最大的变化所在,也是它无法在去年及时发布的最大原因。NVIDIA产品营销副总裁Ujesh Desai说过没人 话语:设计没人 大的GPU实在是太TMD难了。实在,他指的并总要150亿个晶体管。

  没人 做也是不得已而为之。考虑到细分曲面单元的几何比较比较复杂,固定功能流水线你会不适用,整个流水线都须要重新平衡。通不要 形体引擎的并行设计,几何硬件不再受任何固定单元流水线的局限,还还可否根据芯片尺寸弹性伸缩。和本来的GT150/G92以及AMD相比,GF1150走上了另四根路,你会颇有要做CPU的架势。

  在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完整篇 不同于以往。每组SM里六个纹理单元,合伙使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算本来纹理寻址、拾取六个纹理采样,并支持DX11新的压缩纹理格式。

  ROP单元总共48个,分为六组,分别搭配本来64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT150里是独享)。

  除了ROP单元和二级缓存,几乎你会 所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一块儿:一级缓存和Sahder单元某种是全速,纹理单元、光栅引擎、多形体引擎则总要一半。对于GF1150来说,想超频话语本来有地方总要重新来过了。

上一页[第1页][第3页][第4页][第5页][第6页][第7页][第8页]下一页

  二、NVIDIA缘何没人 关注几何性能

  在微软DX11规范的严格限制下,留给NVIDIA(还有AMD)自由发挥的空间之本来有大:不遵从当然不行,完整篇 照搬就缺乏特色,自行其事又你会本来无用功。最终,NVIDIA挑选了在下行速率 上做文章。

  从NV150 GeForce FX 51150到GT150 GeForce GTX 2150,NVIDIA显卡的几何性能只提高了不到3倍,而Shader性能提升了1150多倍,但仅仅是从GT150到GF1150,几何性能的增长倍数就达到了8x。

  有了没人 强大的几何性能,NVIDIA就还还可否使用细分曲面和置换贴图创建更比较复杂的人物、物体和场景,并保持和对手同样水平的性能,本来有才有了16个多形体引擎和本来光栅引擎。

  细分曲面是AMD DX11产品的宣传重点,但NVIDIA要做得比较复杂得多,你会理论上说效果更出色。接下来NVIDIA要做的本来让游戏开发商充分挖掘GF1150架构的潜力,在保证性能的基础上做出更精致的游戏画面。

细分曲面渲染过程示意图

NVIDIA水面细分曲面DEMO

NVIDIA头发细分曲面DEMO

  上一页[第1页][第2页][第4页][第5页][第6页][第7页][第8页]下一页

  三、更好的画质:

  1、抖动采样(Jittered Sampling)

  DX11完整篇 定义了显卡须要提供的价值形式,但对渲染后端的工作涉及甚少,本来有NVIDIA做了多形体引擎,还有抖动采样。

  抖动采样总要新技术,长期用于阴影贴图和各种后期避免,通过对临近纹素(Texel/纹理上的像素点)进行采样来创建更柔和的阴影边缘。它的缺点也是非常消耗资源。

  DX9/10上抖动采样是分别拾取每本来纹素,DX10.1结束了了改用Gather4指令,NVIDIA则在硬件上使用单独四根矢量指令。NVIDIA本人的测试显示,没人 做的性能离米 是非矢量执行的两倍

  对游戏开发商来说,这原因消耗的硬件资源更少;对游戏玩家来说,则原因更好的画质。

2、抗锯齿加速

  和AMD一样,NVIDIA也对ROP单元做出了调整,以减少在MSAA(多重采样抗锯齿)下的性能损失,还有更多ROP单元来改善性能。

  根据NVIDIA提供的数据,在《鹰击长空》里,8x/4x MSAA模式下GF1150的性能分别是GeForce GTX 285的2.33倍和1.61倍

上一页[第1页][第2页][第3页][第5页][第6页][第7页][第8页]下一页

  3、CSAA改进

  CSAA全称Coverage Sample Anti-Aliasing,意思是覆盖采样抗锯齿

  CSAA是在G150 GeForce 81150 GTX上引入的,当时最高支持16x,如今不但提高到了32x,你会将色彩取样和覆盖取样分抛妻弃子来,在32x CSAA中分别有8个和2本来,无论性能还是画质总要明显提升。NVIDIA宣称,GF1150 CSAA从8x到32x的平均性能损失不到区区7%。

  在GF1150上,Alpha to Coverage还还可否使用完整篇 采样点(最多3本来),你会有3六个透明级别,透明多重采样抗锯齿(TMAA)的质量都不 刚刚得到了改进。

  限于篇幅,具体的技术细节这里就不赘述了,只看看NVIDIA提供的你会 对比效果图:

上一页[第1页][第2页][第3页][第4页][第6页][第7页][第8页]下一页

  四、游戏计算(Compute for Gaming)

  随着通用计算的盛行,专业领域和民用领域都前途无量,NVIDIA CUDA并行计算架构就会在GF1150中继续发扬光大,你会用途更加广泛,单就游戏而言也是多方面的。

  首先,CUDA架构的实现途径就多种多样,CUDA C、CUDA C++、OpenCL、DirectCompute、PhysX、OptiX Ray-Tracing等等不一而足。这其中既有NVIDIA本人似有的开发土方法,总要开放的业界标准规范,开发商还还可否自由挑选。

  在游戏中,NVIDIA CUDA计算架构还还可否执行画质避免、模拟、混合渲染等等,实现景深、模糊、物理、动画、人工智能、顺序无关透明(OIT)、柔和阴影贴图、光线追踪、立体像素渲染等少量画面效果。

  下边试举几例:

《Metro 2033》里的景深效果

《Dark Void》里的PhysX物理效果

光线追踪演示DEMO

  NVIDIA还宣称,GF1150的游戏计算性能相比GT150有了大幅提高,比如PhysX流体DEMO演示程序3.0倍、《Dark Void》游戏物理2.1倍、光线追踪3.5倍、人工智能3.4倍。

  上一页[第1页][第2页][第3页][第4页][第5页][第7页][第8页]下一页

  五、立体多屏环绕技术3D Vision Surround

  NVIDIA在CES上就展示了你是什么 技术,让当我们也做过完整篇 介绍。它总要GF1150的专利,在GT150上才还还可否实现,只不过是现在才提出来,还还可否看作是对AMD ATI Eyefinity技术的提前大选。

  ATI Eyefinity还还可否支持六屏输出,而3D Vision Surround最多不到达到三屏但它支持3D立体效果,是3D Vision技术的扩展增强版。AMD方面也在积极开发3D立体技术,但目前还没人 与ATI Eyefinity相结合的消息,本来有这方面NVIDIA暂时拥有独特的优势。

  遗憾的是,AMD Radeon HD 11500系列能单卡支持六屏输出,NVIDIA GF1150却仍然不到一块儿驱动两台显示器,三台你会更多话语就须要两块GF1150组建SLI系统。本来一来,双卡系统的性能当然会好本来有,但成本也急剧增加。

  但也正你会总要GF1150架构的全新技术,GT150 GeForce GTX 150系列同样还还可否支持3D Vision Surround。事实上,NVIDIA在CES上展示的系统使用的本来两块GeForce GTX 285。

  显示设备支持方面,3D立体系统须要三台同样支持3D Vision技术的液晶显示器、投影仪你会DLP,单个分辨率最高1920×10150;你会是非立体系统(此时叫作NVIDIA Surround),任何普通显示设备均可,单个分辨率最高25150×11500。

  顺便说,它也支持边框纠正管理。

  接下来的问题报告 报告 本来:你是什么 系统的性能咋样?程序和游戏兼容性又咋样?

上一页[第1页][第2页][第3页][第4页][第5页][第6页][第8页]下一页

  六、结语

  总结一下Fermi GF1150在游戏架构方面的四大灵魂之处:

  1、强劲的几何性能,最高八倍于GT150。

  2、非凡的画质,最高32x CSAA和最快三倍的阴影贴图。

  3、革命性的GPU游戏计算,物理、人工智能和光线追踪性能提速最多四倍。

  4、有史以来最高性能的GPU,在8xAA高分辨率下性能最高是GT150的两倍。

  最后让当我们简单看看NVIDIA的本来重点演示DEMO:“Supersonic Sled”。它基于二十世纪五十年的美国空军试验模拟而来,在一百公里轨道滑车上捆绑了本来火箭,沿铁轨高速飞驰。

  这里用到了细分曲面DirectComputePhysX等多项技术,还支持3D Vision Surround,效果非常华丽,充分展示了GF1150强大的游戏计算能力。

看静止的截图当然不过瘾,下边总要一段22秒钟的视频录像:

  http://images.anandtech.com/reviews/video/NVIDIA/GF1150/GF1150_Architecture_WMFG_R1.wmv

  在拿到GF1150显卡内部本来,关于Fermi架构让当我们能说的基本上也就那些了。从NVIDIA提前大选的那些资料看,GF1150毫无问题报告 报告 在专业和民用本来领域总要成为新的怪物级产品,彪悍的GPGPU通用计算和游戏几何性能令人激动。

  不过GF1150到底会有多快?功耗和发热量还还可否让他接受?价格又是几何?那些更实际的问题报告 报告 仍然没人 答案,也须要再等离米 本来月才会真正揭晓。到本来AMD你会在DX11世界里寂寞了长达三天之久,NVIDIA又还还可否力挽狂澜、绝境重生呢?