GeForce RTX 4070 Ti SUPER评测:坐实SUPER性价比,AI效能新突破
在今年更新的SUPER阵营中,GeForce RTX 4070 Ti SUPER可能是最特别的存在。这是GeForce RTX有史以来第一款同时拥有Ti和SUPER尾缀的GPU,相当于比RTX 4070在性能加强之后,再来个猛料,最终造就了眼前这款性能威力加强版的产品。
在NVIDIA的宣传中,SUPER确实也承担着类似的定义,它更注重于原本基础型号的性价比增强,也无疑是替代原型号的理想选择。从纸面参数来看,GeForce RTX 4070 Ti SUPER确实做到了。例如AD104核心已至上线,那么就更换成更强的AD103,CUDA核心数量猛增至8448,第四代Tensor Core和第三代RT Core数量也随之增长,已经有了直逼RTX 4080的意味。
图片1.png当下的时间点GPU显然开始承担起了更多的工作,不仅要利用DLSS 3.5技术在游戏中完成AI加速以实现更高帧率,同时还要承担生成式AI创作的主要战力,特别是对于游戏主播、UP主、图形工作者而言,视频串流、图片与视频创作、建模与渲染等场景利用GPU完成加速也已是常态。
那么首次采用了Ti SUPER尾缀的GeForce RTX 4070 Ti SUPER能否承担起这样的责任?这一次我们将选用影驰GeForce RTX 4070 Ti SUPER大将作为参考,奉上GeForce RTX 4070 Ti SUPER的首发评测。
核心代号:AD103-275
与GeForce RTX 4080的AD103-300核心代号不同,GeForce RTX 4070 Ti SUPER启用了全新的AD103-275代号,同样源自于台积电4N定制工艺的Ada Lovelace,并且保留了旗舰产品的所有功能,以第三代RT Core、第四代Tensor Core、CUDA Core等核心搭建出当前定位下应有的性能。
我们已经知道,Ada Lovelace架构GPU中包含了若干个GPC(Graphics Processing Clusters,图形处理集群),GPC下包含若干个TPC(Texture Processing Clusters,纹理处理簇),再往下就是SM、CUDA、RT Core、Tensor Core等等。每个GPC之间包含的TPC数量相等,当GPU进行定位区分的时候再进行GPC、TPC的物理屏蔽实现。
但完整的AD103就有点不一样,虽然包含7个GPC,但每个GPC包含的TPC并不相同。如下图所示,在6个GPC各拥有6组TPC的同时,还有1个GPC仅有4组TPC。拥有459亿个晶体管组成,包含7个GPC,40个TPC、80个SM,以及8个32-bit内存控制器。
因此AD103的上限是10,240个CUDA核心、80个RT Core、320个Tensor Core、320个纹理单元和112个ROPs。在内存子系统上则总共包含10,240KB L1缓存,20,480KB寄存器堆,以及65,536KB的L2缓存。
作为AD103的新晋选手,GeForce RTX 4070 Ti SUPER的定位会低于GeForce RTX 4080,因此在设计上屏蔽了1组GPC,或者6组TPC,最终用获得了33组TPC,66个SM,264个第四代Tensor Core,66个第三代RT Core,以及8448个CUDA Core,96个ROP和264个纹理单元。
有意思的是,GeForce RTX 4070 Ti SUPER在L2缓存上与GeForce RTX 4070 SUPER相同,即48MB,官方定义的GPU频率则与GeForce RTX 4070 Ti相同,为2610MHz,总功耗维持在285W。
显存设定上则相对RTX 4070系列有所突破,使用了16GB GDDR6X,显存频率10500 MHz (21 Gbps),但拥有265-bit位宽,带宽672GB/s。
48MB L2缓存意味着拥有相对RTX 3070 Ti 12倍的提升,可给予光线追踪和路径追踪更强的性能表现,16GB GDDR6X 256-bit则代表在AI性能加速上也有了更多空间,从而帮助GeForce RTX 4070 Ti SUPER完成性价比进阶。
影驰大将参上
这一次GeForce RTX 4070 Ti SUPER没有推出Founders Edition公版,影驰GeForce RTX 4070 Ti SUPER大将成为了我们评测的第一选择。作为与公版看齐的产品,影驰GeForce RTX 4070 Ti SUPER大将在用料上下足了功夫,从3槽位与RTX 4080的身形就能看得出来。
虽然身材变宽了,但影驰GeForce RTX 4070 Ti SUPER大将仍然为塞入标准机箱进行了诸多考量,比如不含挡板长度为321mm,不容易顶到机箱前段,同时仍然保持3风扇配置。
将系列的设计语言在GPU中也是独树一帜,异型结构的星烽散热器拥有不错的辨识度。这是一套包含了金属外壳、金属压铸件加强框架的多维散热体系,比如芯片、显存与供电部分均全面覆盖,使用了8*Φ6mm复合热管,致密鳍片与回流焊接工艺,合金背板尾端的大开孔透气一个不少。
同时三风扇直径均为92mm,支持自动启停。即便是压力测试,影驰GeForce RTX 4070 Ti SUPER仍然能保持很好的静谧性。例如在压力测试半小时的状态下,GPU温度在55℃左右,红外线可以看到温度主要集中在靠近GPU部分的散热片处。
值得强调GeForce RTX 4070 Ti SUPER本身的TGP仅有285W,低于GeForce RTX 4080的320W,在2K分辨率游戏测试中我们可以看到功耗普遍维持在200W左右,在低功耗的状态下就能满足2K高帧率显示器的要求。
图片2.png除此之外,影驰也自带了Xtreme Tuner魔盘软件对GPU进行超频、灯控调整、温度监控操作,甚至可以尝试一把手动超频。
而在12VHPWR供电口左侧,也专门设立了一个ARGB同步线接口,支持AURORA SYNC PRO ARGB灯效,并且能与四大主板厂商保持ARGB灯效同步。讲道理,影驰GeForce RTX 4070 Ti SUPER大将也很好的发挥了3槽优势,显卡尾端的GALAX Logo不仅很大,RGB起来也非常带劲,色彩过度非常自然,能够轻松与主板、主机风扇RGB打成一片。
在接口上,影驰GeForce RTX 4070 Ti SUPER大将提供了3个DisplayPort 1.4a,1个HDMI 2.1a接口。
跑分不能停
现在让我们进入基准测试环节,测试平台包括了Core i9-14900K、ROG MAXIMUS Z790 DARK HERO、G.SKILL Trident Z5 DDR5-7200 16GBx2,并配以Thermaltake TPI RGB PLUS 1250W电源作为支持。
在基础性能测试中,主要参考检测DirectX 11和DirectX 12性能的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal。
这里可以看到GeForce RTX 4070 Ti SUPER相对RTX 4070 Ti提升在6%到16%之间,相对RTX 4070提升则有40%以上,如果是相对上一代的RTX 3070 Ti,提升幅度就会相当夸张,达到70%。同时这个成绩距离RTX 4080大约有10%左右的性能差距。
在发布较早的游戏测试中这里我们将分辨率设置成2K最高画质,由于游戏的限制无法开启DLSS 3以后版本,但即便如此,GeForce RTX 4070 Ti SUPER释放出来的性能已经能够超过RTX 3090 20%甚至50%,相对RTX 3070则可以有50%到100%提升,RTX 2070更是不在话下,最高提升超过200%。
只有DLSS 2版本的游戏测试显然是不够的。特别是DLSS 3和DLSS 3.5以后版本在GeForce RTX 40系列上的应用,让GeForce RTX 4070 Ti SUPER的效率得到进一步的提升。这得益于第四代Tensor Core性能提升幅度巨大,并辅以光流加速器(Optical Flow Acceleration,OFA)与DLSS相结合的办法,构建出了一个更为立体的分析方式,让GPU实际执行过程压缩到原本的 1/8,更多的工作由DLSS 3及以后的版本完成。
而DLSS 3.5更近一步,它是一套基于AI,让画质和帧率同时提升的解决方案,同时包含DLSS帧生成(FG)与光线重建(RR, Ray Reconstruction)技术搭配,再加上超分辨率(Super Resolution)、DLAA、帧生成(Frame Generation)多种技术融合,让游戏效率表现更为突出。
因此DLSS 3和DLSS 3.5带来的画面质感得以进一步提升,例如《赛博朋克2077》中霓虹灯在玻璃质感下的穿透性,以及雨后地面更为清晰的反光,都是DLSS 3.5配合光线重建所带来的画质提升。
与此同时,游戏帧率也大幅提升,如果让GeForce RTX 4070 Ti SUPER与RTX 3090进行对比,帧率提升可以从20%到100%,而对比RTX 3070,提升幅度最高可以到300%,对比RTX 2070提升幅度则可以达到500%甚至更高,主要原因是RTX 2070在部分游戏场景中帧率只有个位数。
DLSS 3.5带来的另一个好处就是融合了Reflex技术让游戏响应速度进一步提升,特别对于竞技类游戏而言,更低的系统延迟意味着更高的操作准确率,这里我们用GeForce RTX 4070 Ti SUPER对数款游戏进行测试,可以看到部分游戏的延迟甚至可以降低到10ms以下。
AI更爽了
GeForce RTX 4070 Ti SUPER拥有的16GB GDDR6X可以进一步提升AI体验。这里以Stable Diffusion生成式图像创作为例,最新版本的Stable Diffusion XL在模型体量上相当Stable Diffusion 1.5扩大了3倍,从而导致计算的数据量提升,但也带来了更好的画质。
Stable Diffusion XL作为一套深度学习模型,可以通过简单的文字语义实现高质量的图像生成,擅长生成高分辨率图像、文本到图像转换场景,适合艺术创作、设计、游戏开发、广告领域的用户。同时Stable Diffusion XL本身运行需要依靠Transformer变换器和卷积神经网络实现,这两者均需要GPU进行大规模并行计算,这无疑是NVIDIA最擅长的事情。也正因为如此,近几年AI的飞速发展,很大程度上就是NVIDIA GPU技术发展所推进的。
老规矩,这里我们以Stable Diffusion Web UI + TensorRT进行配置,用更短的语言描述生成10张分辨率为768x768的星际航行图片,每次运算1张图片,即总共执行10次,采样步数设置为50。
文字描述部分参考如下:
epic space battle over a water planet, many ships, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting
这里我们通过记录时间,推算出每分钟推算图片效率,参考公式为60 / (TotalTime / (BatchSize * BatchCount)) = Images Per Minute。通过对比可以看出,GeForce RTX 4070 Ti SUPER有很强的AI性能表现,比RTX 4060高出61%,甚至比RTX 4070 Ti也高出28%。
与此同时,我们也用Stable Diffusion SDXL与Stable Diffusion 1.5进行对比,就知道3倍的模型量是多么重要了。
Stable Diffusion SDXL
Stable Diffusion 1.5
AI加速的另一个应用是利用ON1 Resize AI 2022对图片分辨率进行提升,这里使用五个场景进行测试并记录平均时间。
DLSS 3.5作为AI加速的一部分也已经开始在专业应用中付诸实践,D5渲染器便是其中之一。在D5渲染器中,DLSS 3.5使用了比DLSS 3多5倍的数据训练,因此也可以更好的识别光线追踪效果,在时间、空间数据中做出更合理的判断,从而实现高效率的扩展。
在软件中开启DLSS 3.5的方法也很简单,只需要在菜单中找到DLSS 3.5选项,勾选所有的子选项即可。这时候我们就能在画面发现质的变化。例如当DLSS 3.5关闭后,洗漱池水龙头失去光泽,或是远处玻璃噪点变得异常多。
在帧率上,GeForce RTX 4070 Ti SUPER也给足了畅快感,不仅相对GeForce RTX 4070 SUPER提供10%的性能提升,相对RTX 3070提升幅度达到270%。
创作一把抓
AI加速也仅仅是GeForce RTX 4070 Ti SUPER创作功能中的一部分,得益于NVIDIA在各行业中的影响力,围绕CUDA Core、RT Core打造的专业应用也已经在实际上影响着各行业使用专业软件的体验。SPECviewperf就是很好的例子,这是一款专门考验OpenGL和Direct X API下运行的系统的3D图形性能,软件包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks。
最左侧的GeForce RTX 4070 Ti SUPER提升幅度是非常多的,相对RTX 4070提升可以达到20%到30%之间,相对RTX 3070 Ti提升可以从50%起跳到100%。
V-Ray 5 Benchmark中,会分别对CUDA Core和RTX进行检测,借助更多的CUDA Core数量,GeForce RTX 4070 Ti SUPER的RTX性能表现提升了290%,相对RTX 4070也提升了50%以上。
Octane Render RTX则是用来测试GPU的光线追踪性能表现,在复杂场景下考验GPU每秒产生的样本率,GeForce RTX 4070 Ti SUPER提升幅度也相当明显。
Blender Benchmark引入了Moster、Junkshop、Classroom三个参考场景,GeForce RTX 4070 Ti SUPER相对RTX 3090提升25%,相对RTX 3070 Ti提升超过80%。
写在最后:进阶的性价比
这一次,NVIDIA用更高阶的GPU,以及Ti加SUPER叠双层BUFF的方式给我们展示了更多可能性。与GeForce RTX 4070 SUPER类似,GeForce RTX 4070 Ti SUPER的性能提升令人满意,更多的CUDA Core、第四代Tensor Core与第三代RT Core让专业应用、3A游戏都获得了质的提升。
重要的是,16GB GDDR6X搭配强悍的AD103 GPU给AI创作带来了更多空间,无论是Stable Diffusion SDXL这样的生成式AI创作,还是DLSS 3.5加速的D5渲染器,GeForce RTX 4070 Ti SUPER都一步到位给予了顺畅的体验。这意味着GeForce RTX 4070 Ti SUPER不仅适合游戏发烧友,对于从事艺术创作、设计、游戏开发、广告的用户而言,这款GPU的推出也更具有意义。
在AI、创作、游戏样样精通的前提下,6499元定价的GeForce RTX 4070 Ti SUPER透着浓厚的性价比。
特别是像影驰GeForce RTX 4070 Ti SUPER大将这般,在遵循官方定价的前提下给予散热、ARGB同步、定制软件调教等深度化体验,也让GeForce RTX 4070 Ti SUPER更进一步。如果你已经在为错过第一批GeForce RTX 40系列GPU而后悔,现在不要犹豫,可以预见在未来一段时间内,SUPER将成为GeForce RTX 40系列性价比的代名词,直接下单准没错。
张老板儿啊
校验提示文案
Parsifa1
校验提示文案
爱够
校验提示文案
伸长blue
校验提示文案
值友4496163964
校验提示文案
松山湖滑慰欧洲小镇
校验提示文案
热水袋
校验提示文案
海南无货
校验提示文案
黯然小混
校验提示文案
还行主义学家老康
校验提示文案
石桥禅意
校验提示文案
早花西拾
校验提示文案
到哪都是排队
校验提示文案
值友2376154760
校验提示文案
铭cash
校验提示文案
jakesolo
校验提示文案
油炸土豆丝
校验提示文案
V怪客
校验提示文案
AndyAYQ
校验提示文案
李逍遥第一
校验提示文案
Darylxue
校验提示文案
铭cash
校验提示文案
fufufoo
校验提示文案
带pose的熊
校验提示文案
子行吧行吧
校验提示文案
WYChaha
校验提示文案
值友2376154760
校验提示文案
路过的住下了
校验提示文案
李逍遥第一
校验提示文案
到哪都是排队
校验提示文案
伸长blue
校验提示文案
早花西拾
校验提示文案
Parsifa1
校验提示文案
值友4496163964
校验提示文案
石桥禅意
校验提示文案
还行主义学家老康
校验提示文案
张老板儿啊
校验提示文案
黯然小混
校验提示文案
AndyAYQ
校验提示文案
V怪客
校验提示文案