中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

2021-06-09 21:58:34 14点赞 29收藏 62评论

换个活法——GeForce RTX 3070 Ti

NVIDIA 在 6 月2 日正式发布了两款 Ti 后缀的显卡:GeForce RTX 3080 Ti 和 GeForce RTX 3070 Ti,我们前几天之前已经发表了前者的测试报告。

该卡以 8999 元的定价提供了接近 GeForceRTX 3090 的性能,对于已经“饿了”半年的显卡市场来说无疑是一个不错的选择,市场上的 RTX 3080Ti 实际价格其实已经站到了 11000~12000 的区间。

当然,即使是 8999 能买到,对于许多游戏玩家来说依然是超出预算的,他们更希望的是多一些类似RTX 3070 价格线的产品,而这次发布的 RTX 3070 Ti 则可以满足他们的需求,4499 元的定价在目前来说已经是比较适宜的价位了。

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

和去年发布的 RTX 3070 相比,这次的 RTX 3070 Ti 有三个明显的区别点:

  1. 引入了LHR 锁矿,主流的以太坊算力减半,目的是保护 NVIDIA 的游戏卡生态;

  2. 引入了GDDR6X 内存,解锁内存带宽瓶颈;

  3. 开启了更多的计算单元,提供更强的游戏性能。

当然,不同的人对上述三点的排序也许会不一样,但是我还是倾向于上面的样子,因为过去半年里,游戏玩家饱受挖矿之苦,他们中的大多数都退而求其次成为核显党、亮机党,只要LHR 能重建健康的游戏卡生态就比什么都更重要了。

GeForce RTX 3070 Ti FE 实物

GeForce RTX 3070 Ti FE GeForce RTX 3070 Ti FE

GeForce RTX 3070 Ti FE GeForce RTX 3070 Ti FE

GeForce RTX 3070 Ti FE 版的设计语言和 RTX 3080 Ti FE 高度相似,采用了和 RTX 3080 Ti FE/RTX3080 一样的右侧风扇背置设计,此时左侧风扇的风往里吹,而右侧背置的风扇往外吹,两个风扇的风道各行各道,降低了传统设计中显卡热流叠加的问题。

按照当初 RTX 3080 发布时候的资料,和 RTX 2080 Ti 相比,新设计在同样功率(320W)下能降低 20 摄氏度以及 10 分贝噪音)。

规格对比规格对比

和 GeForce RTX 3070 相比,GeForce RTX 3070 Ti 在性能上的最大变化源自采用了 GDDR6X 内存,凭借19Gbps 的单引脚传输速率,现在 GeForce RTX 3070 Ti的内存带宽高达 608GiB/s,比之前的 GeForceRTX 3070 高了大约 36%。

GeForce RTX 3070 Ti 的内核规模增加了4%(从 46 个 SM 增加到48 个),这样的增幅理论上只能带来 4% 的提升,但是结合前面提到的34% 内存带宽提升,最终和 GeForce RTX 3070 相比 GeForce RTX 3070 Ti 能达到大约 10% 的提升。

最后就是挖矿算力限制部分,英伟达自 GeForce RTX 3060 开始引入挖矿限制,到了5 月份中旬全线产品都转换为锁矿版本,GeForce RTX 3070 Ti自然也免不了这一刀。

正如我以前一直所说的那样,锁矿对 NVIDIA、游戏玩家来说是多赢的设定,NVIDIA 在确保游戏卡生态正常发展的同时,依然可以让自己有更亮眼财报,而挖矿导致的缺卡问题也大为减少,玩家们的抱怨将因此而大大降低。

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

从我目前的挖矿体验来看,RTX 3070 Ti 是一块以太坊友好度较低的产品,它的算力在最优化的情况下可以做到43MH/s,但是此时的耗电会高达 145 瓦,相比之下,RTX 3070 可以做到 61MH/s @ 116 瓦。

这意味着 RTX 3070 Ti 的每瓦算力从 RTX 3070 的 0.53 MH/s 降低到了 0.3 MH/s,在币价较高的情况下,RTX 3070 Ti 也许可以提供一定收益,但是出现矿难的情况,RTX 3070 Ti 关机比价会提前不少,而且由于算力较低,RTX 3070 Ti 的回本周期也会大为延长,最终如果想购买RTX 3070 Ti 挖矿的话亏本风险会高许多。

谈一下 DLSS 和光线追踪

首先是 DLSS。

DLSS 是 NVIDIA 在RTX 20 系列发布时候开始引入的画面重构技术,全称是 DEEPLEARNING SUPER-SAMPLING(深度学习超采样)。

最初版本的 DLSS 或者说 DLSS1.0 是基于特定游戏预训练网络数据的超分辨率技术,加上是纯空间域(与前后帧无关),因此其效果是差强人意的。

到了 DLSS 2.0,NVIDIA 采用了通用(而非特定游戏)的预训练网络数据,并且结合了时间域信息(纳入了前后帧数据),使得超分辨率的画质非常出色。

在 DLSS 1.0 和 DLSS2.0 之间还存在一个被称作“DLSS 1.9”的实现,该技术据我所知只有 Control 采用。它实际上是纯 CUDA Core 执行,结合了时间采样,没有采用预训练的神经网络作推理,当时的效果比DLSS 1.0 更好一些。在不久后,随着 DLSS 2.0 的发布,Control 就升级到了效果好很多的 DLSS 2.0。

有些人认为 DLSS 1.9 是 DLSS2.0 的原型,这也许有一定的道理,例如采用了时间采样,但是从画质差别来看,DLSS 2.0 相当于另一个新世界。

DLSS 2.0 除了画质非常出色、支持更灵活的渲染分辨率(例如支持 4 倍分辨率,而 DLSS 1.0 只能支持两倍)外,更重要的一点是它可以更容易集成到游戏开发流程中,例如现在UE4 已经集成了 DLSS 2.0,DLSS 2.0 现在对 UE4 游戏开发人员来说就是一个开关。

当然,不同的游戏可能还需要一些微调,例如光线追踪的降噪处理引入了 TAA 来做的话,则需要将TAA 前移到 DLSS 2.0 之前,简单来说,就是需要注意在渲染流水线中DLSS 2.0 执行的位置,这是因为 DLSS 2.0 引入了时间域的采样。

在 RTX 30 发布的时候,NVIDIA还趁势推出了 DLSS 2.1,其实就是 DLSS 2.0 基础上引入了8K 和 VR 支持,目前没有关于 DLSS 会有大版本更新的消息。

DLSS 2.0 提供了多种画质设置,分别有品质(Quality)、平衡(Balance)、性能(Performance)、超高性能(Ultra Performance),根据我在游戏Death Stranding 中的对比来看,Performance 模式的纹理细节度要比Quality 好一些,但是边缘过渡渐变方面 Quality 会好些,考虑到Performance 提供了更好的性能,我觉得 Performance 是DLSS 2.0 中最推荐的模式。

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

左:2560x1440 DLSS 2.0 Performance,纹理细节度更好;右:2560x1440 DLSS 2.0 Quality,边缘抗锯齿过渡更好,这里使用了 8倍放大

当我们说DLSS 2.0 在某些情况下画质会高于原生高分辨,这个“某些情况”一般是指游戏在原生高分辨设置下启用TAA(时间抗锯齿)时候的情况:

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

左:2560x1440 DLSS 2.0 Performance,纹理细节度更好;右:本机2560x1440 开启 TAA,边缘抗锯齿过渡更好

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

左:2560x1440 DLSS 2.0 Performance,边缘过渡好很多;右:本机2560x1600,纹理细节好点

没有一项技术是完美的,但是 DLSS 2.0 的确在性能和画质上做到了非常好的平衡。

提起 DLSS,绕不开的话题自然是 AMD的 FSR。

FSR 是 AMD 6 月 2 日发布的超分辨率技术,定于 6 月 22 日正式上线,目前已知的有 Godfall 等 5 个游戏支持该技术。

按照 AMD 的说法,FSR 1.0 是一个纯空间域的超分辨率技术,这点和DLSS 1.0 是类似的,但是,FSR 也没有采用任何深度学习训练网络,因此它目前公开的视频里,画质表现似乎并不理想(有些人认为比DLSS 1.0 还糟糕,我对此有保留,但是可以肯定的是无法和 DLSS2.0 相提并论)。

常见超分辨率实现方式(非严谨)分类:

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

毫无疑问 FSR 也会演进,例如明年第四季度集成 Matrix Core(等效 NVIDIA 的 Tensor Core) RDNA 3 问世的时候,基于深度学习的 FSR 2.X(纯属个人假设)有机会和 DLSS 2.0 真正抗衡,但是在此之前,FSR 恐怕只是一个实用性相对 DLSS 2.0 较低的技术。

对真·图灵(集成了 RT Core 和 Tensor Core 的图灵 GPU)和安培显卡用户来说,DLSS 2.0 能达到的效果就是相当于提前使用上下一代显卡。

再说说光线追踪的情况

相对于铺天盖地的宣传,关于光线追踪硬件加速的实现细节其实大家讨论的很少,这就导致了 N粉和 A 粉在光线追踪问题上各说各话。

我将目前已知的双方光线追踪资料以及它们实现整理了一下:

1、NVIDIA 和 AMD 在硬件光线追踪上都提供了 DXR 和 Vulkan 支持;

2、DXR 1.0 要求 GPU 提供 31级递归支持,DXR 1.1 去掉了递归支持,改为迭代;

3、Vulkan 光线追踪对递归的最低要求是 1 级,NVIDIA Vulkan 驱动提供了 31 级支持,AMD Vulkan 驱动是 1 级;

4、NVIDIA 的硬件光线追踪单元或者说 RT Core 目前已经演进到第二代(安培),和第一代(图灵)相比,第二代RT Core 支持“光线追踪+着色渲染+深度学习”并发执行,第一代只能“光线追踪+着色渲染”,这意味着在安培架构上,光线追踪加速和着色渲染以及DLSS 可以一起执行。

5、AMD 的光线加速器或者说 Ray Accelerator 支持光线追踪加着色渲染并发执行,但是由于没有等效Tensor Core 的 Matrix Core,自然也不存在光线追踪+着色渲染+深度学习

6、NVIDIA RT Core 在进行光线或者射线多次反弹方面比 AMD Ray Accelerator更具优势,场景中的三角形数量越多,RT Core 在多次反弹方面的性能就越明显,例如我之前做的 Hairball 路径跟踪测试,NVIDAI 3060 Ti 的速度就达到了RX 6700 XT 的 10 倍。

我们使用一个 Path Tracer 进行了这方面的测试,射线反弹计算采用迭代或者说循环方式执行(非递归,A 卡 Vulkan 驱动不支持深递归),模型为 Hairball,三角形规模 2.88 百万,分辨率为 2560x1600。

NVIDIA RTX 3060 Ti 的速度为 40fps NVIDIA RTX 3060 Ti 的速度为 40fps

AMD RADEON 6700 XT 的速度为 4.2fpsAMD RADEON 6700 XT 的速度为 4.2fps

7、第二代RT Core 的主要改进是提供了双倍的三角形射线求交测试/剔除能力,这使得RTX 3090 能在一些三角形较多的场景中提供 RTX 2080 Ti 接近两倍的实际性能。

8、但是另一方面,在偏重过程化几何体的光线追踪场景中,RTX 2080 Ti 能达到接近 RTX 3080 的性能,而 AMD RX 6800 在偏重过程化几何体的光线追踪场景中可以做到优于 RTX 3090的情况,当然在偏重三角形(更能代表实际游戏)的场景中,AMD RX 6000 明显低于 RTX 2000 系列,更不要说三角形求交能力倍增的 RTX 3000 了。

9、目前没有看出 128MiBInfinity Cache 在光线追踪方面给 AMD RX 6000 带来什么实际的性能好处,虽然很多人都说这么大的 Cache 有助于 BVH 访问。

简单来说,RT Core 是目前最好的硬件光线追踪实现,RA 可以视作为 RT Core 的子集,AMD 在这点上仍然处于追随者的地位,原因其实很简单——对 GPU 来说,集成新的固定功能单元风险非常高,AMD 不打算冒险作改动。

接下来让我们看看实际的游戏表现吧。

游戏实测

测试平台

CPU:AMD Ryzen 75800X BIOS 强制全核锁频 4.5GHz

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

主板:华硕 ROG Strix X570-E Gaming

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

内存:TT ToughRAM DDR4-3600 8GB * 4

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

电源:TT ToughPower PF1 850W Premium Edition

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

软件环境:微软 Windows 10 20H2 x64

驱动版本:466.61

由于手头的显示器是戴尔 U2413,只支持 1920x1200,因此我这里的 2560x1440、3840x2160 分辨率都是 DSR 实现的,由于 DSR 输出的时候会做一个高斯取样缩小处理,会比原生分辨率额外增加大约 7% 的性能开销,请大家注意。

测试结果测试结果

测试说明:

  1. 地铁离去增强版使用的是游戏内带官方基准测试;

  2. 刺客信条:英灵殿使用的是游戏内带官方基准测试;

  3. Cyberpunk 2077 使用的是第一个救人任务出来后返回家中的过场(从女警官说“好啦”开始),时间长度为 100 秒,使用帧率采集工具采集;

  4. Control 是使用帧率采集工具采集,位置是从新游戏开始的大厅跑到清洁工人,时间为 35秒;

  5. 神陨使用的是游戏内带官方基准测试;

  6. 古墓丽影之暗影使用的是游戏内带官方基准测试;

  7. 荒野大镖客2 使用的是游戏内带官方基准测试,开启 8X MSAA 和水面反射8X MSAA。

测试数据判读:

  1. GeForce RTX 3070 Ti 在大多数游戏中的表现比 RTX 3070 快大约10%。

  2. GeForce RTX 3070 Ti 比较适合 2560x1440 分辨率下以最高画质运行,4K 的话必须开启 DLSS。

  3. 由于显存容量只有8GiB,在荒野大镖客 2 中两片 GA104 显卡都无法正常运行(此时的显存需求为 10.9 GiB),NVIDIA 在6 月 2 日已经宣布该游戏会引入DLSS,我相信有了 DLSS 后 RTX 3070 Ti 可以在荒野大镖客 2 以最高画质流畅运行于 2.5K,至于 4K 表现如何则有待观察。

游戏温度及耗电

测试说明:

以 2560x1600 RT max DLSS off的设置运行游戏 Control 第一关从开始到清洁工人的过程, 时长 35 秒,使用 Rivatuner Statics Server获取显卡内建传感器信息。

测试时的室内环境温度为 30.1 摄氏度,未开空调,立式机箱打开侧板,机箱未启用任用机箱风扇,显卡风扇曲线保持原厂设定。

GeForce RTX 3070 Ti:

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

GeForce RTX 3070:

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试

测试数据判读:

  1. RTX 3070 Ti 的耗电要比 RTX 3070 高大约 8%;

  2. RTX 3070 Ti 的芯片平均温度要比 RTX 3070 低大约 1 摄氏度

  3. RTX 3070 Ti FE 的 TDP 约束为 285 瓦,比 RTX 3070 高大约 60 瓦。

虽然耗电更高,但是由于 GeForce RTX 3070 Ti 采用了对流式散热设计,散热器比RTX 3070 更强,因此在温度表现方面两者比较接近,GeForceRTX 3070 Ti 增加的耗电主要源自于 GDDR6X。

测试总结

从实际测试结果来看,RTX 3070 Ti 的表现比之前的 GeForce RTX 3070 只是高了大约 10%,这说明 GA104 这枚芯片可挖的潜力已经挖掘殆尽,GDDR6X 带来的 36% 额外内存带宽对于 GPU 性能限制帮助不是很大。

全新设计的散热器源自 RTX 3080 的思路,采用了对流式设计,对于缓解额外的功耗有较大的帮助。

锁矿对于这片显卡的最终受众——游戏玩家是有帮助的,以目前低迷的币价以及 RTX 3070Ti 额外的功耗,对矿老板们来说都是非常不友好的,据闻这次 RTX 3070 Ti 备货相对较多,因此我预期 RTX 3070 Ti 仍然是比较容易入手的(相对RTX 3070 而言)。

RTX 30 的新品发布已经告一段落了,接下来期待的应该是下一代显卡了吧。

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试


展开 收起

NVIDIA 英伟达 GeForce RTX 4060Ti 公版 显卡

NVIDIA 英伟达 GeForce RTX 4060Ti 公版 显卡

3199元起

NVIDIA 英伟达 GeForce RTX 4070 SUPER Founder Edition 显卡 12GB

NVIDIA 英伟达 GeForce RTX 4070 SUPER Founder Edition 显卡 12GB

暂无报价

NVIDIA 英伟达 GeForce RTX 4080 SUPER 16GB 公版 显卡

NVIDIA 英伟达 GeForce RTX 4080 SUPER 16GB 公版 显卡

8998元起

NVIDIA 英伟达 GeForce RTX 4090 公版显卡 24GB

NVIDIA 英伟达 GeForce RTX 4090 公版显卡 24GB

17959元起

NVIDIA 英伟达 GeForce RTX 4080 16G 公版 显卡

NVIDIA 英伟达 GeForce RTX 4080 16G 公版 显卡

9259元起

NVIDIA 英伟达 GeForce RTX 4070 Founder Edition公版显卡 全新架构 DLSS 3技术

NVIDIA 英伟达 GeForce RTX 4070 Founder Edition公版显卡 全新架构 DLSS 3技术

5379元起

NVIDIA 英伟达 芯联能 GeForce RTX4060 双风扇万丽 8G独立显卡

NVIDIA 英伟达 芯联能 GeForce RTX4060 双风扇万丽 8G独立显卡

暂无报价

NVIDIA 英伟达 T1000 8GB GDDR6 专业显卡 工业包装

NVIDIA 英伟达 T1000 8GB GDDR6 专业显卡 工业包装

2799元起

NVIDIA 英伟达 Tesla系列 GPU深度计算加速显卡 Tesla P4 8G

NVIDIA 英伟达 Tesla系列 GPU深度计算加速显卡 Tesla P4 8G

暂无报价

NVIDIA 英伟达 T400 4GB GDDR6 专业显卡 工业包装

NVIDIA 英伟达 T400 4GB GDDR6 专业显卡 工业包装

1099元起

NVIDIA 英伟达 Quadro P1000 显卡 4GB

NVIDIA 英伟达 Quadro P1000 显卡 4GB

1558.95元起

英伟达(NVIDIA)A800 80G 专业运算卡

英伟达(NVIDIA)A800 80G 专业运算卡

暂无报价

NVIDIA 英伟达 GeForce GTX 1060 显卡

NVIDIA 英伟达 GeForce GTX 1060 显卡

暂无报价

NVIDIA Tesla 显卡 H800 80G 计算加速 GPU推理训练高性能显卡 Tesla H800 80G(售价联系客服)

NVIDIA Tesla 显卡 H800 80G 计算加速 GPU推理训练高性能显卡 Tesla H800 80G(售价联系客服)

暂无报价

NVIDIA 英伟达 TITAN Xp 12G 显卡

NVIDIA 英伟达 TITAN Xp 12G 显卡

暂无报价

NVIDIA 英伟达 RTX A2000 12GB 显卡 12GB 黑色

NVIDIA 英伟达 RTX A2000 12GB 显卡 12GB 黑色

3899元起
62评论

  • 精彩
  • 最新
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
29
扫一下,分享更方便,购买更轻松