七彩虹 GeForce RTX 5090 D Advance 首测
无敌最寂寞—GeForce RTX 50 问世背景
这几年 NVIDIA 游戏 GPU 可以说是毫无竞争压力,不管是老对手 AMD 还是重拾战衣的 Intel,在独立显卡市场上都没能拿出能威胁 NVIDIA 游戏显卡的产品。
NVIDIA 并未因此放慢脚步,与之相反的是,这家公司在实时渲染、生成式 AI、视频创作等领域继续与业界展开广泛深入的合作,尤其是生成式 AI 领域,从聊天机器人、AI 图片生成、AI 视频生成,成熟且不断拓展的生态以及快速部署能力,让 NVIDIA 显卡成为许多 AI 最终用户的不二之选。
不管是从前还是现在、未来,GeForce 都是 NVIDIA 最重要的基石,像超算中心里的强大算力和应用,它们在未来都可能下放到 GeForce 上,例如 DLSS 的参数网络就是在 NVIDIA 超算上日以继夜跑了六年多了,NVIDIA 整个产品线逻辑都是完全打通的,GeForce 很好地承接了从更高阶产品线下放的应用并将其第一时间普惠到所有普通用户。
今天 NVIDIA 又推出了基于全新 Blackwell 架构的 RTX 50 系显卡,在多个方面提供了更强的性能、功能,不仅有强大的性能蛮力,还有基于完全重构的 DLSS 4、支持 422 色彩格式视频等新特性,满足不同玩家、用户的娱乐、生产需求。
Blackwell 基本架构
Blackwell 这个代号源自致敬美国数学家 David Blackwell,David Blackwell 在博弈论、概率论、信息论等方面都有重要的贡献,这些成就在目前 AI 领域里最热门的 Transformer 技术中发挥了重要的作用。
第一款 Blackwell 架构 GPU 是 2024 年 3 月 18 日 GTC 2024 上发布的 GB100 芯片,以高级封装技术嵌入到了加速器 B100 当中,透过NV-HBI(协议为 NVLink 5.0)实现双 die 互联提供强劲的 AI 超算性能。
而面向消费端市场的 GB202 是基于 Blackwell 的最强型号,GeForce RTX 5090 以及中国特供版 GeForce RTX 5090 D 都是采用了 GB202。

完整的 GB202 包含有 12 个 GPC,每个 GPC 基本上可以视作一个独立的 GPU,有完整的渲染流水线。每个 GPC 里含有 8 个 TPC,每个 TPC 有自己的纹理单元和 L1 Cache,GB202 合计有 96 个 TPC。
完整的 GB202 规格如下:
GPC:12
TPC:96
SM:192
寄存器堆大小:49152 KiB
纹理单元:768
TensorCore:768
RT Core:192
CUDA Core:24576
L2 Cache:128 MiB

每个 TPC 内有两个 SM,SM 相当于传统多核处理器里定义的内核,有自己的 Load/Store 单元、CUDA Core、RT Core、Tensor Core、L1 D-Cache/SharedMemory、寄存器堆。

在 Blackwell 架构里,每个 SM 里包含有 4 个 Sub Core,每个 Sub Core 里有 32 个 CUDA Core,因此每个 SM 里有 128 个 CUDA Core。此外,每个 SM 里还有 1 个 RT Core、4 个 Tensor Core、4 个纹理单元、128 KiB 可配置 L1 DCache/SharedMemory 以及 256 KiB 寄存器堆。

和 Ada 架构相比,SM 里的整数单元规模增加了一倍,和浮点单元数量一致,所有 CUDA Core 都能一起执行 FP32 或者 INT32 指令。

上图是 NVIDIA GeForce RTX 5090 D(中国特供版)的规格和前几代 RTX 旗舰级产品的对比。
可以看到,RTX 5090 D 的 TPP 值为 4746,所谓 TPP 是指美国 2022 年实施的出口管制规定中的总处理性能,上限为 4800,RTX 5090 D 离上限只有 1% 的差别。
而 PD 值是指性能密度,也就是 TPP 除以芯片面积,一般只适用于数据中心处理器,RTX 5090 D 的 TPP 值未超标,被认为是游戏卡产品,所以这里虽然是 6.3,但是和 PD 8.2 的 RTX 4080 等游戏卡一样并未受到美国数据中心处理器出口管制影响。
GeForce RTX 5090 D 的纹理单元规模从 GeForce RTX 4090 的 512 个增加到了 680 个,纹素填充率从 1290 Gtexels/s 提升到了 1636 1290 Gtexels/s。按照 NVIDIA 的说法,Blackwell 的每个 SM 纹理点采样性能较 Ada 翻倍,这样的设计有利于实现 Blackwell 架构引入的神经纹理压缩所使用的随机纹理滤波(Stochastic Texture Filtering)。
带宽显著提升的 GDDR7 内存

GeForce RTX 50 系全系搭载最新的 GDDR7 内存,该内存采用了名为 PAM3(每周期传输 1.5 字节)的信号调制技术,大幅度提升了数据传输速率,目前已知的未来最强 GDDR7 规划是 42Gbps。
不过 RTX 5090 D 搭载的还只是相对保守的 28Gbps,即使如此,在 512-bit 内存总线加持下, RTX 5090 D 也依然实现了高达 1.792 TB/s 的内存带宽,是 RTX 4090 1TB/s 的 1.8 倍,非常接近 NVIDIA 基于 Hopper 架构的 H100 PCIe 80 GB 所能提供的每秒 2 TB/s 带宽,是当下游戏卡内存带宽之王。
更强的内存带宽能让 RTX 5090 D 性能得到更充分的发挥,不管是游戏还是生成式 AI、专业三维渲染都能从中获益匪浅。
除了更高的内存带宽外,GeForce RTX 50 的 GDDR7 支持还包括了针对 RAS(可靠性、可用性和可维护性)的增强式 ECC 支持,RAS 原本一般只有企业级用户才会关心,如今 GeForce RTX 50 也希望在这方面有所增强,不管是游戏玩家还是工作站用户应该都挺开心的。
相对于 GeForce RTX 40 时代的 GDDR6X 而言,GDDR7 属于 JEDEC 标准,供货更有保障,未来可供显卡厂商的选择更灵活。
支持硬件 FP4 精度的第五代 Tensor Core
Blackwell 的矩阵计算单元 Tensor Core 升级到了第五代,这次 Tensor Core 在原有的基础上增加了对 FP4 数据指令的硬件支持,新的数据格式能让模型量化后具备更小的体积,这意味着更低的硬盘、显存开销以及更高的性能。
以目前生成式 AI 图片模型 Flux.1-dev FP16 模型为例,需要至少 23GB 显存空间,对 GeForce 产品线来说,只有 RTX 4090(D)、RTX 5090(D) 能跑。
采用 FP4 后,显存需求会降低到 10 GB 不到,能在大多数 GeForce RTX GPU 上运行。

理论上,FP4 的指令吞吐也是 FP8 的两倍或者说FP16 的四倍,在 NVIDIA 的规格表里,GeForce RTX 5090 D 的 AI 算力峰值也是直接按照 FP4 的 2375 TFLOPS 来标示的,而从 procyon 的媒体版(CES 2025 演示同款版本)测试结果来看,FP4 的性能也的确接近 FP8 的两倍。
在 Flux.1 生成式 AI 图片生成方面,FP4 和 FP8 在输出图片虽然存在区别,但是这种差别极少,可能要比抽卡导致的差别还要小,所以 FP4 支持是很令人期待的。
目前 Flux.1 也有 NF4 等 4-bit 模型,但是它们只是利用上了减少内存、存储空间的好处,Tensor RT 的 FP4 硬件加速并未能体现。
Flux.1 的开发商 Black Forest Labs 计划在 2 月出在 Hugging Face 上公布 FP4 优化版,而 NVIDIA 则可能会在 3 月份提供相应的 TensorRT 优化引擎支持,这些消息都是非常值得期待的,要知道,Flux.1 和 Redux 已经成为当下最重要、最热门 AI 图片的工作流。

在 GeForce RTX 5090 D 发布后,网络上有一种声音认为 NVIDIA 使用 FP4 会导致误解,这样的声音虽然有一定的道理,但是现在是 2025 年了,AI 应用落地对推理运算加速的需求量非常大,像上面提到的 FLUX.1,使用 FP4 和 FP8 乃至 BF16 的视觉差别非常小(上图就是 Black Forest Labs 官方提供的 BF16 和 FP4 输出对比图),这时候 FP4 算力也是非常有价值的性能指标。
性能再翻倍的第四代光线追踪内核
NVIDIA 从 2018 年的图灵架构开始引入光线追踪内核,在这之前 GPU 都是透过通用计算单元来执行光线追踪所有计算的,而光线追踪内核的作用是加速光线追踪的三角形和 BVH 加速体求交运算,从而显著改善光线追踪性能。
根据 Reddit 网友 Nestledrink 的统计,当年的图灵内核每个 TPC 中增加的光线追踪内核面积大约是 0.7 平方毫米,即使加上另外的 Tensor Core,在增加的面积百分比也不过是 8~10%,从效费比角度看收益非常大。
和 Ada 架构相比,Blackwell 配备的第四代光线追踪内核在三角形求交性能上比 Ada 的第三代光线追踪内核再翻倍,并且新增了三角形簇集求交引擎、线性扫描球体(Linear Swept Spheres)硬件加速、三角形簇集硬件压缩等三个新的单元。

NVIDIA 将新增的三个单元所能实现的功能称作 Mega Geometry(百万几何体)。

从技术上来看,Mega Geometry 特别适用于像 虚幻引擎5这种使用现代细节层次(LOD)系统(如 Nanite)的游戏引擎,使其能在全分辨率下进行光线追踪,无需再透过粗糙版三角形代理的方式来进行光线追踪渲染,这样的好处是光线追踪阴影、反射和间接照明的效果可以进一步提升。
除此之外,Mega Geometry 允许在过去只在离线渲染中使用的技术(例如位移式细分表面)在实时渲染中得到应用。
为了让大家能比较容易了解接下来的内容,我这里先做个铺垫。
对于光线追踪来说,最大的挑战是如何快速找出被观察者角度投射的“射线”集中的三角形,这就好像拼图游戏。

拼图游戏和光线追踪有点相似,拼图游戏要求玩家从大量近乎无规则的图块中找到需要的图块,目前的最大单一拼图世界记录是 2011 年越南胡志明经济大学由 1600 名学生完成的 55 万块碎片构成的拼图。

而在目前的 UE5 游戏中,场景中的三角形数量数以千万级,而 4K 屏幕的像素高达 800 万个,如果每个像素都跑一次三角形匹配显然是非常低效率的。
于是人们提出了名为加速体的数据结构,对于 GPU 来说,最适合的加速体目前被认为是 BVH,每个 BVH 框住一个对象(例如一把椅子、汽车等),光线追踪执行求交计算的时候找出当前射线命中了哪个 BVH,然后在那个 BVH 中继续三角形求交计算找出被射线命中的三角形。
这样的方式可以显著减少实际的求交计算、数据传输和片上内存开销,从而提高光线追踪性能。

在 DXR(DirectX Raytracing)中,BLAS(底层加速结构)和 TLAS(顶层加速结构)是两个关键概念,分别处理不同层次的几何数据。
BLAS(Bottom-Level Acceleration Structures):
包含场景中具体对象的几何数据,比如单个物体或模型。
负责加速单个对象内的光线追踪过程。
每个物体都有自己的 BLAS,这些 BLAS 可以多次复用而不用每帧重新构建。
TLAS(Top-Level Acceleration Structures):
组织场景中所有对象的 BLAS,形成一个整体的加速结构。
负责加速整个场景的光线追踪过程。
你可以这样理解,场景中每个具体对象的三角形和 BVH 数据放置在一个 BLAS 中,而 TLAS 则是这些 BLAS 的指路牌,透过这种机制,光线追踪内核可以尽可能快地计算出射线命中到哪个三角形。
画面变化一次,这些加速体的构建都需要重新进行。
更复杂的细节度(LOD)
按照 NVIDIA 的说法,目前有两个主要问题阻碍了光线追踪在像 Nanite 这样的系统中直接集成,这次由新 RTX API 扩展、高性能驱动程序以及 Blackwell RT Cores 特定优化组成的 Mega Geometry 可以解决这两个问题:
基于簇的高效 LOD 更新 对于现代实时渲染系统来说,如果对象离镜头更近或更远时,游戏引擎通常会调整对象的细节层次,也就是说渲染网格中的三角形数量会随时间变化。 许多传统方法会采用预计算的方式,也就是预先计算出不同细节都级别的网格。 像 Nanite 这样的系统通过逐步替换约 128 个三角形的小批次(称为簇)来更新 LOD。 构成最终渲染网格的簇的配置可以频繁变化,例如每一帧都会变化,从而实现平滑的 LOD 过渡而不会出现跳跃。 如果要对一个网格进行光线追踪,就必须构建一个单独的数据结构,称为包围体层次(BVH)。 Nanite 风格的几何系统每一帧都会在大量高多边形对象中触发大量 BVH 构建,足以让现有光线追踪技术超载,从而导致系统无法在实时应用(如游戏)中使用。 NVIDA Mega Geometry 提供了新的 BVH 构建方式,能将三角形簇作为第一级图元。

新的簇级加速结构(CLAS)可以由空间位置紧凑的三角形小 batch(批次,这里每个 batch 最多可以包含有 256 个三角形)生成,然后使用 CLAS 作为输入,构建最终的 BVH。这些 CLAS 可以按需生成,例如从磁盘加载模型、场景的时候生成,然后缓存起来供将来的画面使用。 由于每个 CLAS 可以对应大约 100 个三角形,后续 BVH 构建所需的处理量相比基于三角形的经典方法减少了两个数量级,不仅每帧画面里可以构建更多的 BVH,而且在细节层次(LOD)切换时,只需更新受影响的 BVH 就能实现 CLAS 的 LOD 切换。 为了进一步改进现有的光线追踪解决方案,所有 Mega Geometry API 都被设计成完全的批次化模式,其输入参数都来自 GPU 内存。这样的设计可以让游戏引擎在 GPU 上高效地进行细节层次选择(LOD selection)、动画、裁剪等逻辑,和 CPU 的往返次数降到最低。 通过利用 Mega Geometry API,程序几乎可以消除与 BVH 管理相关的 CPU 开销,这种的改进意味着游戏可以更高效地处理各种复杂任务,从而实现更流畅的运行,实现更高的性能。
大量对象处理 对于注重高几何体细节度的游戏引擎,可能会倾向于在场景中拥有更多的对象。

在没有 Mega Geometry 之前,程序渲染每帧画面的时候都必须为场景中的所有对象重新构建一个顶级加速结构(TLAS)。当对象数量在几千个以内时,这种方法效果良好,但随着游戏世界规模的扩大,性能开销会变得极其昂贵。 为了提高效率,NVIDIA 的 Mega Geometry 引入了一种名为 PTLAS 的顶层加速结构。 所谓 PTLAS 就是“分区式顶层加速结构”的英文首字母缩写,和每帧都重新构建一个新的 TLAS 不同的是,PTLAS 可以利用场景中大多数物体在连续帧之间是静态的这个事实。 现在游戏可以将物体聚合到不同的分区中,透过只更新发生变化的分区来管理一个持久的 PTLAS 对象。和传统 TLAS 方式相比,在 PTLAS 模式下分区更新越少,TLAS 构建的性能开销就越少。
Subdivision Surfaces
Mega Geometry 的主要目标之一是将光线追踪与现代游戏引擎的细节层次系统(LOD)相结合,但在其他应用场合也能发挥效用。
基于 GPU 执行的的簇和 BVH 构建可以为先进几何技术提供许多新可能性,其中一个例子是 Subdivision Surfaces。
Subdivision Surfaces 是一种几何表示方法,常用于电影和其他制作渲染工作流程中。人们一般使用类似 Catmull-Clark 这样的细分规则对四边形网格进行迭代细化,然后结合置换贴图得到平滑渲染的表面,实现高效建模和动画友好性。
对 Subdivision Surfaces 执行光线追踪的办法通常是先将其拆分为三角形来实现的。
随着动画或视角变化,每帧都需要新的细分操作,这会导致大量性能开销极高的 BVH 构建。
Mega Geometry 可以让应用程序将这个细分过程直接映射到簇生成,然后从生成的 CLAS 中极快地构建 BVH。
这种方法对于动画置换的 Subdivision Surfaces 的光线追踪解锁了前所未有的实时性能。

例如,游戏可以将游戏世界的静态区域放入各自的分区中,然后动态物体单独放在一个每帧都重建的“全局分区”中(见上图)。
在使用 PTLAS 后,由于分区更新减少了,更新 TLAS 的性能开销也会减少。
不过 Mega Geometry 并非一个插上即用的技术,它需要开发人员添加、修改源码,目前在 DXR 中是以 NVAPI 扩展的方式支持,Vulkan 里则是透过 NVIDIA 扩展实现,NVIDIA 自家的 OptiX 则提供了原生支持。
在硬件方面,包括图灵开始的所有 RTX GPU 都可以提供 Mega Geometry 支持,对开发商来说是一个不错的更新动力,要知道 RTX GPU 在独显领域的已经份额不下 70%,有足够的装机量让开发商增加这个特性。
目前所知,游戏《心灵杀手2(Alan Wake 2)》的媒体版就提供了 Mega Geometry 的支持,但是具体的正式版发布时间尚不清楚。
线性扫掠球体(Linear-Swept Spheres)
高级渲染器通常使用各种曲线图元来描述头发、皮毛、草和其他类似线状物体。
在光线追踪中,这些图元通常通过软件中的自定义交叉着色器实现。
不过射线与曲线的求交测试计算量很大,这限制了曲线图元在实时光线追踪渲染中的使用,离线渲染器的渲染时间也会因此增加。
目前有一种用于实时场景的替代方法,那就是使用相对粗糙的办法来表现头发,例如纹理化的卡片,但这会降低图像质量。

使用三角形为单个发束建模是一种效果更好但是性能成本高昂的办法。
例如使用不相交正交三角形条带 (DOTS),这时使用的三角形带形网格排列成类似网格的不相交模式,三角形条带彼此独立且不共享顶点。虽然比贴图模拟质量更高,但这种不相交模式会产生边缘伪影,因此渲染的时候会出现明显缺陷。
Blackwell 的 RT Core 引入了一种名为线性扫掠球体 (LSS) 的新图元硬件支持。

扫掠是一种建模中用到的概念,目前不少人翻译作扫描,这可能是不准确的,感兴趣的话可以在 Autodesk 官网的帮助网页中找到这方面的详细介绍。
所谓"线性扫掠球体"类似于镶嵌曲线,是通过在空间中以线性段扫掠球体的式来构建,每段的球体半径可能不同,能灵活地近似各种线状物体。
作为 LSS 的一种特殊情况,Blackwell 硬件基元还直接支持球体(没有扫掠线段),这对于粒子系统等应用很有用。
NVIDIA 表示,对于人类头发的渲染,使用 LSS 比使用 DOTS 快大约两倍,存储几何体所需要的显存也减少到 1/5。
着色器重排序(SER)2.0
NVIDIA 在 Ada 架构中引入了名为 SER 功能,可以在在复杂光线追踪特效时候动态调整着色器指令执行顺序,最大化 GPU 硬件利用率。

在 Blackwell 架构中,SER 升级到了 2.0 版,这次的主要变化是重排序逻辑效率提升了一倍,减少了重排序的开销和提升了重排序精度。
重排序精度的提升能让 SER 2.0 更好地提取着色指令的相干性,允许开发人员在最需要的地方执行重排序。
此外,SER 2.0 还增加了对 Tensor Core 的支持,能将神经工作负载线程理顺后直接发送给 Tensor Core,显著提升神经着色渲染过程。
SER 2.0 API 可以为编程模型中的光线追踪着色器调用引入更多的灵活性,透过重排序改进渲染器实现。
目前已经有部分使用路径追踪渲染的游戏以及一些生产级渲染器利用 SER。这些应用程序可以在不修改任何代码情况下直接受益于 Blackwell SER 2.0。
AI 管理器(AMP)
NVIDIA 在 Fermi 的时候引入了名为 Gigathread Engine 的图形、计算线程调度器,这个引擎的硬件实现其实是位于 GPU 内部的一个 Falcon CPU 内核,这个内核后来经过历代更新,现在架构已经是性能更快、名为 NV-RISC的 CPU 内核。
AMD 也有类似的调度器,在其 GPU 中的实现是名为 F32 的自研 CPU 内核架构。

在 Blackwell 里,NVIDIA 引入了名为 AI 管理器(AMP)的新调度器,专门用于把原本由 CPU 执行的 AI 任务调度交由 GPU 端完成。
例如,AMP 可以协调和调度异步 AI 模型的工作负载(比如 NVIDIA Avatar Cloud Engine 进行语音、翻译、视觉、动画和行为模型处理),并与其他图形工作负载一起运行。
AMP 和 Gigathread Engine 类似也是通过位于 GPU 前端的专用 RISC-V 处理器实现的,比传统的 CPU 方法提供更快的调度和更低的延迟。
Blackwell AMP 调度架构可以和 Windows 10(2020 年 5 月更新)中引入的 Windows 硬件加速 GPU 调度(HAGS)相匹配,HAGS 允许 GPU 更高效地管理内存,减少延迟并可能提高性能。
AMP 的目的是接管 CPU 对 GPU 任务的调度责任,减少对系统 CPU 的依赖,这通常是游戏性能的瓶颈。
由于减少了 GPU 和 CPU 之间的往返通信,使用 GPU 管理自身任务队列可以降低延迟,此时 CPU 的负担减少了,Windows 系统能实现更好的多任务处理,游戏运行也更流畅了。
对于大型语言模型 (LLMs),AMP 通过减少首次响应时间来实现这一目标;对于游戏,AMP 则优先处理与游戏引擎相关的任务,以防止卡顿。透过在更多可预测时间上的递交任务,AMP 能依据负载性质显著改善任务执行效果。
终于支持 4:2:2 视频以及 DP2.1 显示输出
现在短视频是主流创作方式,为了提供更高画质的素材,当年佳能 R5 引入了 4:2:2 HEVC 视频编码,一时间 PC 用户惊慌失措,人们发现即使是当时的最强 PC 也被搭载 Apple Silicon 的小小轻薄本干趴下,原因其实是当时只有苹果能胜任 HEVC 4:2:2 视频处理,直到后面 Intel Xe GPU 也提供了 4:2:2 硬件解码,PC 阵营才缓过来。

如今 4:2:2 HEVC 在多台无反相机上都支持,例如上图的索尼 A7M4 也提供了 120fps 10-bit 4:2:2 h.264 支持。
在这样的视频应用生态下,用户非常希望 NVIDIA、AMD 能提供相应的硬件支持,这样用户就无需绑定在 Intel 平台上,可以有更多的选择。
这次 Blackwell 终于遂愿了,提供了 h.264(AVC)、h.265(HEVC)4:2:2 色度取样格式视频的硬件编解码支持。
对于可能还不了解 4:2:2 色度取样是怎么一回事的读者来说,有必要在这里做一个简单的解释。
简单来说,4:2:2 是一种色度采样格式,用于视频压缩和传输。
要理解 4:2:2,我们先来了解一下色度采样的基本原理。
视频信号通常以 YUV 颜色格式存储,其中 Y 代表亮度(Luminance),U 和 V 分别代表色度(Chrominance)。色度采样通过减少色度信号的采样率来压缩视频数据,这是因为人眼对亮度变化比对色度变化更敏感。
4:2:2 色度采样的含义可以这样拆解:

第一个 4:代表水平方向上每 4 个像素采样 4 次亮度信息(Y)。
中间的 2:代表水平方向上每 4 个像素采样 2 次蓝色差(U)和红色差(V)色度信息。
最后的 2:代表垂直方向上每个像素行采样 2 次色度信息(U 和 V)。
简单来说,在 4:2:2 色度采样中,亮度信息的分辨率是全分辨率,而色度信息的分辨率在水平方向上是亮度的一半,在垂直方向上是全分辨率的一半。
相比 4:4:4 色度采样(每个像素都有完整的亮度和色度信息)来说,4:2:2 减少了色度信息的数量,进而减少了数据量,但仍然保留了较高的颜色准确性。因此,4:2:2 通常用于视频编辑、颜色校正等中前期需要高质量颜色或者文本细节度的场景。
NVIDIA Ada 以及更早之前的 GPU 其实都提供了 4:4:4 和 4:2:0 格式支持,但是 4:2:2 一直欠奉。
这次 Blackwell 集成了第六代 NVDEC 视频解码模块和第九代 NVENC 视频编码模块,实现了 4:2:2 h.264、h.264 硬件编解码支持。

按照 NVIDIA 的说法,Blackwell 的第九代视频编码器在 h.264 和 h.265 在同样码率下的画质较上一代提高了 5% BD-BR PSNR,新增了 AV1 Ultra HighQuality(UHQ)模式,允许用户接受额外编码时间代价的情况下实现 5% 的画质提升。Ada 架构的 RTX 40 虽然也将获得 UHQ 模式支持,但是画质要比 Blackwell 低。
GeForce RTX 5090 D 集成了三个编码器和两个解码器,均比 GeForce RTDX 4090 各增加了一个,编码性能可以达到只有一个编码器的 GeForce RTX 3090 的 4 倍。
Ada GPU 的另一个遗缺就是 DisplayPort 2.1,AMD 宣布 RDNA3 支持 DP2.1 的时候曾经绕不少人为 NVIDIA 抱憾,不过比较戏剧的是,RDNA3 虽然号称支持 DP 2.1,但是完整的 UHR20 支持却只能在工作站版版本里才能看到而且只有一个端口支持 DP 2.1 UHBR20(DP80),游戏卡的 DP2.1 是缩水(DisplayPort 2.1 UHBR13.5 或者说 DP54)的。至于 Intel Arc Alchemist 的 DP2.1 就更不用看了,只支持DP40,还不如 HDMI 2.1,着实有点离谱。
这次 NVIDIA Blackwell 终于提供了 DP 2.1b 的支持,例如 GeForce RTX 5090 D 提供了三个 DP2.1b 和 1 个 HDMI 2.1b 端口,而且这次 NVIDIA 和 VESA 合作,推出了DP80LL 主动式线缆标准,允许使用长达 3 米的 DP80LL 认证主动式信号线输出超高清画面信号,这个长度三倍于当前 DP80 被动线,实用性大为提高,当然,由于是主动式线缆,其价格肯定要贵一些。
GeForce RTX 5090 D 的 DP2.1b 支持是满血的,能提供最高 8K 165Hz 或者 4K 480Hz 的显示输出,我觉得这样的显示输出规格足以满足大部分人未来 10 年的需求了。
专门针对 Max-Q 技术优化
Max-Q 原本是指火箭发射最初数分钟所承受的最大动态压力,NVIDIA 取其含义将自家的笔记本性能优化技术命名为 Max-Q,该技术的目的是让笔记本能随时从怠速起步提供最强劲的性能。
Blackwell 架构在这方面主要仰仗 5 项技术来提升 Max-Q 能力:

它们分别是 DLSS 4、GDDR7 内存、加速频率切换、低时延睡眠、高级电路门控技术。
高级电源门控

Blackwell 的电源门控技术显著改善时钟树开关速度,不管是芯片中的闲置单元还是活跃区域,都能实现最大限度的电力节省,包括新的 GDDR7 内存子系统,也首次实现了电源门控。
Blackwell 的 GPU 和内存有独立的供电设计,这样的好处是可以更好的依据工作负载进行优化并提升性能。
在控制力度方面,Blackwell 允许以帧为粒度进行微调,对于电池供电模式下的游戏和生产创作表现有不少帮助。
更快更省电

Blackwell 的时钟结构获得了 10 多年来的最大改进,能根据动态工作负载快速调整,调整速度达到了以往架构的 1000 倍,这样的快速响应能力可以让 Blackwell GPU 在功率预算内实现 GPU 的完整性能并在短暂的闲置时间片里节省功耗。
低时延睡眠

Blackwell 能更快进入低功耗状态,进入打盹模式的速度是 Ada 架构的 10 倍,上图是 Ada 和 Blackwell 上运行小型语言模型(SLM)推理的真实示例,可以看到 Blackwell 从高性能到被电源、电压门控的低功耗直至进入最深度睡眠的过渡曲线,Blackwell 在这个过程进入最深度睡眠的速度是 Ada 的 10 倍,实现了 50% 的电力节省。
特性细说——DLSS 4 与 Reflex 2
在我看来,DLSS 是过去 10 年里对游戏体验提升最大的技术,最初是 NVIDIA 在图灵架构开始引入的超分辨率技术,之后拓展为帧生成以及光线追踪射线重构,在性能、画面等多个维度提升玩家体验。
DLSS 是基于人工智能实现的,NVIDIA 在 6 年前就专门安排了一台超级 AI 计算日以继夜进行训练,用低分辨率的当前帧和高分辨率的前一帧画面逐像素重建高分辨率当前帧,NVIDIA 训练了一个 AI 模型来预测出一张 16K 超高分辨率参考图,预测图和参考图之间的差异被用于寻关联神经网络,这个过程重复成千上万次,直到神经网络可以预测出高质量画面。
NVIDIA 这次为 Blackwell 配备了最新的 DLSS 4 技术,不仅超分辨率、光线重建、DLAA 都全面改用 Transformer 模型参数,而且还引入了更强的帧生成(MFG)技术,进一步提升实时渲染体验。

DLSS4 多帧生成(DLSS MFG)与 Reflex 2
在 Ada 架构推出的时候(2022 年),NVIDIA 发布了 DLSS 3 技术,引入了帧生成能力,透过 NVOFA 硬件光流加速器结合游戏运动向量,实现每帧画面生成一张高质量画面,提供更平滑的实时渲染画面。
到了 Blackwell 这一代,NVIDIA 对帧生成进一步升级,借助神经渲染能力和第五代 Tensor Core,实现了 DLSS 多帧生成(MFG),能为每张传统渲染帧生成三张额外的画面,实现更加平滑的画面过渡。

按照 NVIDIA 的介绍,DLSS 4 MFG 不再依赖 NVOFA,而是全面拥抱新的 Transformer AI 模型,光流计算交给 AI 实现,帧生成速度比 DLSS 3 FG 快 40%,显存开销减少 30%,每实际渲染一帧就能生成多帧画面,根据一些专访的 NVIDIA 官方说法,MFG 的上限至少是 16 帧,但是目前 NVIDIA 根据实际情况,认为提供 3 个生成帧是最合适的。
帧生成后,会以匀速节奏递交输出,在 DLSS 3 帧生成的时候是使用 CPU 来做节奏控制,着呢个节奏控制可能会因为附加的帧数变得不一致,导致每帧之间的节奏不太平滑,影响流畅性。
为了应对生成多帧的复杂性,Blackwell 使用了增强的 Flip Metering,将帧节奏逻辑转移到显示引擎,从而使 GPU 能够更精确地管理显示时序。
Blackwell 显示引擎的像素处理能力增强了两倍,以支持更高的分辨率和刷新率,以硬件 Flip Metering 与 DLSS 4 配合使用。
Blackwell 的第五代 Tensor Core 具备更强的性能,加上能改善 AI 任务调度的 AMP,可以让 Blackwell 执行 DLSS 4 的时候更加游刃有余。

帧生成会比传统帧增加一些时延,在 DLSS 3 时代,NVIDIA 主要靠 Reflex 技术减少渲染流水线的渲染队列来降低时延,此外还有名为 Boost(增强)的模式可以禁止省电功能从而再略微降低时延。

这次 NVIDIA 为在 Blackwell 引入 Reflex 2 技术,能够透过原本在 VR 头盔上应用的 Frame Warp 低时延技术,CPU 依据玩家当前的鼠标输入数据即时计算当前镜头的位置并发送到 GPU,GPU 根据当前镜头位置信息并结合色彩缓存、深度缓存信息,以局部重绘的办法渲染(填补)出当前镜头对应的完整画面,从而显著减少输出画面和玩家鼠标输入的时延差别。

上图左侧画面的闪烁白点是 Frame Warp 时未填补的部分,右侧则是完成经过局部重绘后的完整 Reflex 2 画面。
按照 NVIDIA 的说法,采用 Reflex 2 后,PCLatency(鼠标输入到 GPU 发送对应画面的时间片)可以从 56 毫秒显著缩减到 14 毫秒,降低幅度达到惊人的 75%。
在 1月 15 日 NVIDIA 在深圳举办的编辑技术日上,我曾经向 NVIDIA 技术经理提问,在 DLSS 4 帧生成的时候,Reflex 2 Frame Warp 操作是否能作用在帧生成的画面上,得到的答复是肯定的。
不过 Reflex 2 涉及到渲染流水线的变动,需要在源码进行修改,目前只有两个游戏是支持 Reflex 2,期待稍后能有更多的游戏支持 Reflex 2,因为 DLSS 4 MFG + Reflex 2 才是正确的帧生成实现。
DLSS 4 超分辨率技术细说
从 DLSS 2 开始开始采用名为卷积神经网络(CNN)的技术,该技术在深度学习中非常普遍,在 DLSS 2 中 CNN 透过在局部聚合像素并以树状结构从低级别到高级别分析数据,从计算角度来看这种结构的效率很高。
DLSS 4则改为基于 Transformer 的 AI 模型,用于 DLSS 超分辨率、DLSS 光线重建和深度学习抗锯齿(DLAA),用来改善图像质量和渲染流畅度。
按照 NVIDIA 的说法,Transformer 架构神经网络在处理顺序和结构化数据的任务中表现出色,Transformer 本身的理念是认为计算资源的花费和分析由数据本身驱动,神经网络应该学会如何引导注意力,查看数据的时候只关注其中最有意义的部分从而做出决策。
与 CNN 模型相比,采用自注意力机制的 transformers可以更轻松地识别更大像素窗口中的较长范围模式。transformers 也更有效地扩展,使得用于 DLSS 4 的模型可以处理 2 倍的参数,利用上更多的 Tensor Core 处理能力,以更高的图像质量重建图像,其结果是从一个帧到下一个帧的稳定性提高,光照细节增强,运动部分有更多细节。
DLSS 超分辨率(DLSS SR)
超分辨率或者所 SR 主要通过使用 AI 从低分辨率输入、输出高分辨率帧来提高性能。
DLSS 采样多个低分辨率图像,并使用运动数据和前一帧的反馈来构建高质量图像。

和以前的 DLSS 版本相比,基于 transformer 模型的最终输出在时间稳定性方面更好,鬼影更少,运动中的图像细节更多,并且抗锯齿或者说抗混淆表现更出色。
DLSS 光线重建(DLSS RR)
DLSS RR 通过使用 AI 为密集的光线追踪场景生成额外像素来提高图像质量。
DLSS RR 采用了 NVIDIA 超级计算机训练的 AI 网络取代了手工调校的降噪器,在采样光线之间生成更高质量的像素。

在密集光线追踪应用中,DLSS RR 的 transformer 模型在质量上有更大的提升,特别是对于具有挑战性的光线场景。实际上,典型降噪器的所有常见伪影都显著减少。
深度学习抗锯齿(DLAA)
DLAA 也是基于 AI 的抗锯齿技术,使用了和 DLSS SR 相同的超分辨率技术,在本机分辨率下构建更现实、高质量的图像,输出更高、运动细节以及边缘更平滑的画面。
特性细说——神经着色器
NVIDIA 将神经着色器视作未来的重要方向,并将其视作固定功能流水线->顶点着色器->片元着色器(像素着色器)->统一着色器架构->几何着色器->棋格镶嵌与计算着色器->图元/网格着色器->RTX 一脉相承的未来技术。
为什么神经着色器会被寄予如此高的厚望?
按照 NVIDIA 的介绍,随着 Blackwell 的发布,我们将迎来了开发人员创建的神经着色器的时代,其中一些技术也能在前几代 GPU 上运行。
和编写复杂的着色器代码来描述这些功能不同,在神经着色器下,开发人员可以训练 AI 模型以近似着色器代码将计算的结果。
神经着色器将成为游戏中的主要着色器形式,未来所有游戏都将使用 AI 技术进行渲染。
在此之前,NVIDIA 已经透过自家的 CUDA 来使用 Tensor Core 进行 DLSS 神经着色。随着 DX12 和 Vulkan 新增的 Cooperative Vectors,Tensor Core 也可以在任何类型着色器(包括像素和光线追踪)图形应用程序中被访问,实现各种神经技术。

NVIDIA 与微软合作创建了新的 Cooperative Vectors API,透过Slang 着色器语言中的可微分着色语言功能,Cooperative Vectors 允许游戏开发人员在其游戏中使用神经技术。例如神经纹理压缩,这其压缩格式提供了高达 7:1 的 VRAM 压缩率,此外还有 RTX 神经材料、神经辐射缓存、RTX 皮肤和 RTX 神经脸部渲染等。
神经着色器允许开发人员训练神经网络,学习复杂算法的高效近似计算,这些算法计算光与表面的相互作用,有效地解压存储在显存中的超压缩纹理,基于有限的真实数据预测间接光照,并近似次表面光散射,具有强大的应用前景和潜力。

对于高预算的 CGI 电影可能会用到一些非常复杂、包含有多个光学层组成的物料,对这些物料执行光线追踪需要消耗大量的算力,而神经着色器可以以近似的方式替代材料的原始数学模型,获得更好的材料呈现效果,例如上图右侧里的蓝色布料,上面就有一些需要光线追踪才能获得衍射效果,此外我们还可以看到还有灯座宝石上逼真的光效。
写实渲染所需要的纹理数据也在不断增加,对存储和内存的压力、带宽与日俱增,上图演示中还应用了 RTX 神经纹理压缩(NTC),原本这些物料需要 1.11 G 字节内存,透过神经物料的应用,实际只使用了 0.333 G内存,仅有原来传统渲染所需要的 1/3。
Blackwell 的点采样纹理过滤性能较上一代提升了一倍,因此上图渲染时候使用的随即纹理过滤(STF)也能从 Blackwell 的纹理单元设计上获益。

神经辐射缓存(NRC)也利用了神经着色器,暂存了近似肤色信息,这些缓存数据可以在实时渲染中创建高质量的全局照面和动态照明效果。它的原理是将一次反弹后的路径追踪射线作为输入,推断出多次反射后的追踪光照值。
NRC 在实时游戏数据上训练微小的神经网络,估算间接光照信号,因此虽然有初始光线或者说 Primary Ray 被发射,但是并没有执行完整的实际追踪操作;路径追踪器在一次反弹后就直接将光线路径发送到缓存,然后模拟出射线跑完多次反弹时的场景会是如何呈现。
由于可以在有限的光线追踪预算上推断出多次反射,NRC 不仅节省了完整路径跟踪所需要的额外求交计算,而且还可以提升间接照明的质量。
在其他具复杂场景中 NRC 也可以提供出色的图像质量,因为它可以在你边跑游戏边训练微小模型,在任何游戏中识别多种场景,可以在不同游戏场景中调整自身参数,提供准确的间接光照特性。

在人物肌肤渲染方面,NVIDIA 引入了名为 RTX SKIN 的神经着色器,它借用了电影渲染技术中被称作次表面散射的技术,加入了实时路径追踪元素。

上图时游戏中第一次使用光线追踪跑的次表面示例,可以依据游戏美工的需求进行微调或者大幅度更改。
NVIDIA 提供的另一个神经着色器应用技术就是 RTX 神经脸部。
对于普通人来说,从小就自觉或者不自觉地学会识别不同的人脸,任何脸部一样我们都能很快识别,例如科技脸和正常脸,我们往往都能很轻松地辨别出来。因此,电脑要想绘制一张逼真的人脸是比较困难的,现在的电影虽然解决了这个问题,但是渲染令人信服的写实图像所需要时间比实时游戏允许的时间多几个数量级。

RTX 神经脸部采用了和蛮力渲染不同的方式,它能够使用简单的光栅化面部和三维姿态数据作为输入,使用实时生成式 AI 模型推断出更自然地面部画面。
生成面部的模型是从数千张理想生成的图像数量出来的,涵盖了各个角度、不同光照、情绪、遮挡条件,其训练流水线可以使用真实照片或者 AI 生成的图像,然后透过扩散模型创建变体。寻关联好的模型会被 TensorRT 优化,达到实时推断面部的能力。
七彩虹 iGame GeForce RTX 5090 D Advanced
感谢七彩虹的支持,可以让我第一时间借到该公司的 iGame GeForce RTX 5090 D Advanced 32GB 显卡,完成这篇测试。

作为 NVIDIA 的重要合作伙伴,七彩虹目前有多款 GeForce RTX 5090 D,iGame GeForce 5090 D Advanced 可以视作其中的标准版本,七彩虹另有一款配置完全一样的 OC 版,加速模式标称频率从标准版的 2407 MHz 放宽到了 2512 MHz。
GeForce RTX 5090 D 不会有 FE 版,大家看到的都是 AIC 自行设计的版本,七彩虹 iGame GeForce 5090 D Advanced 的长度为 355 毫米,三槽设计,实测重量达到 2.62 千克左右,为了确保如此重的卡能正确固定,在包装里有一个专配的显卡支架:


接下来让我们继续欣赏显卡本体:





iGame GeForce 5090 D Advanced 采用了旗舰级 Vulcan 的同款散热,采用了三个大口径双滚珠风镰风扇(101cm*2+107cm*1),散热器右侧采用穿透设计,有助显卡热量循机箱风道排走。


ADVANCED采用了真空冰片技术,通过超扁平的密闭腔体内充冷凝液,利用相变原理高效散发热量。
当冷凝液吸收热量后便会蒸发沿着腔体内的微结构迅速传导至冷端,通过毛细作用回流至热源处,形成高效的热循环。

真空冰片散热器主体采用了全新设计,带有红色金属边框涂装彰显 iGame 动力。散热器包含有 7*8+2*6mm 热管的豪华配置,可以有效提升散热效率,热管和鳍片采用了“回流焊”工艺使热管与鳍片严丝合缝,有助优化散热效能,实现优异散热效果。

金属中框骨架采用全铝打造,极为坚固,全方位保护显卡。

七彩虹 iGame GeForce 5090 D Advanced 继承了Advanced 系列的经典红圈设计,双 RGB 灯组配合全新的磨砂黑透外甲可以展现震撼的灯光效果,条件允许的话建议大家采用竖装方式。

iGame GeForce RTX 5090 D Advanced 的黑透外甲延伸到了显卡散热器内侧,展现星型 RGB 的灯效。
测试平台与 1% Low 的说明



测试 CPU 采用 Intel i9-13900K,我们这次测试的分辨率高达 3840x2160,13900K 的性能基本不会构成瓶颈;
特别感谢金邦科技提供的巨蟹座 DDR5-6400 CL36 32GB2内存,我们的一些测试项目需要 64GB 内存才能保证流畅完成,在我们紧张繁重严酷的测试中,这对内存表现出了极好的稳定性,值得信赖。
操作系统为 Windows 11 24H2 简体中文专业工作站版,已经关闭了实时病毒监控、启用卓越性能电源管理模式、启用了 GPU 硬件调度。
由于这次测试涉及到 DLSS 4 多帧生成,在这个模式下,传统的 1% Low 帧率数据采集结果是存在问题。

传统的 1% Low 数据是在 MsBetweenPresents 的时候采集,无法精确反映卡顿状况,因为画面在递交到显示器之前,渲染流水线上仍然有多个步骤需要执行,这些步骤可能引发的延迟。
而 Frameview 则可以在 MsBetweenDisplayChange处采集数据,得到能最精确反映画面流畅度的 1% Low 指标。
NVIDIA Frameview 将旧式的 1% Low 称作 1% Low Present,而 MsBetweenDisplayChange 的 1% Low 则替代前者成为现在新的 1% Low。
在 DLSS MFG 的时候新旧 1% Low 的帧率曲线差别尤为明显:

我们这里的数据也采用了新的1% Low 数据,因为这个数据的确如 NVIDIA 所说的,能更加准确反映 DLSS MFG 时的速度表现,能更好地反映玩家的实际体验。
底层测试——Cache/内存带宽

从测试结果来看,Blackwell 的 L1 Cache 内存带宽要比 Ada 低一些,其中的原因之一可能是因为 GeForce RTX 4090 的频率规格高 120MHz。
Blackwell 的带宽曲线第一个台阶到了 256 KiB 才发生明显转折,第二次转折发生在 96MiB 附近,这符合 GeForce RTX 5090 D 96 MiB L2 Cache 的特征。
Blackwell 的 L2 Cache 带宽全程高于 Ada,提升幅度达到了 46% 的水平,有理由认为 Blackwell 的 L2 Cache 等效总线宽度也拓展了。
到了访存阶段,Blackwell 或者说 GeForce RTX 5090 D表现出了 1.72 TB/s 的实测带宽,是 Ada 或者说 GeForce RTX 4090 的 1.8 倍,基本符合两者的理论带宽差别。
底层测试——Cache/内存时延

在时延方面,GeForce RTX 5090 D 的 L1 D-Cache 和 GeForce RTX 4090 表现一样,在 L2 Cache 方面 GeForce RTX 4090 的时延要低大约 12.5%。
GDDR7 28 GT/s 的时延要比 GDDRX 1 GT/s 高大约 18%,对于 GPU 来说这个时延差别可以接受。
底层测试——通用算力测试








浮点 FMA、ADD、SUB、MUL、DIV 指令方面,GeForce RTX 5090 D 提升幅度都是 40% 左右,提升幅度大于两者 27% 理论值差别;
FP64 DIV 指令提升幅度为 153%;
INT8 SUB、MUL 指令吞吐提升幅度为 22%。
INT8 除法指令指令吞吐持平这意味 Blackwell 的该指令单位吞吐实际上是下降了 27% 左右。
INT64 整数除法指令提升了 836%,这方面应该是有重大变化,达到了 INT32 的 1/4 水平。
FP64 求余指令吞吐只有 RTX 4090 的 21%,也许是因为 NVIDIA 认为 fp64 的时候并不怎么需要求余的操作。
底层测试——Tensor Core 矩阵算力测试
需要等待 Linux 版驱动出来才能完成本测试,请大家期待。
底层测试——光线追踪求交性能
由于 Blackwell 采用了新的电源管理措施,导致 GPU 无法运行于高频状态(即使使用了 -lgc 锁定频率,也依然运行于低频状态,此时 GPU-Z 查看是高频,但是 RTSS 看到的是低频),使用 SetStablePowerState 会报错,因此这个项目的测试结果暂时搁置。
底层测试——PCIE 带宽/DirectStorage 性能测试
基准测试——3DMark Speedway
基准测试——3DMark Port Royal
游戏实测——《赛博朋克(Cyberpunk 2077)》
DLSS Performance


DLSS Quality


DLAA


汇表

我们使用的是 Cyberpunk 2077 媒体预览版进行测试,这个版本提供了 DLSS 4 的支持,用户可以自行选择 CNN 还是 Transformer 模型,在 Blackwell GPU 上则可以启用 X3、X4 的 DLSS MFG 帧生成模式。
从测试结果来看,在 DLAA FG4 的时候,GeForce RTX 5090 D 达到了 124fps 的帧率,是启用 DLSS 4 帧生成之前 32 fps 的 4 倍。
坊间一直说 DLSS 4 4 倍帧生成有极高的时延导致画面不跟手,我现在可以很有信心地说,实际情况远比大家想象好的多。
DLAA FG4 时的 PCLatency 是 71ms,我在游戏中实际体验了,这个时延是完全可以接受的,DLSS 4 帧生成带来的画面流畅感极大地改善了操作流畅性,在 DLSS 四倍帧生成加持下,Cyberpunk 2077 第一次可以在路径跟踪 4K DLAA 设置下提供了极高的可玩性,帧生成成了,大家之前对它的怀疑不攻自破。
DLAA FG4 如此流畅顺滑,DLSS Quality、DLSS Performance 更是不再话下,不满足于 DLAA 性能的,可以调成 DLSS Quality、DLSS Performance,可以获得更舒适的性能体验而且画质不会有多少降低。
游戏实测——《心灵杀手2(Alan Wake 2)》
DLSS Performance


DLSS Quality


DLAA


汇表

这里测试的是 Alan Wake 2 的媒体预览版,和正式版相比增加了 DLSS 4 的支持,并且按照 NVIDIA 的说法,这个媒体预览版已经启用了 Mega Geometry,不过我找不到相应的选项设置。
从测试结果来看,启用 DLAA + FG4 后,GeForce RTX 5090 D 的帧率达到了 169fps,远高于启用前的 49 fps,并且系统时延 PCLatency 也不过是 74ms,依然具备很高的可玩性,非常适合追求最佳画面体验玩家启用。
DLSS Perf FG4 下 GeForce RTX 5090 D 的平均帧率达到了之前难以想象的 329 FPS,反映流畅性的指标 1% Low FPS 也达到了 226fps,而此时的系统时延只是从启用 FG 之前的 35ms 些微增加到 39ms,表现非常理想,动态画面极为舒适。
游戏实测——《星球大战:法外狂徒(StarWars:Out of Laws)》
DLSS Performance


DLSS Quality


DLAA


汇表

在《星球大战:法外狂徒(Star Wars Out of Laws)》中,GeForce RTX 5090 D 在 DLSS Perf FG4 下的平均帧率达到了 258 fps,1% Low 平均帧率为 189 fps,而系统时延只有 35ms,游戏极为流畅,画面响应非常迅捷。
游戏实测——《黑神话:悟空(Black Myth Wukong)》
DLSS Performance FG2

DLSS Performance

DLSS Quality

DLAA

汇表

如同之前我测试的样子,《黑神话:悟空》的 PCLatency 数据在启用了帧生成后会比启用前更短,GeForce RTX 5090 D 在 DLSS Perf FG2 模式下的 PCLatency 为 39ms,是 DLSS Perf 时的 78% 或者说快 22%,帧率方面则是达到 133 fps,比启用帧生成之前快了 64%,比上一代 GeForce RTX 4090 快 32%。
在目前的版本下,GeForce RTX 5090 D 跑 DLAA 还是有些吃力,但是目前已经确定《黑神话悟空》会在稍后更新对 DLSS 4 支持,包括 4 倍帧生成也会到来,非常值得期待。
更多最高画质设置下的游戏实测
荒野大镖客 2

战锤 40000:暗潮(Warhammer 40000:Darktide)

使命召唤:黑色行动 6(COD Black Ops6)

备注:游戏支持 DLSS,但是 GeForce RTX 5090 D 未能在游戏中获得 DLSS 支持。Frameview 无法在 FSR 插帧的时候采集 PCLatency。
极限竞速(Forza Motorsports)

F1 24

备注,F1 24 支持 DLSS,但是对 GeForce RTX 5090 D 未能提供 DLSS 支持我们这里选择启用 FSR。Framevew 在游戏中能采集到 RTX 4090 的 PCLatency,但是 RTX 5090 D 却不行
夺宝奇兵:古老之圈

备注:Frameview 无法采集到 PCLatecny 数据。
地狱之刃2:塞娜的传说

地铁:离去增强版

备注:使用游戏提供的基准测试工具测试,采集的是各运行三轮的 99th 均值数据。
《瘟疫传说:安魂曲(A Plague Tale: Requiem)》

如果不涉及 DLSS 4 MFG 的话,GeForce RTX 5090 D 的游戏性能平均大约是 GeForce RTX 4090 的 1.2 到 1.3 倍左右,符合两者理论性能的差别,对游戏玩家的好消息是 GeForce RTX 5090 D 并未在游戏性能上削减。
Procyon Flux.1 Dev FP8/FP4 文生图
Procyon 是 UL 的 AI 测试套件,NVIDIA 这次提供了支持 Flux.1 Dev FP8 和 Flux.1 Dev FP4 的媒体测试版,用到的 Flux.1 Dev 模型是透过 TensorRT 优化过的引擎调用执行的,与大家现在 ComfyUI 直接使用模型的情况是有差别的。
软的测试流程和大家使用 ComfyUI 跑 Flux.1 Dev 文生图没啥区别,输出的是四张分辨率为 1024x1024 的 png 写实风格图片。
ComfyUI 目前还不能正式支持 Blackwell,原因估计是集成的 Pytorch 所对应的 CUDA 版本对新架构的支持还未就绪。





原始数据是每张图多少秒,表格中的数据是经过转换为每分钟出图数量的结果。
在 FP8 模式下,GeForce RTX 5090 D 的性能是 GeForce RTX 4090 的 1.6 倍,在 FP4 的时候,GeForce RTX 5090 D 是 GeForce RTX 4090 的 4.4 倍。

上图是软件用 FP4 和 FP8输出的图片,可以看到 FP4 的输出效果也是比较出色的。
Deepseek R1 32B/14B/7B 推断性能测试
Deepseek 被认为是这个月里最受全球关注的国产开源 LLM,是由中国杭州深度求索人工智能基础技术研究有限公司开发的,作为开源 LLM Deepseek 在多个场景中都可以和闭源的 OpenAI 最新版 LLM 打得有来有回,而且训练、服务使用成本要低不少。
我在这里测的是 Deepseek-R1 32B、14B、7B,这几个其实是基于 Qwen2 蒸馏出来的紧凑版模型,采用了 Q4_K_M量化,参数更大的 70B 是 llama,670B 版才是基于 Deepseek2,这几个模型都是开源的、不限商用、无需额外申请授权。

按照 Deepseek 官方公布的资料,Deepseek-R1 32B、70B 已经在一定程度上可以和 OpenAI o1-mini 相媲美,不过 70B 太大了,5090 D 32 GB 单卡吃不下,所以这次最大只能跑到 32B。
测试的工具为 ollama,这是一个零配置的 LLM 工具,开箱即用,速度可能比 vLLM 略低一点,但是好处是便于大家对比参考。

单位:TPS: Tokens per second。
从测试结果看,GeForce RTX 5090 D 在 32B、14B、7B 的测试中分别比 GeForce RTX 4090 快大约 52%、42%、36%,性能提升非常明显,考虑单机耍 AI 的一定要来看看 GeForce RTX 5090 D 了。

我还使用 LLAMA 3 8B 和 Qwen 2.5 7B 进行了测试,测试结果如上,GeForce RTX 5090 D 分别比 GeForce RTX 4090 快 42% 和 39%。
视频编解码性能测试

Davinci 本身并不直接支持 4:2:2 输出,所以这里安装了 Voukoder Pro 2.06 版插件,该插件可以调用 ffmpeg 编解码器包为 GeForce RTX 4090 提供 4:2:2 输出。
由于具备 4:2:2 硬件编解码,编码器、解码器数量比 GeForce RTX 4090 多 50%,GeForce RTX 5090 D 实现了非常出色的导出性能,HEVC 实现了 227 fps,AVC 实现了 146 fps,远远高于软件编码输出方式。


和 CPU 软件编解码相比,GeForce RTX 5090D 系统功耗大为降低,CPU+GPU 功耗从最高 344 瓦降低到 228 瓦。
在噪音方面,软件编解码的时候所有机箱、水冷风扇都全速运转,噪音极大,而硬件编解码的时候,非常安静,完全无法从系统噪音觉察出系统在执行导出操作。
从测试结果来看,在专业视频工作流领域,GeForce RTX 50 的速度、能耗比和工作环境都要远远优于 GeForce RTX 40 系。
MLPerf for Client
MLPerf 是一套广泛使用的基准测试套件,用于衡量机器学习系统的性能。该基准测试套件由 MLCommons 组织管理,这是一个非盈利组织,致力于推动机器学习技术的发展,并为社区提供开源基准测试和参考实现。
MLPerf 客户端是 MLPerf 面向客户机的测试套件之一,适用于针对 Windows 和 macOS 等客户端操作系统,专注于 AI 聊天机器人、图像分类等机器学习推理场景中的客户端形式因素。
该基准测试评估不同硬件和软件配置的性能,官方版本是命令行界面。

从测试结果来看,GeForce RTX 5090 D 的首词条抵达耗时大约是 GeForce RTX 4090 的 78%,生成词令的吞吐是 GeForce RTX 4090 的 1.4 倍左右。
专业渲染器——Blender 与 V-Ray

V-Ray 和 Blender 都是专业级的离线渲染器,它们都提供了基准测试工具方便社区、厂商参考选择配置。
从测试结果看,在离线渲染方面 GeForce RTX 5090 D 的直观性能提升了 28% 到42%,不过这只是表面数据,由于 GeForce RTX 5090 D 拥有 32 GB 显存以及一些诸如神经渲染等特性,在工作站应用方面的潜力非常值得期待。
测试总结

让我们用问答形式来做总结吧。
GeFore RTX 5090 D 的游戏性能如何?
根据我的测试结果来看,GeForce RTX 5090 D 虽然名义是中国特供版,但是它的游戏性能比原 GeForce RTX 4090 快大约 30%,和满血版的差别其实别无二致。
如果是涉及到 DLSS MFG 的话,GeForce RTX 5090 D 性能领先至少提升两倍,而且这种提升不是数字游戏,而是玩家能真切体会到游戏体验面向改善的。
GeForce RTX 5090 D 的 AI 性能是否不如 GeForce RTX 4090?
如果你是单机 AI 重度用户,例如跑 Flux.1 Dev、Stable Diffusion 等,那么 GeForce RTX 5090 D 将是你当下的最佳选择没有之一,它有更大的板载显存,实际推理性能和 GeForce RTX 5090 原版完全一样,这是完全出乎意料的,对生产力用户来说真的是买到就是赚到。
DLSS 4 MFG 多帧生成就是个花架子,时延大到离谱吧。
我可以很肯定地说,如果你实际体验过 DLSS 4 MFG 的话,一定会有不一样的看法。
就拿 DLAA 来说,我在 Cyberpunk 2077 里启用路径跟踪、光线重建等所有特效拉满,然后用鼠标快速绕起来,4K DLAA 不开帧生成的画面是一卡一卡的,启用了 DLSS 4 MFG 后画面流畅度非常舒适,而且以我的感知来说,感觉不到什么画面不跟手的问题,具有很高的可玩性,这不是看 benchmark 就能看出来的。
Reflex 2 也是值得关注的技术,它可以和 DLSS 4 MFG 一起工作,即使是帧生成的帧也能获得用户当前鼠标输入获得的镜头位置,基本上彻底消除了不跟手的问题。不过目前的 Reflex 2 frame Warp 的局部重绘还不是 AI 完成的,可能会有一点模糊之类的问题,但是高帧率下,这些可能都不是问题,天下武功唯快不破。
GeForce RTX 50 系对视频创作用户来说意味着什么?
GeForce RTX 50 系增加了 50% 的编解码单元,新增了对 4:2:2 色度取样的 HEVC(h.265)、AVC(h.264)支持,编解码速度、能耗比、系统噪音都是数量级的改善,当然,我不是说你非买 GeForce RTX 5090 D 不可,因为视频创作用户其实用 16GB 显存可能就差不多了,所以我比较推荐接下来的 GeForce RTX 5070 Ti,跑 4:2:2 色度 HEVC、AVC 视频的时候绝对要比现在的 GeForce RTX 40 系好用。
GeForce RTX 5090 D 有什么不足地方?
当然有,首先是功耗相对较大,需要相对标准尺寸的机箱和 1000W 级别的电源,另外就是软件部分就绪方面,例如 4:2:2 视频目前还没提供 DXVA 支持,不过 DXVA 属于面向消费端的,和 4:2:2 面向生产力的环境是不同的,所以这方面不是很迫切。
GeForce RTX 5090 D 适合我吗?
首先,如果是发烧级游戏玩家,我认为 GeForce RTX 5090 D 就是当下最好的选择,你能体会到极致画质设置下 DLSS 4 MFG 带来流畅体验,价格方面其实和现在炒起来的二手 GeForce RTX 4090 非 D 版差不多,所以还是比较合理的。
如果是 AI 生产力用户,GeForce RTX 5090 D 同样是当下最好的选择,没有之一,实际 AI 性能没有削减多少,有 32 GB 显存轻松跑 Flux.1 DEV FP8,未来的 FP4 也是很值得期待。
对于游戏开发团队,我也建议入手,NVIDIA 描绘的神经渲染前景非常吸引,而且很可能是未来重要方向。
对于普通用户或者说预算有限的玩家,我建议可以等一下,GeForce RTX 50 系产品需要更多的时间发布就绪。
七彩虹 GeForce RTX 5090 D Advanced 如何?

满载温度表现

七彩虹 iGame Center 已经第一时间支持 GeForce RTX 5090 D

除了超频还可以自定义灯效
GeForce RTX 5090 D 属于中国特供版,大家买到的都是非公版,我目前测试过的 GeForce RTX 5090 D 只有这块,感觉很稳定,跑了上百小时测试没遇到任何稳定性问题,七彩虹提供的支撑架也是比较考虑周全的配件,不管是跑什么游戏还是视频应用、AI 应用,风扇噪声都控制得很好,我觉得值得向大家推荐。
今年是 AI 生产力走向成熟的一年,也是游戏大作爆发的一年,大家准备好了吗?
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~

hifier
校验提示文案
傻的冒泡泡
校验提示文案
值友7560631112
校验提示文案
值友7560631112
校验提示文案
傻的冒泡泡
校验提示文案
hifier
校验提示文案