老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

2024-03-19 21:00:13 30点赞 50收藏 165评论

时隔5年,全球顶尖AI计算技术盛会、年度NVIDIA GTC大会重磅回归线下,英伟达创始人兼CEO黄仁勋发表长达123分钟的主题演讲,发布AI芯片最新震圈之作——Blackwell GPU架构,以及基于此的B100/B200 GPU芯片、GB200超级芯片、DGX超级计算机,傲视全球。

老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

号称是“世界最强大的芯片”:集成2080亿颗晶体管,采用定制台积电4NP工艺,承袭“拼装芯片”的思路,采用统一内存架构+双芯配置,将2个受光刻模板(reticle)限制的GPU die通过10TB/s芯片间NVHyperfuse接口连一个统一GPU,共有192GB HBM3e内存8TB/s显存带宽,单卡AI训练算力可达20PFLOPS

跟上一代Hopper相比,Blackwell因为集成了两个die,面积变大,比Hopper GPU足足多了1280亿个晶体管。对比之下,前代H100只有80GB HBM3内存、3.35TB/s带宽,H200有141GB HBM3e内存、4.8TB/s带宽。

老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

第二代Transformer引擎:将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合,使Blackwell具备在FP4精度的AI推理能力,可支持2倍的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度。 ‍‍

在全新FP4精度下,Blackwell GPU的AI性能达到Hopper的5倍。英伟达并未透露其CUDA核心的性能,有关架构的更多细节还有待揭晓。

老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

第五代NVLink:为了加速万亿参数和混合专家模型的性能,新一代NVLink为每个GPU提供1.8TB/s双向带宽,支持多达576个GPU间的无缝高速通信,适用于复杂大语言模型。

单颗NVLink Switch芯片有500亿颗晶体管,采用台积电4NP工艺,以1.8TB/s连接4个NVLink。

老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

RAS引擎:Blackwell GPU包括一个确保可靠性、可用性、可维护性的专用引擎,还增加了芯片级功能,可利用基于AI的预防性维护来进行诊断和预测可靠性问题,最大限度延长系统的正常运行时间,提高大规模AI部署的弹性,一次可不间断地运行数周甚至数月,并降低运营成本。

至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。英伟达宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。

老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。

在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用风冷,更推荐使用液冷。

老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

基于GB200超级芯片,英伟达打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。

这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。

DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。

第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。

老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

英伟达还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。

DGX B200系统还集成八个英伟达ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum-X以太网网络平台,扩展支持更高的AI性能。

老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机

基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。


展开 收起

intel 英特尔 酷睿i5-12600KF CPU 4.9Ghz 10核16线程

intel 英特尔 酷睿i5-12600KF CPU 4.9Ghz 10核16线程

1199元起

intel 英特尔 酷睿i7-14700K CPU 3.4Ghz 20核28线程

intel 英特尔 酷睿i7-14700K CPU 3.4Ghz 20核28线程

2899元起

intel 英特尔 酷睿 i5-12490F CPU 4.6GHz 6核12线程

intel 英特尔 酷睿 i5-12490F CPU 4.6GHz 6核12线程

844元起

intel 英特尔 酷睿 i7-13700K CPU 5.4GHz 16核24线程

intel 英特尔 酷睿 i7-13700K CPU 5.4GHz 16核24线程

2849元起

intel 英特尔 酷睿i7-14700KF CPU 3.4Ghz 20核28线程

intel 英特尔 酷睿i7-14700KF CPU 3.4Ghz 20核28线程

2769元起

intel 英特尔 酷睿i9-14900K CPU 3.2GHz 24核32线程

intel 英特尔 酷睿i9-14900K CPU 3.2GHz 24核32线程

3790元起

intel 英特尔 酷睿i5-14600KF CPU 3.5GHz 14核20线程

intel 英特尔 酷睿i5-14600KF CPU 3.5GHz 14核20线程

2099元起

intel 英特尔 酷睿 i5-13490F CPU 3.5GHz 10核16线程

intel 英特尔 酷睿 i5-13490F CPU 3.5GHz 10核16线程

994元起

intel 英特尔 酷睿 i5-12400F CPU 2.5GHz 6核12线程

intel 英特尔 酷睿 i5-12400F CPU 2.5GHz 6核12线程

509元起

intel 英特尔 i5-13600KF 盒装处理器(14核心20线程、5.1GHZ)

intel 英特尔 i5-13600KF 盒装处理器(14核心20线程、5.1GHZ)

1269元起

intel 英特尔 i7-13700KF CPU 5.4Ghz 16核24线程

intel 英特尔 i7-13700KF CPU 5.4Ghz 16核24线程

944元起

intel 英特尔 酷睿i5-14600K CPU 3.5GHz 14核20线程

intel 英特尔 酷睿i5-14600K CPU 3.5GHz 14核20线程

2249元起

intel 英特尔 酷睿 i5-13600K CPU 5.1GHz 14核20线程

intel 英特尔 酷睿 i5-13600K CPU 5.1GHz 14核20线程

2249元起

intel 英特尔 酷睿i9-14900KS CPU 3.2GHz 24核32线程

intel 英特尔 酷睿i9-14900KS CPU 3.2GHz 24核32线程

5499元起

intel 英特尔 酷睿 i5-14490F 盒装CPU处理器 10核16线程 4.9GHz

intel 英特尔 酷睿 i5-14490F 盒装CPU处理器 10核16线程 4.9GHz

1458元起

intel 英特尔 酷睿 i7-14790F 盒装CPU处理器 16核24线程 5.4GHz

intel 英特尔 酷睿 i7-14790F 盒装CPU处理器 16核24线程 5.4GHz

2899元起
165评论

  • 精彩
  • 最新
  • 真正的遥遥领先 [喷血]

    校验提示文案

    提交
    你这个“真正”,打脸了多少所谓的遥遥领先!!!

    校验提示文案

    提交
    我是来看评论的 不踩一下华为就难受么。认识差距不就行了 这么阴阳怪气

    校验提示文案

    提交
    还有47条回复
    收起所有回复
  • 双精度FP64就40T,反而比H100降低了,按半精度FP16的2250T计算,就是H100的2.2倍。那些写的提升五倍十倍三十倍,是把以前从来没有的FP4算进去的,为啥不只看FP4,提升无穷倍 [喜极而泣] [喜极而泣] [喜极而泣]

    校验提示文案

    提交
    不好,雷氏比较法被皮衣抄袭走了

    校验提示文案

    提交
    十年前老黄还自称是米粉呢 [狂汗]

    校验提示文案

    提交
    还有1条回复
    收起所有回复
  • 2700w刚上暖宝宝了,冬天不开暖气

    校验提示文案

    提交
    夏天也可以用来加热洗澡水,比太阳能强~~

    校验提示文案

    提交
    你们是住在服务器机房吗?

    校验提示文案

    提交
    还有1条回复
    收起所有回复
  • 就知道喷子喷华为遥遥领先了。。。关键老黄人家卖不了国内,只让你崇拜。给你个阉割到10%的用用,还得要摩拜 [邪恶] [邪恶] [邪恶]

    校验提示文案

    提交
    华为是通讯公司,对标的不是英伟达。现在可好,特斯拉,英伟达,丰田,苹果,openAI。哪个出新技术都要踩一下华为。华为的日子比被三个同学做掉的孩子还要惨。

    校验提示文案

    提交
    还有1条回复
    收起所有回复
  • 未来就是ai之争,算力之争。即便别人开源了,谣谣领先也没有硬件。就领先不起来了,太好笑了。 [皱眉] [傻笑]

    校验提示文案

    提交
    软件也靠开源,开源了就突破,然后加密生怕别人看出点什么来 [抽烟]

    校验提示文案

    提交
    还有14条回复
    收起所有回复
  • 领先有啥用?老黄在美帝那影响力那么差,动不动就让雷女士踹一脚,憋屈的像个孙子一样蹦过来跳过去的

    校验提示文案

    提交
    商人赚钱不在乎。

    校验提示文案

    提交
    为什么你觉得英伟达会被踹?又不是敌对势力。 [龇牙]

    校验提示文案

    提交
    还有2条回复
    收起所有回复
  • [高兴] 算力提升是好事,但是评论区一堆看个自媒体一通吹的真的是要给我笑哭。
    现在的ai路线完全是数据库+搜索引擎的升级版,哪怕sora本质上也是把数据库里用游戏引擎渲染出来的影音模块组起来,仅此而已。
    你说这东西能提升生产力,它也就只能降低文娱影音搜索行业。
    工业上根本不需要这种所谓ai,因为那些工业仿真软件等等本身就是类似这种ai的数据库仿真软件和辅助软件。
    迄今为止ChatGPT也出现挺久了,到现在还只能通过卖会员变现点,想走工业路线根本没它位置。

    校验提示文案

    提交
    ai写个总结还有啥车轱辘话文案还行。

    校验提示文案

    提交
    收起所有回复
  • 算力即国力

    校验提示文案

    提交
    你先能把ai算力转换成生产力再说,迄今为止ai也挺久了,你看过对哪个实体产生影响的?你是不是还想把一堆工业软件数据仿真软件那些也算ai里去?迄今为止这些被吹捧的ai还没找到任何生产力方向,你管这叫国力。

    校验提示文案

    提交
    不看好ai注定被淘汰

    校验提示文案

    提交
    还有4条回复
    收起所有回复
  • 不是要自己生产才行吗,对老黄要求不能这么低吧

    校验提示文案

    提交
    一个美国人美国公司,找台积电生产有问题吗?

    校验提示文案

    提交
    对对对,贸易自由想找谁找谁。

    校验提示文案

    提交
    还有6条回复
    收起所有回复
  • 这几年ai大爆炸

    校验提示文案

    提交
    本质算力够了

    校验提示文案

    提交
    收起所有回复
  • 不知道退休前能不能等个矿卡

    校验提示文案

    提交
  • 挖矿的去屯这个吧,别惦记那些游戏显卡了 [观察]

    校验提示文案

    提交
  • 好像老黄这件皮夹克,从我知道这个人的时候一直就在穿。

    校验提示文案

    提交
    衣柜就全是皮夹克啊~~一打开衣柜,清一色就是皮衣,老黄一看,低头哎,闭眼随便选一件吧,反正样式一样的。

    校验提示文案

    提交
    俗称黄皮子 [邪恶]

    校验提示文案

    提交
    收起所有回复
  • AI也是数据和编程领域的,这些其实和人有关,芯片设计也是和人有关,创新,思路什么的大家现在都差不多了,数学天才国内确实少了点,但我们程序猿又多又便宜,芯片技术设计师又多又便宜,实现很多设计想法都不会太差,但现在核心问题一个是标准,我们很多标准没有,最重要的是制造没有,你再牛的设计架构是人家十倍代码量五十倍电力资源100倍的空间优势,没有芯片制造技术,都是空,所以赶紧加快5nm芯片制造工艺突破吧,这个能突破了,别的都好说

    校验提示文案

    提交
  • 一群喷遥遥领先的人麻烦喷之前先稍微搜一搜 这个实际上只有华为鲲鹏的1.8-2.2倍算力 每千瓦性能更只有1.5倍 成本更是爆表 遥个妹的遥啊 你们以为像台式机或者手机那样看单芯性能 实际上ai算力看的是耗能和成本 举个不恰当的例子 你一颗14900ks卖6000 要400w 但我两颗7800x3d只要5000才250w 比你的性能甚至还高点 那么同样要多开500个游戏7800x3d需要的数量虽然多 但是花的钱却比你少 ai这方面根本不看单芯能力 看的是综合 实际上目前乃至未来几十年 中美的算力差距都不可能拉开 大概率国内的综合算力还可能在未来小超美国

    校验提示文案

    提交
    搜完了,算力华为2倍的不是这个芯片,这个大概是10倍左右

    校验提示文案

    提交
    收起所有回复
  • 挖矿应该好用

    校验提示文案

    提交
  • 对这方面了解几乎为零,知道它很厉害,但是不知道是什么程度的厉害

    校验提示文案

    提交
    遥遥领先的程度(字面意思)

    校验提示文案

    提交
    应该是我们无法想象的程度吧

    校验提示文案

    提交
    还有6条回复
    收起所有回复
  • 不知道能否通过量子计算弯道超车。

    校验提示文案

    提交
    有些弯道已经翻车了,别人转到别的方向去了。

    校验提示文案

    提交
    翻车不翻车无所谓 经费到手就行

    校验提示文案

    提交
    还有3条回复
    收起所有回复
  • 不做CPU领头羊太可惜了

    校验提示文案

    提交
    cpu专利和技术也是需要累积的。苹果做的

    校验提示文案

    提交
    苹果的m3和这玩意有点像。

    校验提示文案

    提交
    还有1条回复
    收起所有回复
  • A粉跳出来表示,7900XTX超一下能摸到P股 [邪恶]

    校验提示文案

    提交
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
50
扫一下,分享更方便,购买更轻松