Stable Diffusion XL搞偏门:AMD性价比神卡

2024-04-01 00:15:11 154点赞 576收藏 134评论

故事的起源:

在这个充满科技奇迹的时代,恰逢我家的领导是一位朴素的做平面设计的同学,她每天都在和各种线条、色块和创意做斗争。没办法,都是为了生活,自从我介绍给她用Stable Diffusion后,并且把闲置的RTX3070+5900X搭成AI绘图专用Server给她用了之后,她就停不下来了,这样陆陆续续用了Stable Diffusion陪伴她工作了大半年,由于家里领导使用AI绘图后,经常会递交惊艳的作品,屡屡受到她上司的表扬,减负又加薪,自然的,她就更加一条路走到黑,再也离不开了。后面她不知从哪里听闻Stable Diffusion XL发布了,那就给她升级吧,Ubuntu 同步下最新代码,下载几个模型,升级倒是毫无难度,但无奈噩梦就此开始,由于SDXL是1024x1024的图训练的。所以,稍微开点插件,或者分辨率一大,3070 8G的显存就不够用,CUDA Out Of Memory。此类事情,领导天天啰嗦我,说要影响她创作了,手上别的没有更大显存的卡,我只有把华硕4090插过去给她临时用了几天。这一用,卡都不还给我了,于是申请再买一张卡用于搞AI,吃过3070的苦后,家里领导说她说就要显存大,要24G起步,说买我那个游戏卡也行,或者其他完全性能弱一丢丢能接受。由于众所周知的原因,当初为了买4090,谎报了5000元单价,领导还是记事的,果不其然,她转我5000,让给她重新买一张,我才能拿走我的4090。

悲剧!猝!

要知道5000元买全新的3090都要倒贴,而且矿卡横行,二手N卡不敢入手,生产力工具,要买就买全新的,就在我犯愁如何用这5000元买一张堪用的绘图卡的时候,转机出现了。一个偶然的机会,跟朋友提起这个事,他说也在玩SDXL,不过是AMD,专业AI卡,32GB显存,不俗的AI绘图性能,在某鱼全新不到5字头的价格,追问之下知道,此物就是AMD MI100,但此卡缺点也明显,他只能跑AI,因为无显示输出,游戏也是不太可能。但!这刚好符合我需求,无输出不重要,我只要能跑SDXL,毕竟是生产力工具。而且我本来就是跑Ubunu系统,问题不大,所以,所有的这些问题对我都不是问题。只要他性价比够高!

就这么干吧!

最终对比了几个卖家后,凭借三寸不烂之舌,以4.5K的价格,入手了一张全新的(有点惊讶到我,再怎么说此卡也是敢对标A100的神物,因为此卡是被动散热的,我又花了几十元补了个散热器。我擦,5000元居然还有剩),两天后卡和散热器都到了,纸壳内就是如此简陋的工包。金手指完美,确实没上过机,是全新货。但拆开后,惊艳了我,不愧是发行价4.8万的货。

AMD MI100 简陋工包AMD MI100 简陋工包艺术品一样!艺术品一样!用料扎实,秒杀一众消费级显卡!用料扎实,秒杀一众消费级显卡!

这元器件布局,不夸张说,商业级的,就是强。用料真的不惜血本啊。发行时候,号称性能超越A100。

官网部分参数,充满期待:

Stable Diffusion XL搞偏门:AMD性价比神卡

查了一下发行价4.8万人民币,不到1/10的发行价入手,心里乐呵呵,迫不及待上散热器,参考了SMZDM的教程和百度的教程,驱动两下就安装好了,不得不说A卡在Ubuntu下的驱动安装比N卡还要顺畅。。然后很快就搭好了Ubuntu下基于ROCm下的SDXL环境,对于熟悉Linux的人应该也不算难,线上文章太多了,就不重复叙述,新手按照教程问题应该也不大,我这里装的是最新的ROCm 6.0+最新的SDXL。

rocm信息:rocm-smirocm信息:rocm-smi

OK,性能测试准备开始,Let’s Go!

对比平台,刚好3个卡:

丽台3070 8GB / 华硕4090 24GB / AMD MI100 32GB

其他部分硬件配置:

CPU: AMD 5900X

主板:微星 B550M Motar

内存:威刚 DDR4 3200128GB(32GB x 4)

系统盘:M.2 2T

电源:长城800W金牌

其他软件信息:

Ubuntu 版本:22.04.3

WebUI 版本:v1.8.0

Python 版本:3.11.5  

torch:2.4.0dev 20240326

首先外观对比,3名选手登场,MI100竟然是个头最小的。

从上到下分别是4090,3070,MI100从上到下分别是4090,3070,MI100

宽度对比,MI100依然是最苗条的

从上到下4090,MI100,3070从上到下4090,MI100,3070

准备SDXL的启动参数,几个卡启动参数有点小差别,

MI100的启动参数如下:

python3 launch.py --listen --port 7860 --opt-split-attention-invokeai --enable-insecure-extension-access --opt-split-attention

4090,增加xformers,此为N卡支持选项, --xformers

而3070,同样开启xformers,当然还有因为他只有8G显存,因此开启中等显存参数—medvram。

在浏览器输入IP:7860后,就可以开始对比测试了。

Stable Diffusion启动画面Stable Diffusion启动画面

来了,来了,来了,颤抖的小手!

选用模型:realisticStockPhoto_v20.safetensors

从网上找了个prompt,开测:

A stunning, lifelike woman with high-definition features, wearing an elegant evening gown, in a sophisticated and alluring pose,4k epic

生成的图还是很不错的生成的图还是很不错的

因为只看基础对比性能,清华采样器啥,加速绘图的优化暂时都没做,分别测试1024x1024,1536x1536,2048x2048这3种宽高,同时也没做超分。

1024x1024,迭代步数50,批次101024x1024,迭代步数50,批次101536x1536,迭代步数50,批次41536x1536,迭代步数50,批次4

不管是MI100还是4090,生成过于大的宽高比例,容易出现两个头三只手等走样照片,这个应该是跟模型的原始素材尺寸有关,不过不重要,此处只看性能,为了避免吓人,加上人类最伟大的发明——克兄

2048x2048,迭代步数50,批次12048x2048,迭代步数50,批次1

交差,完美完成任务。

集中常见分辨率下的对比集中常见分辨率下的对比

结论:

3070只有8G显存,动不动就Out of memory,实在无法胜任AI绘图,个人建议,SDXL建议16GB起步,最好24GB及以上。

4090仍然是最牛的存在,唯一缺点价格太贵,1.5W+,要弄走好多私房了,虽然MI100纸面数据不差4090太多,但最终SDXL的成绩MI100没有干过4090,差距不小,当然也在意料之中,一来因为AMD的ROCm还在持续优化,而从ROCm 5.7到6.0的提升来看,提升还是很大的。另外对于MI100,它有着更大的显存,能够更好的应对SD 3.0,可能都不是太大问题。况且4.5K价格摆在这里,还要啥自行车。对于只做AI绘图的生产力工具,确实是不错的选择。性能上,当前优化下,不知道能否对标3080-3090,估计还是有点机会,但具体由于我没有平台,没法测试。另外,AMD专用AI绘图平台STARK,可能有更好的表现,但是我懒,也就不测试了。

附上几张随意生成的美图:

Stable Diffusion XL搞偏门:AMD性价比神卡Stable Diffusion XL搞偏门:AMD性价比神卡Stable Diffusion XL搞偏门:AMD性价比神卡Stable Diffusion XL搞偏门:AMD性价比神卡

作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~

展开 收起

AMD Radeon R7 DDR4 台式机内存

AMD Radeon R7 DDR4 台式机内存

暂无报价

GLOWAY 光威 龙武-弈系列 DDR5 6000MHz 台式机内存 马甲条 星空黑 32GB 16GBx2 CL36

GLOWAY 光威 龙武-弈系列 DDR5 6000MHz 台式机内存 马甲条 星空黑 32GB 16GBx2 CL36

499元起

金百达(KINGBANK)32GB(16GBX2)套装 DDR5 8000 台式机内存条海力士A-die颗粒 白刃RGB灯条 C36

金百达(KINGBANK)32GB(16GBX2)套装 DDR5 8000 台式机内存条海力士A-die颗粒 白刃RGB灯条 C36

暂无报价

光威(Gloway)16GB DDR4 3200 台式机内存条 弈系列

光威(Gloway)16GB DDR4 3200 台式机内存条 弈系列

159元起

光威(Gloway)32GB(16GBx2)套装 DDR5 6000 台式机内存条 天策系列 国产DDR5颗粒 CL36

光威(Gloway)32GB(16GBx2)套装 DDR5 6000 台式机内存条 天策系列 国产DDR5颗粒 CL36

479元起

光威(Gloway)32GB DDR4 3200 台式机内存条 弈系列

光威(Gloway)32GB DDR4 3200 台式机内存条 弈系列

299元起

阿斯加特(Asgard)(16Gx2)套 DDR5 台式机内存条

阿斯加特(Asgard)(16Gx2)套 DDR5 台式机内存条

598元起

KINGBANK 金百达 银爵 DDR5 6000MHz 台式机内存 马甲条 32GB 16GBx2 CL36

KINGBANK 金百达 银爵 DDR5 6000MHz 台式机内存 马甲条 32GB 16GBx2 CL36

499元起

佰维(BIWIN)32G(16G×2)套装 DDR5 6000频率台式机内存条 时空行者DW100炫光 RGB灯条(C28) 黑色 AI PC电脑配件

佰维(BIWIN)32G(16G×2)套装 DDR5 6000频率台式机内存条 时空行者DW100炫光 RGB灯条(C28) 黑色 AI PC电脑配件

979元起

PREDATOR 宏碁掠夺者 Hermes冰刃系列 DDR5 8000MHz RGB 台式机内存 灯条 珍珠白 32GB 16GBx2 C36

PREDATOR 宏碁掠夺者 Hermes冰刃系列 DDR5 8000MHz RGB 台式机内存 灯条 珍珠白 32GB 16GBx2 C36

1099元起

Lexar 雷克沙 Ares战神之刃二代 DDR5 6800MHz 台式机内存 灯条 黑色 32GB 16GBx2 CL34

Lexar 雷克沙 Ares战神之刃二代 DDR5 6800MHz 台式机内存 灯条 黑色 32GB 16GBx2 CL34

889元起

光威(Gloway)()套装 DDR5 6000 台式机内存条 龙武RGB系列 海力士M-die颗粒CL30 星空黑

光威(Gloway)()套装 DDR5 6000 台式机内存条 龙武RGB系列 海力士M-die颗粒CL30 星空黑

739元起

96GB(48GBx2)套装 DDR5 6400 台式机内存条 神武RGB系列 海力士M-die颗粒 CL32 助力AI

96GB(48GBx2)套装 DDR5 6400 台式机内存条 神武RGB系列 海力士M-die颗粒 CL32 助力AI

暂无报价

金百达(KINGBANK)48GB(24GBX2)套装 DDR5 8400 台式机内存条海力士M-die颗粒 白刃RGB灯条 C40

金百达(KINGBANK)48GB(24GBX2)套装 DDR5 8400 台式机内存条海力士M-die颗粒 白刃RGB灯条 C40

1059元起

汉存玄姬16gx2内存条ddr4电脑3600内存台式海力士CJR电竞马甲套条

汉存玄姬16gx2内存条ddr4电脑3600内存台式海力士CJR电竞马甲套条

299元起

GLOWAY 光威 16GB DDR4 3200 台式机内存条 天策-弈系列 皓月白 长鑫颗粒 CL16

GLOWAY 光威 16GB DDR4 3200 台式机内存条 天策-弈系列 皓月白 长鑫颗粒 CL16

149元起
134评论

  • 精彩
  • 最新
  • 7900xtx用上zluda后也只有4070的水平,大概有20it/s,不用zluda的话只有5it/s,但是好处是游戏性能还是不错的,比4080略高。 [喜极而泣]

    校验提示文案

    提交
  • amd在win下也能用了,zluda可以让amd跑cuda的运算。可以找一下秋叶的启动器,部署运行环境

    校验提示文案

    提交
    看来大妈还是有懂行的

    校验提示文案

    提交
    大佬能出个教程么?或者推荐一下像星空这样的大佬也行,目前还停留在用liblib的阶段

    校验提示文案

    提交
    还有15条回复
    收起所有回复
  • 我的3070m16g发行者用了两个多月了,质保两年,跑起来一点声音都没有,毕竟只有115w,非常稳定,就是比桌面版3070慢点。

    校验提示文案

    提交
    用了快一年发行者3080了 [邪恶]

    校验提示文案

    提交
    收起所有回复
  • 我打算找你领导说说,买你摆电视旁边的路由器,600估计够了

    校验提示文案

    提交
    猜错了,电视旁边是Switch,光明正大,无需伪装

    校验提示文案

    提交
    收起所有回复
  • 4090太贵了,我准备自己研发一个比4090性能高10倍的成本,又不到4090一半的显卡。

    校验提示文案

    提交
    这个牛。。等分享

    校验提示文案

    提交
    研发成了我买十万原始股

    校验提示文案

    提交
    收起所有回复
  • 第一次看到4090是用在生产力上的

    校验提示文案

    提交
    无论是游戏、生产力还是掘金,目前地表最强,没有之一。

    校验提示文案

    提交
    90这些高端卡一直是生产力为主呀 你不会真觉得臭打游戏的有那么多买90的吧

    校验提示文案

    提交
    还有4条回复
    收起所有回复
  • 你这卡。什么渠道我查询比4090还贵。请问做图片训练可以用吗?

    校验提示文案

    提交
    只有某yu罗,刀就对了

    校验提示文案

    提交
    你好,能给介绍个商家吗,谢谢,文中看你说这个显卡不能输出是什么意思?

    校验提示文案

    提交
    还有1条回复
    收起所有回复
  • 鱼上看普遍8500+阿,是涨价了?涨了一倍?

    校验提示文案

    提交
    有5-6K的,砍啊。你们海鲜市场不砍价的?

    校验提示文案

    提交
    能砍掉这么多?这得上血饮狂刀了

    校验提示文案

    提交
    收起所有回复
  • 我看到了闲置的3070和5900,我的主力机也不过是5800+3080

    校验提示文案

    提交
    我主力机也不过是5950

    校验提示文案

    提交
    这卡Windows下可以用吗?需不需要刷bios和装什么驱动?

    校验提示文案

    提交
    还有2条回复
    收起所有回复
  • 直接将3070升16G不是更好。我觉得这文章就是推销这显卡的

    校验提示文案

    提交
    真不知道有这操作,另外,3070留给2 nai机兼顾HTPC了,魔改还不如卖掉。

    校验提示文案

    提交
    收起所有回复
  • zluda效率高一点

    校验提示文案

    提交
    确认下zluda是不是比rocm效率还高?

    校验提示文案

    提交
    对,或者ubuntu跑,感觉更快点,速度快个10%

    校验提示文案

    提交
    收起所有回复
  • 虽然不知道这个故事里面瞎编的成分有多少,但我还是要说一下,forge跑xl模型,8GB显存就绰绰有余了,根本用不上24,12都不需要

    校验提示文案

    提交
    forge更省么?3070 webui一跑就爆显存

    校验提示文案

    提交
    看过评测,forge不会爆显存,不过会假死,时间到了就出图了

    校验提示文案

    提交
    还有1条回复
    收起所有回复
  • 请问你mi100是用什么视频输出的 5900x带集显吗?

    校验提示文案

    提交
    跑的Ubuntu Server啊,WebUI服务都是走浏览器远程访问的,无需输出,想输出多插个亮机卡。

    校验提示文案

    提交
    谢谢解惑

    校验提示文案

    提交
    还有1条回复
    收起所有回复
  • 小手一抖,轻轻打赏50

    校验提示文案

    提交
    多谢

    校验提示文案

    提交
    收起所有回复
  • 那么在哪里可以买到呢,另外功耗多高

    校验提示文案

    提交
    海鲜市场啊,看rocm满载290W吧

    校验提示文案

    提交
    收起所有回复
  • 散热怎么解决的?

    校验提示文案

    提交
    海鲜市场还有人售3D打印的带风扇的配件的。

    校验提示文案

    提交
    收起所有回复
  • 好文,全文不啰嗦,学习了,AMD生态进步神速,不得不为苏妈点个赞。

    校验提示文案

    提交
  • 有个插件叫onediff,sdxl 1024分辨率还能再提速20%到30%

    校验提示文案

    提交
  • 留名,涨知识了

    校验提示文案

    提交
  • 其实不是干这个的在线平台挺好,用开机,不用关机,怕一年也也花不了多少钱

    校验提示文案

    提交
    当你不停调整描述的时候,在线平台基本就可以放弃了,扣点口到流血

    校验提示文案

    提交
    你是懂的。在线跑点数是真的肉疼,自己玩玩的可以,做生产力真的是玩不起。

    校验提示文案

    提交
    收起所有回复
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
576
扫一下,分享更方便,购买更轻松