DeepSeek本地部署哪家强?RX 7900 XT VS RTX 4070 Ti SUPER
前言
就在过去不久的蛇年春节,DeepSeek大语言模型引发了全球热烈关注,它具备训练成本低、开源等显著优势,直接撼动了OpenAI在AI领域的地位,长期霸榜手机应用榜首的ChatGPT一下子被DeepSeek超越,近几天甚至有多家央企和科技巨头纷纷也宣布接入DeepSeek。不过由于应用过于火爆,官方版本目前最大问题就是间歇性服务器繁忙。

目前不少平台也接入DeepSeek API了,这可大大分担了DeepSeek官方的负载压力,这些平台有免费使用亦有收费的,部分还需要科学上网。
当然除了官方和第三方API以外,对于绝大数用户来说,使用PC本地部署蒸馏过后的DeepSeek-R1模型也是值得一试,毕竟一免费二可离线(比如什么AI猫娘)隐私高(公司刚需)三对话记录也是永久保存。本文硬核就以RX 7900 XT和RTX 4070 Ti SUPER这两款显卡为例分享一下本地部署的过程,顺便可以对比A卡和N卡之间的性能~
LM Studio和Ollama本地部署

即便蒸馏过后DeepSeek-R1的“小模型”依然对于硬件上限要求很高,具体配置和部署教程大家可自行搜寻,各路大神在互联网上的经验分享可太多了,本文重点还是测试。硬核这次依旧使用的是LM Studio,它省去了输入命令的过程,整合图形UI交互界面,具备硬件协同调试策略,对于NVIDIA、AMD系列GPU和Apple Silicon Mac等硬件都有优化支持,重点是对于新手操作友好。

LM Studio内置可直接搜索下载GGUF等格式的大语言模型,不过也需要施加魔法,个人推荐直接到国内的阿里魔搭社区搜寻即可,建议加入LM Studio Community组织以后方便定位,当然你也可以使用一些huggingface镜像站,但可能模型不太齐全。

若本地部署之后还想使用联网搜索功能,LM Studio也可以联动Anything LLM实现,只需要同时打开这俩软件,在LM Studio加载好模型后,再将Anything LLM工作区定位至LM Studio,最后设置一下代理技能中的Web Search即可。个人目前使用的是Search API,不需要魔法,也兼容各种搜索引擎,不过免费使用次数只有100。

最终在Anything LLM工作区中,只要输入@agent+问题,就能进行联网搜索,硬核也试了一下询问日常美食探店的相关问题,答案还算挺满意,值得一说的是加入批判性思考后,还能一定程度上防踩雷,能做到这些至少要比官方手机APP连续两次答不上要强得多了。

另外如果想用Ollama进行部署也是完全没问题,不过需要注意的是,对于AMD来说,目前支持官方AMD ROCm框架加速的显卡有一定型号限制,RX 7000作为最新系列当然没有问题,但是RX 6700 XT等型号就不支持了。

解决办法不是没有,就像Stable-Diffusion一样,使用民间大神版编译的AMD ROCm框架即可解决,各位可以在Github上搜一搜关键词“Ollama for amd”就明白了,步骤相比相对来说复杂一些。
测试配置、DeepSeek-R1三种蒸馏模型以及对比全量版本效果

本次测试的A卡来自定位次旗舰的蓝宝石RX 7900 XT超白金OC L,外观采用银灰色金属导流罩+单侧灵动岛RGB灯条设计,拥有七根镀镍热管、全铜底座、铝镁合金框架等豪华用料,是AMD高端非公版的代表之作。

其他配置方面,为了尽可能降低CPU和内存瓶颈,本次采用CPU是锐龙9 9950X设定开启PBO ENABLE技术,内存使用EXPO超频达成DDR5 6000C34 16GB*4,总计64GB容量。

AMD安装的是AMD Adrenalin 25.2.1 Optional版本显卡驱动,加入对比测试的N卡是RTX 4070 Ti SUPER,安装的是NVIDIA GeForce GameReady 572.42 WHQL最新版本显卡驱动。操作系统是Windows 11 24H2最新版本,在BIOS中开启Resizable BAR技术提升一些显卡性能,测试软件统一为LM Studio 0.3.9最新版本。

本次测试的DeepSeek-R1蒸馏大语言模型分别有以下三个:
DeepSeek-R1-Distill-Llama-8B-Q4_K_M,基于LIama蒸馏,Q4-K-M量化版本
DeepSeek-R1-Distill-Qwen-14B-Q4_K_M,基于Qwen 2蒸馏,Q4-K-M量化版本
DeepSeek-R1-Distill-Qwen-32B-Q4_K_M,基于Qwen 2蒸馏,Q4-K-M量化版本

需要注意的是,加载模型时都会尽可能拉满GPU卸载以便达到最佳效果,至于上下文长度在常规测试中保持默认值4096,在进阶测试中也是尽可能拉满,直至软件提示报错为止。同时也会开启快速注意力选项进一步优化,而CPU Thread Pool Size则是保持默认值12。

测试问题一:以鲁迅的风格写一篇直播带货话术,带的货是显卡
DeepSeek-R1官方满血671B版本回答如上

测试问题一:以鲁迅的风格写一篇直播带货话术,带的货是显卡
DeepSeek-R1蒸馏14B版本回答如上

测试问题二:我是一名12岁的小学生,帮过我写一个贪吃蛇游戏的代码,看可以直接在Windows 11中运行
DeepSeek-R1官方满血671B版本回答如上

测试问题二:我是一名12岁的小学生,帮过我写一个贪吃蛇游戏的代码,看可以直接在Windows 11中运行
DeepSeek-R1蒸馏14B版本回答如上
DeepSeek-R1基础能力表现或许可以反映在直播话术方面的相关问题,即使满血版和蒸馏版回答都略显浮夸,但却能明显看出答案的区别,满血版显然文学水平更高一些,每一句都文采飞扬,而蒸馏版话语平和不少。至于写代码或者推理相关问题,两者区别其实并不大,交代提问者背景后,满血版和蒸馏版均会采用更为简单的形式来实现。
RX 7900 XT和RTX 4070 Ti SUPER在DeepSeek-R1中的表现

RX 7900 XT载入DeepSeek-R1-Distill-Llama-8B-Q4_K_M后(GPU卸载MAX+上下文长度4096)
内存使用7.1GB,显存则是6.8GB

RX 7900 XT载入DeepSeek-R1-Distill-Qwen-14B-Q4_K_M后(GPU卸载MAX+上下文长度4096)
内存使用7.8GB,显存则是10.8GB
先看看硬件使用情况,8B和14B模型在常规设置载入后,前者对应8GB显存、后者则是对应12GB以上显存的显卡,此时内存需求量其实是很小的,作为高端显卡,RX 7900 XT和RTX 4070 Ti SUPER都足以应付。

在常规设置下,能看到RX 7900 XT在以上四个项目中,有三个性能表现是高于的RTX 4070 Ti SUPER,尤其是代码相关问题推理速度要快上不少,领先幅度达到了20%以上,而RTX 4070 Ti SUPER唯一优势只在14B模式、且属于话术相关问题中,领先幅度只有6%。综合四个项目,RX 7900 XT平均领先RTX 4070 Ti SUPER幅度达到9%。

RX 7900 XT载入DeepSeek-R1-Distill-Llama-14B-Q4_K_M后(GPU卸载MAX+上下文长度MAX)
内存使用26.1GB,显存则是18.2GB

RX 7900 XT载入DeepSeek-R1-Distill-Qwen-32B-Q4_K_M后(GPU卸载MAX+上下文长度100000)
内存使用34.9GB,显存则是17.5GB
进阶测试的硬件使用情况又不一样了,因为把上下文长度都尽可能往高拉,可以显著提高AI回答的准确性和可靠性,尤其是在一些需要深入理解人类语言、处理大量文档/报告等场景中更有效果。
在14B模型中,RX 7900 XT拉满上下文长度(131072)是没有问题的,只是内存会多占用一些,而RTX 4070 Ti SUPER最多只能拉到39000,再多就会提示崩溃。
至于32B模型对于两款显卡压力都挺大,RX 7900 XT上下文长度最多拉到100000,内存需求剧增到35GB,所以48GB容量内存就是最低门槛了。而RTX 4070 Ti SUPER本身GPU卸载都只能达到29(最大64),再拉上下文长度已经没有意义了,只能保持默认4096了。

RX 7900 XT运行DeepSeek-R1-Distill-Llama-14B-Q4_K_M(GPU卸载MAX+上下文长度MAX)
回答代码相关问题,推理速度为19.94 tok/s

RTX 4070 Ti SUPER运行DeepSeek-R1-Distill-Llama-14B-Q4_K_M(GPU卸载MAX+上下文长度39000)
回答代码相关问题,推理速度为16.59 tok/s

进阶测试成绩图表汇总,32B模型确实有点超纲了,实际推理速度比较缓慢,24GB显存以上会更为友好。更有实际意义的其实是14B模型,无论是话术还是代码问题,RX 7900 XT在上下文长度拉满状态下,仍比设置上下文长度39000的RTX 4070 Ti SUPER快不少,这时就不用对比它俩的差距了,因为两者此时回答的准确性都不是属于一个级别了。
结语
全文折腾下来,可见RX 7900 XT是凭借着更大的20GB显存,运行DeepSeek-R1本地部署的蒸馏模型效率完胜RTX 4070 Ti SUPER,实测8B和14B模型,在常规设置中RX 7900 XT可领先9%幅度,尤其在代码相关问题表现更为出色。
另一方面,在14B模型中,RX 7900 XT仍可进一步拉满上下文长度(131072)以便提升AI生成表现,而RTX 4070 Ti SUPER最多拉到39000再多就崩溃,这也妥妥证明了“A卡战未来”的设定没有崩塌。当然,AMD ROCm框架支持目前仍不够成熟,虽说也有不少民间解决方案,但确实挺期待AMD可以继续加大优化力度吧!


神金小子
校验提示文案
PC硬件我至爱
校验提示文案
fengpan584
校验提示文案
xiaomings
校验提示文案
xiaomings
校验提示文案
fengpan584
校验提示文案
PC硬件我至爱
校验提示文案
神金小子
校验提示文案