一、背景:本地AI算力需求爆发
2025 年下半年开始,70B+ 大语言模型的本地部署从"不可能"变成"买得起、跑得动"。两条路线几乎同时到位:
- NVIDIA GB10 Grace Blackwell:ARM 架构,128GB 统一内存,官方标称 1 PFLOP(FP4)AI 算力,Ubuntu 系统。代表机型有 DGX Spark、华硕 Ascent GX10、戴尔 Pro Max
- AMD Ryzen AI Max+ 395:x86 架构,16 核 32 线程 Zen 5 + Radeon 8060S 核显(40CU),同样最高 128GB 统一内存,Windows/Linux 双支持。代表机型有极摩客 EVO-X2、零刻 GTR9 Pro
对中小企业来说,核心问题:哪条路线更适合自己的业务场景?
二、核心参数对比
| 项目 | AMD 395 小主机 | GB10 小主机 |
|---|---|---|
| 架构 | x86 Zen 5 | ARM v9 |
| 系统 | Windows / Linux | Ubuntu(DGX OS) |
| 内存 | 128GB LPDDR5X | 128GB LPDDR5X |
| 内存带宽 | ~273 GB/s | 273 GB/s |
| AI 算力 | GPU+NPU 协同(无官方标称) | 1 PFLOP(FP4) |
| 典型售价 | ¥13,799 ~ 21,999 | ¥32,999 ~ 45,844 |
| Windows 原生支持 | ✅ | ❌ |
| CUDA 生态兼容 | 部分(ROCm) | ✅ 完整 |
三、实测性能对比
数据来源:YouTube @BijanBowen 横评实测(llama.cpp b6767)
LLM 推理速度(tokens/秒,越高越好)
| 模型 | AMD 395 | GB10(DGX Spark) | 结论 |
|---|---|---|---|
| Llama 3.3 70B | 更快 | 较慢 | AMD 微弱领先 |
| GPT-OSS 20B | 更快 | 较慢 | AMD 微弱领先 |
| Qwen3-Coder 30B | 稍慢 | 稍快 | GB10 微弱领先 |
| Qwen3 0.6B | 稍慢 | 稍快 | GB10 微弱领先 |
| 首 Token 延迟(TTFT) | 更低 | 较高 | AMD 领先 |
| Qwen3-235B MoE | 14.72 tok/s(可用) | 未测 | AMD 独有优势 |
两条路线在 LLM 推理性能上差距不大,均在可用范围内。AMD 395 在首 Token 延迟上有优势;GB10 在 NVIDIA 专属 AI 软件栈(TensorRT、PyTorch CUDA)上的兼容性更完整。— 实测结论
四、GB10 的真正优势
除了跑分,GB10 有几个 AMD 395 目前无法替代的优势:
1. CUDA 生态完整性
TensorRT、PyTorch CUDA、NVIDIA AI Enterprise——企业级 AI 开发深度绑定 NVIDIA。用 AMD 跑,部分库需要自行适配;GB10 开箱即用,稳定性经过 NVIDIA 官方认证。
2. 统一内存架构更彻底
GB10 的 128GB 是 CPU 和 GPU 真正统一的,Grace CPU 可以直接访问 Blackwell GPU 的 L2 缓存。AMD 395 的"统一内存"本质上是 CPU 内存动态分配给 GPU 用,在大模型训练场景下效率有差距。
3. 长时间训练任务稳定性
GB10 配备 ECC 内存,长时间训练任务稳定性更好,适合需要连续运行数小时以上的模型微调场景。
4. 双机互联扩展
两台 GB10 可以通过 ConnectX-7 网卡互联,变成 256GB 统一内存、2 PFLOP 算力。AMD 395 目前没有官方多机统一内存方案。
五、AMD 395 的优势
1. 价格优势明显
同规格配置下,AMD 395 机型价格仅为 GB10 的 40~50%,对预算敏感的中小企业更友好。
2. Windows 生态零门槛
AMD 395 直接跑 Windows,Ollama、LM Studio 一键安装,无需 Linux 命令行经验。对 IT 团队规模较小的企业更友好。
3. 一机多用
除了 AI 开发,AMD 395 还能满足日常办公、视频剪辑、3D 渲染需求。GB10 基本只能用于 AI 开发,通用性受限。
六、选型建议
| 您的场景 | 推荐 | 原因 |
|---|---|---|
| 预算有限(1.5 万内),要跑 70B 模型 | AMD 395 小主机 | 性价比最高 |
| 团队无 Linux 经验,要开箱即用 | AMD 395 小主机 | Windows 原生,零门槛 |
| 工作流深度依赖 CUDA 生态 | GB10 机型 | 软件栈完整,官方认证 |
| 需要长时间稳定运行训练/微调任务 | GB10 机型 | ECC 内存,稳定性更优 |
| 考虑先试再用,降低前期投入 | 租用 GB10 算力 | 见下文 |
七、另一种选择:租用 GB10 算力
GB10 机型售价 3~4.6 万元,对想先验证效果的企业来说,一次性投入较高。
适合租用的场景:
- 项目制 AI 开发,周期 3~12 个月
- 想先验证本地大模型效果,再决定是否采购
- 算力需求有波动,峰值时临时扩容
主流机型当前价格参考(2026年7月)
| 机型 | 平台 | 价格 |
|---|---|---|
| 零刻 GTR9 Pro | AMD 395 | ¥13,799 |
| 极摩客 EVO-X2 | AMD 395 | ¥14,999 |
| 惠普 Z2 Mini G1a | AMD 395 | ¥21,999 |
| 华硕 Ascent GX10 | GB10 | ¥32,999 |
| 戴尔 Pro Max(GB10) | GB10 | ¥45,844 |
更多机型参数、最新报价和租用方案,请联系励康获取详细咨询。