撼动 Nvidia CUDA?Intel Arc Pro B70 本地推理调研
一条社交媒体帖子将 Intel Arc Pro B70 描述为"以更低价格实现本地推理高性价比"的选项,并认为在 AI 辅助编程和开源社区优化的推动下,Intel 与 NVIDIA CUDA 生态的差距正在缩小。本文基于社区实测数据、技术评测与官方资料,对该观点涉及的事实进行梳理。
一、硬件规格与定价
Intel Arc Pro B70 于 2026 年 3 月发布,基于 Battlemage G31 架构。
| 规格项 | 数值 |
|---|---|
| Xe Core 数量 | 32 |
| 显存 | 32 GB GDDR6 |
| 显存位宽 | 256-bit |
| 显存带宽 | 608 GB/s |
| TBP(整卡功耗) | 230 W |
| 供电接口 | 单 8-pin PCIe |
| 官方建议零售价 | 949 美元 |
国内渠道方面,蓝戟(GUNNIR)版 Arc Pro B70 TF 32G 在京东等平台的标价约为 6,540 元至 10,000 元人民币不等。什么值得买报道
二、LLM 推理性能实测数据
2.1 单卡性能
Phoronix 于 2026 年 4 月发布了 Arc Pro B70 的 Linux 平台初步评测,测试环境为 Ubuntu 26.04、Linux 7.0 内核、Mesa 26.0 驱动,搭配 Ryzen Threadripper 9980X 工作站。Phoronix 评测
GitHub 用户 PMZFX 发布了更详细的单卡与双卡实测数据,测试基于 llama.cpp SYCL + Vulkan 后端以及 vLLM XPU 后端。GitHub 基准数据
| 模型 | 类型 | 量化 | 显存占用 | GPU 数量 | 预填充速度 (pp512) | 生成速度 (tg128) | 平均功耗 |
|---|---|---|---|---|---|---|---|
| Llama 3.1-8B Instruct | Dense | Q4_K_M | 4.6 GiB | 1 | 2,452 t/s | 82.6 t/s | 37 W |
| Qwen 3.6-35B-A3B | MoE | UD-Q4_K_M | 20.6 GiB | 1 | 615 t/s | 54.7 t/s | 114 W |
| Qwen 3.5-35B-A3B | MoE | Q4_K_M | 20.5 GiB | 1 | 618 t/s | 54.5 t/s | 92 W |
| Gemma 4 26B-A4B | MoE | Q4_K_M | 15.7 GiB | 1 | 1,129 t/s | 52.6 t/s | 102 W |
2.2 双卡性能
| 模型 | 类型 | 量化 | 显存占用 | GPU 数量 | 预填充速度 (pp512) | 生成速度 (tg128) | 平均功耗 |
|---|---|---|---|---|---|---|---|
| Qwen3-Coder-Next 80B-A3B | MoE | Q4_K_M | 45.1 GiB | 2 | 305 t/s | 43.4 t/s | 79 W |
| DeepSeek-R1-Distill-Llama-70B | Dense | Q4_K_M | 39.6 GiB | 2 | 336 t/s | 11.5 t/s | 185 W |
上述数据表明,MoE(混合专家)模型在 B70 上的能效比(tokens per joule)显著优于同规模 Dense 模型。Qwen 35B-A3B MoE 单卡可达约 54 t/s,而 DeepSeek-R1 70B Dense 双卡仅约 11.5 t/s。
三、与 NVIDIA 方案的对比
3.1 硬件规格对比
| GPU | 显存 | 显存带宽 | 功耗 | 参考价格 |
|---|---|---|---|---|
| Intel Arc Pro B70 | 32 GB | 608 GB/s | 230 W | ~$949(国内约 6,540–10,000 元) |
| RTX 3090(二手) | 24 GB | 936 GB/s | 350 W | ~5,200 元(2026 年 4 月二手最低成交价) |
| RTX 5090 | 32 GB | 1,792 GB/s | 575 W | $2,000+ |
RTX 3090 二手价格方面,据 nickystyle 2026 年 4 月 24 日的二手市场采集数据,RTX 3090 最低成交价为 5,209 元,较此前有所下跌。nickystyle 二手显卡价格排行
Hardware Corner 的评测指出,B70 的显存带宽约为 RTX 3090 的 65%,这一差距在单流生成场景下构成显著瓶颈。Hardware Corner 对比
3.2 性能对比
Hardware Corner 的单用户推理测试(llama.cpp,Qwen 3.5 27B,4K 上下文,Q4 GGUF)显示:
| 指标 | RTX 3090 | Intel B70(估算) |
|---|---|---|
| 预填充 (Prefill) | 1,104 t/s | 低于 3090 |
| 生成 (Generation) | 33 t/s | 低于 3090 |
该评测同时指出,在批量并发场景下(4x B70 vs 4x RTX 3090,vLLM,Qwen 3.5 27B,50 并发请求),B70 的吞吐量和首 token 延迟与 RTX 3090 处于同一水平甚至略有优势。
四、软件生态现状
4.1 支持的推理框架
| 框架/后端 | 支持状态 | 说明 |
|---|---|---|
| llama.cpp (SYCL) | 可用 | 性能最优,需手动编译配置 |
| llama.cpp (Vulkan) | 可用 | Ollama、LM Studio 直接支持,配置最简单 |
| IPEX-LLM | 可用 | Intel 官方优化,性能较好,配置复杂 |
| vLLM | 上游支持中 | Intel 与 vLLM 社区合作推进,需特定内核版本和 Docker 部署 |
| TensorRT-LLM | 不支持 | NVIDIA 独占 |
PMZFX 的测试发现,SYCL 后端的生成速度约为 Vulkan 的 2.2 倍(以 Qwen 1.5B Q4_K_M 为例:229 t/s vs 102 t/s)。GitHub 发现汇总
4.2 vLLM 的进展
vLLM 官方博客于 2025 年 11 月发布了 Intel Arc Pro B 系列 GPU 的支持公告,介绍了针对 MoE 模型的持久化零间隔内核、动态负载均衡等优化,并给出了 8x B60 GPU 上的性能数据。vLLM 官方博客
需要注意的是,上述博客主要基于 Arc Pro B60(24GB 版本)进行测试,B70(32GB 版本)的 vLLM 性能数据目前仍较有限。
4.3 已知问题与社区反馈
PMZFX 的 GitHub 仓库汇总了多项非显而易见的发现:
- Q8_0 量化性能修复:社区 PR 合并前,Qwen 27B Q8_0 的生成速度仅为 4.88 t/s,修复后提升至 15.3 t/s(约 3.13 倍)。
- NDEBUG 构建陷阱:默认构建配置未启用
-DNDEBUG,导致断言开销使预填充速度损失近 2 倍。 - 双卡层拆分为顺序执行:双卡配置不会加速单卡即可容纳的模型,仅对超大模型(如 70B Dense、80B MoE)有意义。
- Linux 驱动仍在完善:Phoronix 测试时,Intel Xe 驱动尚未通过 sysfs 暴露功耗数据。
五、不同来源的观点
5.1 支持性观点
Compute Market 的分析认为,截至 2026 年 4 月,Arc Pro B70 是"最便宜的 32GB 本地 LLM 推理 GPU",是"首个低于 1000 美元的单卡方案,可在 Q4 量化下运行 70B 参数模型"。该分析同时指出,70B 模型在 Q4_K_M 下的权重接近 40GB,32GB 单卡仍需使用 Q3_K_M 或 IQ3_XXS,或进行部分 CPU 卸载。Compute Market 分析
5.2 审慎观点
前 Hugging Face 工程师 Julien Simon 的评论被多家分析引用:"Intel Arc 家族目前的处境类似于 2023 年的 AMD ROCm——它能工作,生态真实存在,但你仍然是先驱者。如果你的时间比 1000 美元的差价更值钱,不要买 Arc。"Compute Market 分析
Hardware Corner 的评测结论为:"Arc B70 是一张显存优先的 GPU。它在原始速度上无法击败 RTX 3090,但为 27B 到 34B 范围的模型提供了无需多卡配置的高质量推理路径。"Hardware Corner
六、选购参考
基于上述数据,不同需求下的硬件选择可参考以下框架:
| 需求优先级 | 可选方案 | 理由 |
|---|---|---|
| 预算优先,可接受软件配置投入 | Arc Pro B70 | 32GB 显存成本最低,单卡可跑 27B–35B MoE |
| 单用户推理速度优先 | RTX 3090 / RTX 4090 | 更高显存带宽带来更快生成速度,生态成熟 |
| 需要 32GB+ 显存且不愿买二手 | Arc Pro B70 | 新品有保修,避免矿卡风险 |
| 生产级多并发服务部署 | RTX 5090 或双 3090 | vLLM、FlashAttention、CUDA 批处理生态更成熟 |
| 主要运行 MoE 模型 | Arc Pro B70 | MoE 低激活参数量对带宽瓶颈不敏感,能效比高 |
| 追求开箱即用 | NVIDIA 方案 | CUDA 生态的即插即用程度目前仍显著领先 |
七、总结
Arc Pro B70 的核心优势在于 32GB 显存与较低的单价,使其成为目前单卡 32GB 方案中价格最低的新品。在 MoE 模型(如 Qwen 35B-A3B)上,单卡生成速度可达约 54 t/s,能效比表现较好。但在单流 Dense 模型推理中,其 608 GB/s 的显存带宽低于 RTX 3090(936 GB/s),生成速度通常慢于后者。
软件生态方面,llama.cpp(SYCL/Vulkan)和 IPEX-LLM 已可用,vLLM 支持正在推进,但配置复杂度高于 CUDA 方案,部分功能需手动编译和调参。TensorRT-LLM 等 NVIDIA 独占工具链目前无法在 B70 上运行。
对于不愿投入时间进行环境配置的用户,NVIDIA 方案在生态成熟度、开箱即用程度和社区支持广度上仍保持领先。B70 更适合追求显存/价格比、愿意处理软件配置、或主要运行 MoE 模型的场景。
八、数据来源汇总
| 来源 | 类型 | URL |
|---|---|---|
| Phoronix | 硬件评测 | https://www.phoronix.com/review/intel-arc-pro-b70-linux |
| PMZFX GitHub | 社区基准测试 | https://github.com/PMZFX/intel-arc-pro-b70-benchmarks |
| Hardware Corner | 性能对比分析 | https://www.hardware-corner.net/intel-arc-b70-llm-gpu-march-31/ |
| Compute Market | 选购分析 | https://www.compute-market.com/blog/cheapest-32gb-gpu-local-llm-2026 |
| vLLM 官方博客 | 框架支持公告 | https://vllm.ai/blog/intel-arc-pro-b |
| 什么值得买 | 国内售价报道 | https://post.smzdm.com/p/apq82nd0/ |
| nickystyle | 二手显卡价格采集 | https://nickys.cn:5201/?p=137 |
| Intel 官方数据手册 | 规格参数 | https://www.intel.com/content/dam/www/central-libraries/us/en/documents/2026-03/datasheet-b70-gpu.pdf |
Member discussion