阅读时间 8 分钟

撼动 Nvidia CUDA?Intel Arc Pro B70 本地推理调研

一条社交媒体帖子将 Intel Arc Pro B70 描述为"以更低价格实现本地推理高性价比"的选项,并认为在 AI 辅助编程和开源社区优化的推动下,Intel 与 NVIDIA CUDA 生态的差距正在缩小。本文基于社区实测数据、技术评测与官方资料,对该观点涉及的事实进行梳理。


一、硬件规格与定价

Intel Arc Pro B70 于 2026 年 3 月发布,基于 Battlemage G31 架构。

规格项 数值
Xe Core 数量 32
显存 32 GB GDDR6
显存位宽 256-bit
显存带宽 608 GB/s
TBP(整卡功耗) 230 W
供电接口 单 8-pin PCIe
官方建议零售价 949 美元

国内渠道方面,蓝戟(GUNNIR)版 Arc Pro B70 TF 32G 在京东等平台的标价约为 6,540 元至 10,000 元人民币不等。什么值得买报道


二、LLM 推理性能实测数据

2.1 单卡性能

Phoronix 于 2026 年 4 月发布了 Arc Pro B70 的 Linux 平台初步评测,测试环境为 Ubuntu 26.04、Linux 7.0 内核、Mesa 26.0 驱动,搭配 Ryzen Threadripper 9980X 工作站。Phoronix 评测

GitHub 用户 PMZFX 发布了更详细的单卡与双卡实测数据,测试基于 llama.cpp SYCL + Vulkan 后端以及 vLLM XPU 后端。GitHub 基准数据

模型 类型 量化 显存占用 GPU 数量 预填充速度 (pp512) 生成速度 (tg128) 平均功耗
Llama 3.1-8B Instruct Dense Q4_K_M 4.6 GiB 1 2,452 t/s 82.6 t/s 37 W
Qwen 3.6-35B-A3B MoE UD-Q4_K_M 20.6 GiB 1 615 t/s 54.7 t/s 114 W
Qwen 3.5-35B-A3B MoE Q4_K_M 20.5 GiB 1 618 t/s 54.5 t/s 92 W
Gemma 4 26B-A4B MoE Q4_K_M 15.7 GiB 1 1,129 t/s 52.6 t/s 102 W

2.2 双卡性能

模型 类型 量化 显存占用 GPU 数量 预填充速度 (pp512) 生成速度 (tg128) 平均功耗
Qwen3-Coder-Next 80B-A3B MoE Q4_K_M 45.1 GiB 2 305 t/s 43.4 t/s 79 W
DeepSeek-R1-Distill-Llama-70B Dense Q4_K_M 39.6 GiB 2 336 t/s 11.5 t/s 185 W

上述数据表明,MoE(混合专家)模型在 B70 上的能效比(tokens per joule)显著优于同规模 Dense 模型。Qwen 35B-A3B MoE 单卡可达约 54 t/s,而 DeepSeek-R1 70B Dense 双卡仅约 11.5 t/s。


三、与 NVIDIA 方案的对比

3.1 硬件规格对比

GPU 显存 显存带宽 功耗 参考价格
Intel Arc Pro B70 32 GB 608 GB/s 230 W ~$949(国内约 6,540–10,000 元)
RTX 3090(二手) 24 GB 936 GB/s 350 W ~5,200 元(2026 年 4 月二手最低成交价)
RTX 5090 32 GB 1,792 GB/s 575 W $2,000+

RTX 3090 二手价格方面,据 nickystyle 2026 年 4 月 24 日的二手市场采集数据,RTX 3090 最低成交价为 5,209 元,较此前有所下跌。nickystyle 二手显卡价格排行

Hardware Corner 的评测指出,B70 的显存带宽约为 RTX 3090 的 65%,这一差距在单流生成场景下构成显著瓶颈。Hardware Corner 对比

3.2 性能对比

Hardware Corner 的单用户推理测试(llama.cpp,Qwen 3.5 27B,4K 上下文,Q4 GGUF)显示:

指标 RTX 3090 Intel B70(估算)
预填充 (Prefill) 1,104 t/s 低于 3090
生成 (Generation) 33 t/s 低于 3090

该评测同时指出,在批量并发场景下(4x B70 vs 4x RTX 3090,vLLM,Qwen 3.5 27B,50 并发请求),B70 的吞吐量和首 token 延迟与 RTX 3090 处于同一水平甚至略有优势。


四、软件生态现状

4.1 支持的推理框架

框架/后端 支持状态 说明
llama.cpp (SYCL) 可用 性能最优,需手动编译配置
llama.cpp (Vulkan) 可用 Ollama、LM Studio 直接支持,配置最简单
IPEX-LLM 可用 Intel 官方优化,性能较好,配置复杂
vLLM 上游支持中 Intel 与 vLLM 社区合作推进,需特定内核版本和 Docker 部署
TensorRT-LLM 不支持 NVIDIA 独占

PMZFX 的测试发现,SYCL 后端的生成速度约为 Vulkan 的 2.2 倍(以 Qwen 1.5B Q4_K_M 为例:229 t/s vs 102 t/s)。GitHub 发现汇总

4.2 vLLM 的进展

vLLM 官方博客于 2025 年 11 月发布了 Intel Arc Pro B 系列 GPU 的支持公告,介绍了针对 MoE 模型的持久化零间隔内核、动态负载均衡等优化,并给出了 8x B60 GPU 上的性能数据。vLLM 官方博客

需要注意的是,上述博客主要基于 Arc Pro B60(24GB 版本)进行测试,B70(32GB 版本)的 vLLM 性能数据目前仍较有限。

4.3 已知问题与社区反馈

PMZFX 的 GitHub 仓库汇总了多项非显而易见的发现:

  • Q8_0 量化性能修复:社区 PR 合并前,Qwen 27B Q8_0 的生成速度仅为 4.88 t/s,修复后提升至 15.3 t/s(约 3.13 倍)。
  • NDEBUG 构建陷阱:默认构建配置未启用 -DNDEBUG,导致断言开销使预填充速度损失近 2 倍。
  • 双卡层拆分为顺序执行:双卡配置不会加速单卡即可容纳的模型,仅对超大模型(如 70B Dense、80B MoE)有意义。
  • Linux 驱动仍在完善:Phoronix 测试时,Intel Xe 驱动尚未通过 sysfs 暴露功耗数据。

五、不同来源的观点

5.1 支持性观点

Compute Market 的分析认为,截至 2026 年 4 月,Arc Pro B70 是"最便宜的 32GB 本地 LLM 推理 GPU",是"首个低于 1000 美元的单卡方案,可在 Q4 量化下运行 70B 参数模型"。该分析同时指出,70B 模型在 Q4_K_M 下的权重接近 40GB,32GB 单卡仍需使用 Q3_K_M 或 IQ3_XXS,或进行部分 CPU 卸载。Compute Market 分析

5.2 审慎观点

前 Hugging Face 工程师 Julien Simon 的评论被多家分析引用:"Intel Arc 家族目前的处境类似于 2023 年的 AMD ROCm——它能工作,生态真实存在,但你仍然是先驱者。如果你的时间比 1000 美元的差价更值钱,不要买 Arc。"Compute Market 分析

Hardware Corner 的评测结论为:"Arc B70 是一张显存优先的 GPU。它在原始速度上无法击败 RTX 3090,但为 27B 到 34B 范围的模型提供了无需多卡配置的高质量推理路径。"Hardware Corner


六、选购参考

基于上述数据,不同需求下的硬件选择可参考以下框架:

需求优先级 可选方案 理由
预算优先,可接受软件配置投入 Arc Pro B70 32GB 显存成本最低,单卡可跑 27B–35B MoE
单用户推理速度优先 RTX 3090 / RTX 4090 更高显存带宽带来更快生成速度,生态成熟
需要 32GB+ 显存且不愿买二手 Arc Pro B70 新品有保修,避免矿卡风险
生产级多并发服务部署 RTX 5090 或双 3090 vLLM、FlashAttention、CUDA 批处理生态更成熟
主要运行 MoE 模型 Arc Pro B70 MoE 低激活参数量对带宽瓶颈不敏感,能效比高
追求开箱即用 NVIDIA 方案 CUDA 生态的即插即用程度目前仍显著领先

七、总结

Arc Pro B70 的核心优势在于 32GB 显存与较低的单价,使其成为目前单卡 32GB 方案中价格最低的新品。在 MoE 模型(如 Qwen 35B-A3B)上,单卡生成速度可达约 54 t/s,能效比表现较好。但在单流 Dense 模型推理中,其 608 GB/s 的显存带宽低于 RTX 3090(936 GB/s),生成速度通常慢于后者。

软件生态方面,llama.cpp(SYCL/Vulkan)和 IPEX-LLM 已可用,vLLM 支持正在推进,但配置复杂度高于 CUDA 方案,部分功能需手动编译和调参。TensorRT-LLM 等 NVIDIA 独占工具链目前无法在 B70 上运行。

对于不愿投入时间进行环境配置的用户,NVIDIA 方案在生态成熟度、开箱即用程度和社区支持广度上仍保持领先。B70 更适合追求显存/价格比、愿意处理软件配置、或主要运行 MoE 模型的场景。


八、数据来源汇总

来源 类型 URL
Phoronix 硬件评测 https://www.phoronix.com/review/intel-arc-pro-b70-linux
PMZFX GitHub 社区基准测试 https://github.com/PMZFX/intel-arc-pro-b70-benchmarks
Hardware Corner 性能对比分析 https://www.hardware-corner.net/intel-arc-b70-llm-gpu-march-31/
Compute Market 选购分析 https://www.compute-market.com/blog/cheapest-32gb-gpu-local-llm-2026
vLLM 官方博客 框架支持公告 https://vllm.ai/blog/intel-arc-pro-b
什么值得买 国内售价报道 https://post.smzdm.com/p/apq82nd0/
nickystyle 二手显卡价格采集 https://nickys.cn:5201/?p=137
Intel 官方数据手册 规格参数 https://www.intel.com/content/dam/www/central-libraries/us/en/documents/2026-03/datasheet-b70-gpu.pdf