阅读时间 1 分钟

3 台 Dell GB10 的本地推理集群跑 Trinity-Large-Thinking

X 上的 Harrison Kinsley(@Sentdex)贴出了一套本地大模型集群:3 台 Dell GB10,每台 128GB unified memory,合计 384GB,节点之间用 200Gbps QSFP 做 mesh 互联。

他给出的当前运行结果,是 Trinity-Large-Thinking(398B)在 Q4_K_M 量化下跑到 17-18 t/s。贴文里还提到一次运行记录,速度是 17.43 t/s,耗时约 13 秒。

作者说,这套集群后面还会继续观察模型表现,也会拿来做 coding agent,并通过 Hermes 接入。

原帖信息