阅读时间 9 分钟

Ollama Cloud 套餐对比:用量、并发与选择建议

Ollama Cloud 是 Ollama 团队推出的云端模型推理服务,允许用户在不自建硬件的情况下调用开源大语言模型。与 OpenAI、Anthropic 等按 Token 计费的 API 服务不同,Ollama Cloud 采用基于 GPU 时间 的用量模型,并设置了独特的「5 小时会话限制」和「7 天周限制」双重约束。本文梳理官方定价页面的公开信息,并整合社区用户的实测经验,为正在评估该服务的开发者提供参考。


一、官方定价方案概览

根据 Ollama 官方定价页,Cloud 服务分为三个层级:

方案 月付价格 年付价格 核心定位
Free $0 入门体验
Pro $20/月 $200/年 日常生产力
Max $100/月 高负载持续使用

各方案权益详情

Free($0)

  • 本地运行模型完全免费且无限制
  • 云端模型访问权限
  • CLI、API、桌面 App 支持
  • 数据隐私保护
  • 无限量公共模型拉取
  • 并发限制:同时运行 1 个云端模型

Pro($20/月)

  • 包含 Free 全部权益
  • 云端并发模型数:3 个
  • 云端用量:Free 的 50 倍
  • 可上传并分享私有模型

Max($100/月)

  • 包含 Pro 全部权益
  • 云端并发模型数:10 个
  • 云端用量:Pro 的 5 倍(即 Free 的 250 倍)

二、用量计算方式:GPU 时间而非 Token 数

Ollama Cloud 的用量计算方式与主流 API 服务商有本质区别。

官方说明

根据官方 FAQ:

"Usage reflects actual utilization of Ollama's cloud infrastructure — primarily GPU time, which depends on model size and request duration. Shorter requests and prompts that share cached context use less. This is different from fixed token or request-based plans. Ollama doesn't cap you at a set number of tokens."

关键要点:

  • 按 GPU 时间计费,而非固定 Token 数或请求数
  • 模型越大、请求持续时间越长,消耗越快
  • 短请求和命中上下文缓存的 prompt 消耗更少
  • 随着硬件和模型架构效率提升,同等套餐未来可能获得更多可用时长

双重限制机制

云端使用受两套独立限制约束:

限制类型 重置周期 说明
Session Limit 5 小时 短期高频使用上限
Weekly Limit 7 天 长期累计使用上限

注意:本地运行模型不受上述任何限制。


三、社区实测:将 GPU 时间换算为 Token 当量

由于官方未公布具体的 GPU 时间配额,社区用户通过实际测试进行了估算。

来源说明

以下数据来自 Reddit 用户 u/nusquama 的实测帖子《Tracked my Ollama Cloud free tier usage to estimate Pro and Max quotas》(发布于 r/ollama 和 r/LocalLLaMA):

"Ollama Cloud doesn't publish how many tokens you get on each plan—they just say Pro is '50x more' and Max is '5x more than Pro.' But 50x of what? No idea. So I ran a session on the free tier and watched my usage dashboard."

实测观察

该用户在一次 Free 层会话中观察到:

"2M tokens consumed = 100% of my 5h session quota and 40% of my weekly quota."

由此推算:

  • Free 层 5 小时 Session 配额200 万 tokens 当量
  • Free 层 Weekly 配额 ≈ 200 万 ÷ 0.4 = 500 万 tokens 当量

应用官方倍数(Pro 50x,Max 5x Pro):

方案 估算 5h Session 配额 估算 Weekly 配额
Free ~200 万 tokens ~500 万 tokens
Pro ~1 亿 tokens ~2.5 亿 tokens
Max ~5 亿 tokens ~12.5 亿 tokens

重要局限性与免责声明

引用该用户明确列出的警告:

"Now, big disclaimers: This is based on MY usage with ONE model in ONE session. I have no idea if those numbers scale linearly or if different models have different 'costs' per token. Bigger models definitely burn GPU time faster than smaller ones."

关键不确定性

  1. 模型差异巨大:同一 Token 数,使用 70B 模型可能比 7B 模型消耗多 10 倍 GPU 时间
  2. 测试样本单一:基于单次会话、单一模型的观测
  3. 动态调整:官方可能在后台调整配额而不提前通知
  4. 并发开销:同时运行多个模型时,即使不活跃也可能占用 GPU 内存

四、并发限制与请求队列

除了用量限制,Ollama Cloud 还对同时运行的云端模型数设置了硬性上限:

方案 并发模型数 超限行为
Free 1 请求进入队列,队列满则拒绝
Pro 3 请求进入队列,队列满则拒绝
Max 10 请求进入队列,队列满则拒绝

队列机制说明

根据官方文档:

"Requests beyond your plan's concurrency limit are queued and processed as soon as a slot is available. Queued requests are held up to a fixed limit — if the queue is full, the request will be rejected until one of your concurrency slots opens."

这意味着:

  • 即使使用同一模型,并发请求也会占用独立 slot
  • Pro 用户同时发起 4 个请求时,第 4 个会进入队列等待
  • 队列深度有限,严重超载时直接报错

五、可用模型与功能特性

云端模型清单

Ollama Cloud 支持的主流开源模型包括:

  • Qwen 系列:qwen3.5(多尺寸)、qwen3-coder-next(代码专用)
  • Google:gemma4(多模态)
  • Z.ai:glm-5、glm-5.1(大参数 MoE 架构)
  • MiniMax:minimax-m2.7、ministral-3
  • Mistral:devstral-small-2
  • NVIDIA:nemotron-3-super

完整列表可在 Ollama Cloud 模型库 查看。

功能支持

  • Tool Calling:支持工具的模型在上架前会经过真实 Agent 工作流测试
  • 权重格式:使用模型提供方发布的原生权重;在现代 NVIDIA 硬件上可能启用 Blackwell / Vera Rubin 架构的加速格式(如 NVFP4)
  • 隐私保护:Prompt 和 Response 数据永不记录、不用于训练

六、适用场景评估

适合使用的场景

方案 最佳匹配场景
Free 轻度个人使用:模型体验、小模型编码辅助、概念验证
Pro 日常工作流:较大模型调用、代码自动化、深度研究
Max 高强度持续负载:长时间 Agent 任务、多模型并发协作

不太适合的场景

  1. 超高并发生产服务:Max 仅支持 10 并发模型,超出后需排队;不适合大规模对外 API 服务
  2. 无限量云端调用:即使 Max 也有周期上限,目前不支持单独加购额度
  3. 严格数据不出境:流量可能路由至欧洲和新加坡,对「数据绝对不出境」有硬性要求的企业需审慎
  4. 需要明确 SLA:官方未公布服务等级协议(SLA)或专属企业支持通道
  5. 超大模型独占算力:未提供「独占 GPU / 专用实例」级别套餐

七、社区反馈摘要

正面评价

"I got the pro plan in order to use kimi k2.5 inside openclaw. I never reached the 5 hours session limit and never hit the weekly limit either."

— Reddit 用户(使用 Pro 配合 Kimi k2.5 进行编码工作)
"I've found I get like 5-10x more usage for my $20, but at the expense of models that are a bit less intelligent with code."

— Reddit 用户(对比 Token 计费服务)

负面反馈

"tbh i tried ollama cloud pro with kimi k2.5, minimax m2.7 and glm5 and none of them felt solid for complex backend stuff. fine for simple..."

— Reddit 用户(关于代码能力评价)

动态调整担忧

有 Reddit 帖子《Ollama Cloud: Usage limit reduction in past 24 hours》提到:

"We are writing to bring to your attention several observations regarding recent fluctuations in our usage limitations."

这表明配额可能动态调整,建议用户定期查看 usage dashboard。


八、如何查看实时用量

用户可在 ollama.com/settings 页面查看:

  • Session usage: 百分比,每 5 小时重置
  • Weekly usage: 百分比,每 7 天重置
  • 重置倒计时

当用量达到 90% 时,系统会发送邮件提醒(可在设置中关闭)。


九、总结与决策参考

评估维度 Free Pro Max
价格 $0 $20/月 $100/月
5h Session 配额 ~200万 tokens 当量 ~1亿 tokens 当量 ~5亿 tokens 当量
Weekly 配额 ~500万 tokens 当量 ~2.5亿 tokens 当量 ~12.5亿 tokens 当量
并发模型数 1 3 10
适合用户 体验/轻量使用 日常开发/研究 重度 Agent/多模型协作

关键决策建议

  • 如果你主要使用 7B 级别小模型,Pro 的性价比可能接近社区估算值
  • 如果你依赖 70B+ 大模型,实际可用 Token 会大幅缩水,Max 可能是唯一选择
  • 对于需要严格 SLA、数据本地化或高并发对外服务的场景,建议对比 AWS Bedrock、Azure OpenAI 等企业级方案

十、信息来源与免责声明

官方信息来源

社区信息来源

免责声明

本文内容基于以下材料整理:

  1. 官方公开文档:截至检索日期的最新官方定价和 FAQ 页面
  2. 社区用户实测:Reddit 等平台的用户经验分享,未经官方验证
  3. 推算数据:基于单一用户的单次测试,不具备统计学意义上的普适性

重要提示

  • Ollama Cloud 的用量配额可能动态调整,官方可能在不提前通知的情况下变更限制
  • Token 当量换算仅供参考,实际用量因模型大小、请求模式、缓存命中率等因素差异巨大
  • 本文不构成购买建议,具体套餐选择请结合自身使用场景和预算评估
  • 建议在购买前通过 Free 层进行充分测试,观察实际用量消耗速度

本文最后更新:2025 年 4 月。由于 Ollama Cloud 服务可能持续迭代,建议读者在决策前查阅官方最新文档。