阅读时间 7 分钟

Craft Agents 调研:一个文档原生的开源 Agent 桌面应用

Craft Agents 是由 Craft.do(Lukilabs)团队开发并开源的一款桌面应用,定位为"Agent-Native Software",从零为 AI Agent 的工作方式设计界面,而非给现有工具附加 AI 能力。该项目于 2026 年初发布,采用 Apache 2.0 协议开源,截至 2026 年 4 月底在 GitHub 已获得 5,300 余星标。

Craft Agent 程序界面

核心定位:文档原生,而非终端或 IDE

当前主流的 Agent 工具大致分为两类:终端原生的 CLI 工具(如 Claude Code)和 IDE 集成方案(如 Cursor)。Craft Agents 选择了一条不同的路径,以文档为中心的独立桌面应用。

Craft.do 团队在其官方博客中写道,他们开发这款产品的动机是"想要一种更好、更有主见的方式来与世界上最强大的 Agent 协作"。其界面设计借鉴了邮件客户端和任务管理器的交互逻辑:会话以文档形式呈现,支持自定义状态流(Todo → In Progress → Needs Review → Done),并允许用户在多个任务间切换而不丢失上下文。

这种设计选择意味着 Craft Agents 的目标用户不限于开发者。产品经理、运营人员、设计师等非技术角色也能通过自然语言与 Agent 交互,无需学习终端命令或理解 IDE 的工作流。

自然语言配置:消除集成 friction

Craft Agents 最具辨识度的特性是其数据源配置方式。用户只需用自然语言描述需求,Agent 便会自动完成后续步骤。

以连接 Linear 为例,用户输入"把 Linear 加为数据源"后,Agent 会自动查找 Linear 的公开 API 和 MCP 服务器,读取相关文档,获取凭证并完成配置。这一过程无需手动编辑配置文件或处理 OAuth 授权流程。

该机制支持多种接入方式:

  • MCP Server:粘贴现有 MCP 配置 JSON,Agent 自动处理
  • 本地 MCP:支持基于 stdio 的子进程,包括 npx、Python 脚本和任意本地二进制文件
  • REST API:粘贴 OpenAPI 规范、端点 URL,甚至文档截图,Agent 自行解析
  • 无 API 场景:内置 Chromium 浏览器可直接登录网站并操作

Craft.do 团队在其博客中提供了一个具体案例:"我们甚至把它接入了位于跳板机后的私有 PostgreSQL 数据库。"

模型路由:双后端架构支持 400+ 模型

Craft Agents 的模型支持通过统一路由层实现,采用双后端架构:

  • Claude Agent SDK:处理 Anthropic 系列模型,支持自定义 base URL
  • Pi SDK:处理 Google AI(Gemini)、OpenAI(Codex)、GitHub Copilot 等

直接支持的提供商包括 Anthropic、OpenAI、Google AI Studio、GitHub Copilot。通过第三方网关和自定义端点,可扩展至 OpenRouter、Vercel AI Gateway、Ollama、LM Studio、DeepSeek 等,总计覆盖 400 余个模型。用户可在不同工作区设置不同的默认模型,也可在同一会话中切换模型而保持工作流不变。

值得注意的是,v0.8.10 版本新增了消息网关功能,支持 Telegram 和 WhatsApp 集成,提供三种响应模式(progress、streaming、final_only)。v0.8.12 则将 DeepSeek 作为 Pi 后端提供商原生支持,并默认采用 GPT-5.5。

三种执行模式与权限控制

Craft Agents 提供三种执行模式,通过 Shift+Tab 快速切换:

模式 行为 适用场景
Explore 只读,Agent 仅调研分析 安全探索、信息收集
Ask to Edit 每个动作需用户确认 建立信任、敏感操作
Execute 完全自主执行 成熟可信的工作流

每种模式对应不同的权限级别,用户可按需选择。此外,每个数据源可独立设置 read / write / execute 权限,实现细粒度的访问控制。

技能系统与 Claude Code 迁移

Craft Agents 内置技能(Skills)系统,允许用户定义可复用的 Agent 指令模板。创建方式同样采用自然语言:描述技能应该做什么,Agent 自动实现。使用时通过 @技能名 唤起,无需重启应用。

对于已有 Claude Code 使用经验的用户,Craft Agents 支持直接导入 Claude Code 的 Skills。这一设计降低了迁移成本,也反映了 Craft.do 团队对现有生态的兼容态度。

自举开发:用 Craft Agents 开发 Craft Agents

Craft.do 团队声称,他们"完全用 Craft Agents 开发 Craft Agents,不用任何代码编辑器"。这一声明在开源社区引发了讨论。如果属实,意味着该工具已具备支撑完整软件开发生命周期的能力;同时也意味着其当前能力上限受限于 Agent 自身水平。

该项目采用 TypeScript(90.4%)构建,基于 Electron 框架。安装支持一键脚本(macOS/Linux 通过 curl,Windows 通过 PowerShell),也可从源码构建。

与主流工具的对比

维度 Craft Agents Claude Code Cursor
形态 独立桌面应用 CLI / VS Code 扩展 VS Code Fork
界面哲学 文档为中心 终端/代码为中心 IDE 为中心
模型灵活性 400+ 模型,随时切换 仅限 Anthropic 多模型但受 IDE 限制
配置方式 自然语言 配置文件/命令 设置面板
多任务 原生收件箱 单会话 单会话为主
开源协议 Apache 2.0 闭源 闭源
非开发者友好

从对比可以看出,Craft Agents 的核心差异化在于"降低使用门槛"和"跨工具协调"。它更适合需要同时操作多个 SaaS 工具、频繁切换模型的场景,而非深度编码工作流。

潜在关注点

作为一款新兴工具,Craft Agents 也面临一些需要观察的方面:

生态成熟度。相比 Claude Code(Anthropic 官方背书)和 Cursor(大量用户基础),Craft Agents 的社区规模和第三方插件生态尚在早期阶段。

非代码场景的侧重。对于纯编码密集型任务(大型重构、复杂调试),IDE 集成度可能不如 Cursor 深入。其优势更多体现在跨工具协调和非技术用户场景。

Electron 性能。桌面应用基于 Electron 框架,长期大规模使用下的性能表现有待验证。

自举声明的可验证性。团队声称完全用自身工具开发,这一说法既是产品能力的证明,也可能意味着某些底层功能受限于当前 Agent 的能力边界。

适用场景评估

场景 适合度
跨工具协调(Linear + GitHub + Slack + Notion)
非开发者使用 Agent(产品经理、运营、设计师)
需要频繁切换模型的研究/实验
本地/离线模型运行
纯编码密集型开发
需要深度 IDE 集成的开发

信息来源

本文基于 Craft Agents 官方文档、GitHub 仓库公开信息及第三方技术评测整理。产品功能可能随版本更新发生变化。