Agent 基础设施 2026:在繁荣与泡沫之间,找到该买、该等、该自建的边界
AI agent 基础设施跑马圈地最热的一年,也是数据最矛盾的一年。Cursor 估值 $60B,Devin 真实成功率却只有 15-67%。从 harness engineering 视角,给你一张能拿来做决策的地图。
这是 AI agent 基础设施跑马圈地最热的一年,也是数据最矛盾的一年。Cursor 估值 $60B,Devin 真实成功率却只有 15-67%。这两个数字怎么并存?答案不在模型里,在 harness engineering 这门 2026 年才正式成型的新学科里。本文从这个反差讲起,给你一张能拿来做决策的地图。
一、从两组反向数据说起
2026 年 4 月的 AI agent 市场充满了同时存在但方向相反的信号:
繁荣这边——Cursor 在 2026 年 2 月达到 $2B ARR,预计年底跨过 $6B[D7];SpaceX 4 月 21 日宣布以 $60B 收购 Anysphere(Cursor 母公司),约 30 倍营收[D2];Cognition(Devin 母公司)从 $1M ARR 增长到 $73M 仅用 9 个月[D1]。
泡沫这边——Devin 在 SWE-bench 上的实际任务成功率只有 15-67%,好场景 67%、差场景仅 15%[D6];Cognition 在谈 $25B 估值对应 $100M+ ARR,估值/营收倍数 250 倍[D2][D3];Gartner 预测 78% 的 agent 试点项目无法进入生产环境[F1]。
繁荣是真的,泡沫也是真的——这两个看起来矛盾的事实怎么并存?
答案藏在一个 2026 年才正式成型的新学科里:harness engineering[C4][C5]。要理解 agent 基础设施今天的图景、估值的逻辑、以及该买什么该自建什么,必须先理解为什么”harness 才是产品”。
二、为什么 harness engineering 是答案
2.1 论点:不是模型问题,是模型周围的工程问题
2025 年 11 月,Anthropic 发布了一篇 engineering 博客 “Effective harnesses for long-running agents”[A1]。2026 年 3 月又发了第二篇 “Harness design for long-running application development”[A2]。这两篇连起来推出一个结论:
让 agent 跑数小时还能保持稳定的关键,不是发布更聪明的模型,而是模型周围更聪明的环境。
这个论点听起来像 Anthropic 自卖自夸,但 2026 年 Q1 三组独立的基准数据把它变成了行业共识:
论据一:极端案例——Nate B. Jones 团队的客户问要不要把 Claude Sonnet 升级到 Opus 来修复 agent 的 34% 任务完成率。团队没换模型,只重建了 scaffolding(更好的工具编排、更聪明的错误恢复、每步上下文压缩),完成率从 34% 跳到 71%。Jones 还记录了从 42% 到 78% 的极端案例——同模型,36 个百分点差距[B1]。
论据二:标准化对照实验——Scale AI 的 SEAL leaderboard 强制所有模型走相同 scaffolding、相同 250 turn 限制。结果是前沿 6 个模型分数相互之间只差 0.8 个百分点,最好和最差的差 1.3 点——这是噪声不是信号[B2]。Auggie 在自己的 harness 下比 SEAL 标准 harness 多解 17 道题(731 道里),9.5 个百分点的差距全部来自 scaffolding[B1]。
论据三:独立第三方验证——Blitzy 用 GPT-5.4 跑 SWE-Bench Pro 拿到 66.5%,比 GPT-5.4 自己(57.7%)高 8.8 个点[B4]。Anthropic 自己声称 custom harness 带来 10 个百分点准确度提升[B5]。Cursor 内部研究测出 11% 的 harness 增益[B6]。SWE-Bench Pro 上 scaffolding 造成 22+ 点摆动,模型升级在前沿只能拿约 1 点[B3]。
业界 2026 年 3 月以后的共识三句话归纳:
Model 是天花板,harness 是梯子。
同一个模型,不同 harness 可以差出一个产品好用 vs 不好用的距离。
模型升级带来的边际收益已经接近零,在 harness 上下功夫的回报远高于等下一代模型。
2.2 规模化验证:OpenAI 的百万行代码
如果说 SWE-Bench 是实验室证据,OpenAI 给出了规模化的产业证据。
Codex 团队用自己的 harness 跑 agent,构建了一个 100 万行生产代码的应用——没有一行由人工编写。三人小队日均合并 3.5 个 PR,团队扩到 7 人后吞吐量反而上升[C5]。他们的 harness 包括:
- AGENTS.md 文件作为 agent 的机器可读指令
- 可重现的 dev 环境(一键启动、per-worktree 隔离)
- CI 中的机械不变量(架构边界、格式规则、数据验证)
吞吐量随团队扩大而上升的现象关键——说明更好的 harness 设计放大了每个工程师的价值。这跟传统软件工程”团队扩大边际产出递减”完全相反,这才是真正的范式转移信号。
Viv Trivedy 给这门学科起了名字:harness engineering[C4]。Anthropic、OpenAI、Google、Microsoft 全部公开同意 harness 是产品——他们的分歧只在怎么收钱[C2]。
公式简单到一句话:
Agent = Model + Harness。如果你不是 model,你就是 harness。[C4]
三、四个痛点的三段递进:能用 → 好用 → 敢用
理解了 harness 是关键,下一个问题是——harness 到底要解决什么?
把 Anthropic 两篇论文的发现和行业实践归纳起来,agent 长跑的痛点收敛到四个。但这四个痛点不是同等重要、也不是平铺关系——它们是用户决策路径上的三道关卡,每一关过不去,下一关再优秀也用不上:
关卡 1:能不能用?
这一关回答的是”agent 跑不跑得到任务结束”。卡在这里的产品根本上不了台面。两个痛点同属这一关:
① 上下文焦虑(context anxiety)[A2]——模型感知到上下文窗口快满,提前结束任务、草草交差。Anthropic 发现 Sonnet 4.5 有这个行为,给到 Opus 4.5 自动消失。
② 长跑失稳(incoherence over time)[A2]——agent 跑几个小时后偏离原目标、忘掉早先约束、陷入”修一个 bug 引入两个新 bug”的循环。这是 3 月 24 日那篇 harness 论文的核心问题。
这两个痛点不解决,agent 根本跑不到完整任务结束——所有自主 agent 产品都必须先回答这一关。Devin 估值 $25B 赌的本质就是这一关有没有可能在未来 12-18 个月被攻破。
关卡 2:好不好用?
过了关卡 1 是技术上能跑,但能跑 ≠ 跑得好。这一关回答的是”产出靠不靠谱”:
③ 自评偏正(self-evaluation bias)[C3]——让 agent 给自己打分,它倾向说”做完了""挺好的”——但其实没做完。Anthropic 3 月发布的三 agent harness 直接给出解法:generator 和 evaluator 必须是不同的 agent。这是 prose 版本的 GAN——生成的人和打分的人要分开。
这一关不解决能跑,但跑不出好结果。Devin 的 15-67% 成功率,相当一部分卡在这一关——任务跑完了,但产出质量不稳定,工程师还得花时间检查。
关卡 3:要不要用?
过了关卡 1+2 技术上能跑、跑得不错,但能跑得好 ≠ 敢部署。这一关回答的是”企业敢不敢真把它接入生产环境”:
④ 工具误用 / 凭据泄漏[F4]——agent 拿到生产凭据后,prompt 注入能让它把数据库导出到外部。OWASP 2026 年发布了 Top 10 for Agentic Apps,把这类攻击列为最高优先级威胁。
这一关不解决能跑、能出活,但企业不敢部署。Gartner 那个”78% 试点失败率”的数字里,有相当大比例是因为这一关没过——工程团队做出了 demo,但安全合规审查没批。
这三道关卡怎么用
拿这三道关卡去看任何 agent 产品都有一把标尺:
- 它能过几关?(能不能用 / 好不好用 / 要不要用)
- 它故意不过哪一关?(产品取舍)
- 它的目标用户为什么愿意接受这种取舍?
下一节就用这把尺子看四种代表性产品。有意思的是,没有任何一个产品三关全过——每个产品都在故意放弃某一关,换来另一关上的极致。
四、四种产品的”放弃哲学”
讲产品差异最容易的方式是讲”它做了什么”——但这种讲法记不住。更有效的角度是讲它故意不做什么。每个成功产品的背后都是一个清晰的取舍判断:放弃 A 换 B。
4.1 Claude Managed Agents:放弃跨厂商兼容性,换结构性安全
它选择放弃:跨厂商兼容性。Managed Agents 是 Claude-only 基础设施,没有路径让其他模型走这个 harness[A3][F5]。如果你建生产工作流后想要模型灵活性,迁移意味着重建编排层。
它换来什么:结构性安全 + 接口稳定。Anthropic 把 agent 抽象成四件套:Brain(Claude 模型)、Harness(无状态编排循环)、Hands(执行环境,统一通过 execute(name, input) → string 调用)、Session(append-only 事件日志)[A3]。这个抽象的厉害之处是借用了 OS 的设计哲学——read() 不管底下是 1970 年代的磁盘还是现代 SSD 都能用,接口比硬件活得久。
体检表:①②④ 解决得好,③ 还在 research preview。上下文焦虑通过 session 外置 + getEvents() 切片解决;长跑失稳通过 stateless harness + init/coding 分阶段解决;凭据问题通过 vault + proxy 让凭据从不进 sandbox[A3]——这是 SaaS 才能做到的结构性安全。多 agent 协作和自评偏正还在 preview 阶段。
赌注:harness 是有壁垒的资产,值得收 $0.08/会话小时的运行时费用[C2]。这个赌注下面会单独分析。
4.2 wanman:放弃服务端持久化,换数据主权和零运维
它选择放弃:跨设备访问、24/7 托管运行、企业级 SLA。wanman 是个本地 supervisor,跑你笔电上一个 git 仓库[E2]。
它换来什么:完整的数据主权 + 零运维成本 + 跨模型支持。所有状态写在 .wanman/wanman.db(SQLite 单文件),停掉 wanman 直接 rm -rf .wanman 就重置;CLI agent 用你本地的 Claude Code OAuth token,凭据从不离开你的机器;supervisor 编排现成 CLI(Claude Code、Codex),可以混用模型[E2]。
最关键的设计是 steer / follow-up 双消息通道——wanman send ceo "..." 是 follow-up 队列等空闲投递;wanman send ceo --steer "..." 是直接打断 stdin。这个语义对人类和对 agent 都一样——CEO agent 也能用 steer 管 dev[E2]。
体检表:②③④ 解决得好。长跑失稳通过角色分工(CEO/dev/reviewer)和 cross-validation skill 解决;自评偏正通过 CEO 检查 dev 产出解决;隔离通过 git worktree + 独立 $HOME 解决。① 上下文焦虑不是它的核心议题——因为 agent on-demand 起、干完即销毁,单个 agent 不会跑太久。
赌注:未来会出现”标准化红利”,类似 GitLab 之于 GitHub——开源 + 自托管会跟商业 SaaS 长期共存。
4.3 Hermes Agent:放弃多 agent 协作,换单 agent 自我进化
它选择放弃:多 agent 真协作。今天 Hermes 是一个 agent,可以通过 delegate_task 派生用完即弃的子 agent。这些子 agent 单独工作、不能互相对话、不能共享状态、只把摘要返回父 agent[E3]。Issue #344 是社区在筹划真正的多 agent 升级,目前还没落地。
它换来什么:跨会话进化能力。使用 DSPy 和 Genetic Evolution of Prompt Architectures(GEPA)做演化式自我改进,agent 在使用中自动创建 skill、修改自己的 prompt[E3]。这是 Hermes 区别于其他工具最显眼的特征——它不只是用 LLM,是在用 LLM 优化自己。
体检表:① 解决得很好(ContextCompressor 监控 token 使用率,达到 50% 自动压缩;FTS5 全文回忆 + LLM 摘要做跨会话回忆)。其他三层都不是核心议题。
赌注:未来 agent 的核心竞争力是”用得越久越懂你”——而不是”会协作”。如果这个判断对,Hermes 会成为个人 agent 的事实标准。
4.4 OpenClaw:放弃工程协作场景,换 25+ IM 渠道覆盖
它选择放弃:长跑、多 agent 协作、企业级合规。OpenClaw 不针对工程场景[E4]。
它换来什么:无处不在的触达。支持 WhatsApp、Telegram、Slack、Discord、iMessage、微信、QQ 等 25+ 通讯渠道,加上 macOS 菜单栏、iOS/Android 桌面端、语音唤醒[E4]。它在卖”个人助理无缝融入用户已有通讯习惯”——你在哪个 IM 上活跃,它就在哪儿。
它的”多 agent”是路由型的——按渠道路由到独立 agent,比如老板从 Slack 来用工作 agent,老婆从 WhatsApp 来用家庭 agent。和 wanman 的”几个 agent 共同完成一个项目”是完全不同的概念:
OpenClaw 的代码量惊人——TypeScript 36 万行,是 wanman 的几十倍[E4]。这反映了它的产品复杂度:每个聊天渠道都是单独工程,加上语音、Live Canvas、浏览器自动化、插件市场。
体检表:四层都不是它的核心议题——它解决的是另一个问题(如何让 AI 助理无缝融入用户已有的通讯习惯)。
赌注:消费级 AI 助理的入口在 IM,不在新建独立 app。如果这个判断对,OpenClaw 是分发渠道的赢家。
4.5 一个关键观察:放弃才是产品哲学
回过头看四个产品,它们的差异不是功能多少,而是取舍方向:
- Managed Agents 放弃跨厂商,押接口长寿
- wanman 放弃托管,押数据主权
- Hermes 放弃协作,押个人进化
- OpenClaw 放弃工程场景,押消费触达
每个赌注都是合理的——它们对应不同的用户、不同的市场、不同的时间窗口。理解了这一点,下面的横向对比和商业化分析就立体了。
五、另一条路线:打包 agent 赛道
到这里你可能注意到一件事——上面四个产品都是**“卖给开发者的工具”**,需要你写代码、调配置、自己拼装。但同时还有另一类完全不同的玩家——它们不卖工具,直接卖一个能用的 agent 产品。
这是 2026 年市场上同样热闹的另一条赛道:
按目标用户分四档:
5.1 通用消费级 agent:“输入一句话,等几分钟拿结果”
代表玩家:Manus、ChatGPT Agent、Google Project Mariner、Anthropic Computer Use、Microsoft Copilot Actions。
Manus 是这条赛道最具标志性的产品。每个 session 一台独立云 VM(用 E2B Firecracker microVM[G5]),三个协作 agent(planner / executor / verification),通过虚拟浏览器、终端、文件系统完成”我要 PPT”、“我要分析”、“我要订机票”。Manus 自己公开的 context engineering 博客里[C7]讲了大量关键技巧:用文件系统当外部记忆、用 todo.md 文件持续重述目标、用 KV-cache hit rate 当核心指标——这些技巧跟 Anthropic 论文里讲的关卡 1、关卡 2 痛点完全是同一套问题。Meta 在 2025 年 12 月以 $2B+ 收购 Manus[F7]。
ChatGPT Agent 是 OpenAI 把 Operator(浏览器操作)和 Deep Research(深度研究)融合到 ChatGPT 里的统一形态[C8]。给一个云端虚拟电脑,能浏览网页、跑代码、做 PPT。WebArena 基准上达到 SOTA。
Google Project Mariner 是 Google 的对位答案——10 个并发任务,深度融入 Gemini API 和 Vertex AI,靠 Google 自己的搜索和浏览数据建立优势[F8]。
Anthropic Computer Use 让 Claude 直接看屏幕、动鼠标键盘——和 Operator 同一思路但接口更原始(API 而不是终端产品)。Microsoft Copilot Actions 在 Microsoft 365 里跑同样的事,绑定 Office 全家桶。
5.2 业务工作流 agent:处理白领的日常重复
代表玩家:Lindy、Carly、Taskade Genesis。
它们和通用消费级 agent 的关键区别是——长连接到你的业务工具。Lindy 已有 40 万付费用户,从 iMessage 入口管你的邮件、日历、会议[D8]。Carly 给每个 agent 配一个邮箱地址,$35/月固定不按 credit 收费,连接 200+ 业务工具。Taskade Genesis 更接近”团队 workspace”——多个 agent 共享 project memory,已部署 50 万 agent。
这一档 agent 的特点是重复性、可预期、按月订阅——它们在解决”工程师下班后还有 50 封邮件要处理”这种确定性问题,不是开放式探索。
5.3 垂直工程 agent:vibe coding 一句话生成应用
代表玩家:Devin、Lovable、Replit Agent、Bolt、v0。
这一档的产品形态高度相似——输入”我要一个 X 应用”,等几分钟,拿到一个能跑的代码 + 部署 URL。技术分化在哪:
- Devin 押全栈工程任务(修 bug、重构、迁移),$100M+ ARR / $25B 估值
- Lovable 押”非技术创始人快速原型”,2 个月做到 $20M ARR
- Replit Agent 押教育 + 个人开发者,云 IDE 内嵌
- Bolt(StackBlitz)和 v0(Vercel) 押前端代码生成,浏览器里直接跑
它们的共同押注是——“vibe coding”(凭感觉 / 凭描述写代码)会替代相当一部分传统编程,让”会用 Excel”成为新的”会写代码”。
5.4 开源对位:AutoGPT 这一脉
AutoGPT(160k stars)是这条路线的鼻祖——2023 年 4 月发布,第一次公开演示”给 LLM 工具和目标,让它自己迭代”。Manus、Devin、ChatGPT Agent 全部受它启发。AgentGPT、SuperAGI 等是后续仿制版。
但开源对位的可靠性问题至今没解决——任务循环卡死、token 爆炸、需要技术功底——大部分团队验证完原型后会”毕业”到商业版。
5.5 这条路线的哲学分歧
把”打包 agent”路线和前面四个”基础设施”路线放一起对比,能看出一个根本性的市场分化:
简单说:
- 基础设施路线 = “AWS 模式”:卖原料,用户拼装。Anthropic、wanman、Hermes、OpenClaw 走这条。
- 打包 agent 路线 = “Vercel 模式”:卖体验,用户开箱即用。Manus、Devin、Lindy 走这条。
这两条路线会长期共存,就像今天 AWS 和 Vercel 都赚钱——不是替代关系。它们对应的是同一个市场的两种用户:开发者要工具,终端用户要结果。
最有意思的是 Claude Managed Agents——它处于两条路线的交叉点:对开发者它是基础设施 SaaS(API 调用),对企业终端它已经接近”打包 agent”(用 Sonnet 4.5 的 agent 直接帮你做客服、做合规审查)。这种混合定位让它的商业化路径比纯路线玩家更复杂——但也意味着 Anthropic 在押两条路线都能赚到钱。
六、横向对比:四象限里的赌注
把四种产品(加上 IDE 类工具做对比)放到”自主性 × 服务规模”的二维坐标里:
每个象限代表一个赌注——
辅助型 + 团队规模(Cursor / Claude Code / Copilot):赌”高频日常”。瞄准关卡 1(能不能用)的可重复部分(每次 tab 补全、每次小重构),人类全程在场可挽回。优势是付费意愿高、风险可控;劣势是人不能离开,本质上还是辅助工具。
自主型 + 团队规模(Devin / Managed Agents / wanman):赌”自主拐点”。瞄准关卡 2(好不好用,agent 自走数小时也能产出靠谱),目标是工程师下班后还能继续干活。优势是放大效应大;劣势是任务定义不清就跑偏、Devin 实际成功率 15-67%[D6]、Managed Agents 成本不可预测。
辅助型 + 个人规模(OpenClaw):赌”消费级入口”。瞄准”无处不在的助理”的渠道分发逻辑。优势是渠道覆盖深;劣势是工程复杂度极高,商业化路径不清。
自主型 + 个人规模(Hermes Agent):赌”个人化进化”。瞄准”用得越久越懂你”。优势是技术领先(GEPA / 自我改进);劣势是非营利组织背景、无商业化、多 agent 还在路上。
四个象限有个共同的盲区——中间地带(小团队 / 个人开发者既想要协作又想要个人化)今天没有好方案。这块可能是下一个机会窗口。
七、商业化解读:钱跟着痛点走
现在回到开头那个反差——为什么 Cursor 估值 $60B,Devin 估值 $25B 对应只有 $100M+ ARR,开源派几乎没有商业化?
答案在这张因果链图里:
ARR 不是数字本身,是市场对每一类痛点的定价。
7.1 为什么 Cursor 赚钱最多
Cursor 瞄准的是关卡 1 里”被天天验证的部分”——IDE 内每一次 tab 补全都是一次小成功,每一次 Cmd+K 都是一次确定性收益。高频 + 低风险 + 人类全程在场——三个特征组合起来意味着付费意愿极高。
具体数据:2025 年 1 月 $100M ARR,6 月 $500M,11 月跨过 $1B,2026 年 2 月达到 $2B[D7]。SpaceX 在 4 月 21 日宣布以 $60B 收购 Anysphere(Cursor 母公司),约 30 倍营收[D2]。这个倍数在 SaaS 行业不算夸张,反映市场对 Cursor 的判断是稳健成长股。
Claude(Anthropic)的 $2.5B 年化 run rate 同时包含 Claude Code 和 API 收入[D5]。Claude Code 是 Anthropic 自己 dogfooding 的 harness——他们的 harness engineering 论文不是空谈[A2]。
7.2 为什么 Devin 估值溢价这么高
Cognition(Devin 母公司)的故事更激进:从 2024 年 9 月 $1M ARR 增长到 2025 年 6 月 $73M——9 个月 73 倍[D1]。2026 年 4 月在谈 $25B 估值——按 $100M+ ARR 算就是 250 倍营收[D2][D3]。
但 Devin 的产品现实并不像估值光鲜:SWE-bench 实际成功率 15-67%[D6],定价从最初的 $500/月降到 $20 起步 + $2.25/ACU——做了大幅可访问性调整[D4]。Cognition 自己也承认:“把 coding agent 从 impressive demos 变成 reliable engineering infrastructure”——demo 和生产之间还有距离[D3]。
那 250x 估值倍数怎么解释?市场不是给当下的成功率定价,是给”自主 agent 拐点会到来”这件事定价。如果未来 12-18 个月内 Devin 的成功率从 67% 提到 90%,整个关卡 2 市场(数百亿美金规模)就豁然开朗。这是一个赌时间窗口的高方差押注。
7.3 为什么 Anthropic 敢收 $0.08/h,OpenAI 不收
定价模型的分歧本质是两家在赌不同的事[C2]:
- Anthropic Managed Agents:token + 会话小时($0.08/h)混合计费——赌 harness 是有壁垒的资产,用户愿意为 runtime 单独付费
- OpenAI Agents SDK:仅 token + 工具,不收 runtime 费——赌 harness 会商品化,谁先收谁就被绕开
谁对谁错 12 个月内能见分晓。OpenAI 的开源策略本质是赌后者——如果 harness 真的被标准化了,订阅 runtime hour 这种商业模式会被迅速洗掉。Anthropic 的策略是赌”接口比产品长寿,但实现细节有壁垒”——他们押抽象层稳定(Session、getEvents),但每一层的具体实现是 Anthropic 的 know-how。
7.4 为什么开源派暂时没有商业化
wanman、Hermes、OpenClaw 这些项目目前都没有清晰的商业化路径。最常见的玩法是:
- 托管版:wanman.ai 这种把开源版跑在云上的服务
- 企业服务:私有部署 + 支持合同
- 生态收费:marketplace 抽成、premium skill
但目前都还没人验证这条路在 agent 领域走得通[F1]。值得对比的是 GitLab 之于 GitHub 的路径——agent 基础设施很可能复制类似演化,但需要等市场分层完成。开源派现在押的是这个长期红利,不是当下的现金流。
7.5 三组数字背后的市场判断
把这些拼起来看,2026 年 4 月的市场判断是这样的:
| 痛点关卡 | 频率 | 商业化成熟度 | 代表公司估值倍数 |
|---|---|---|---|
| 关卡 1 能不能用(辅助型 IDE) | 高 | 已验证 | 30x ARR(Cursor) |
| 关卡 2 好不好用(自主 agent) | 中 | 早期溢价 | 250x ARR(Devin) |
| 关卡 3 要不要用(合规平台) | 低 | 跑马圈地 | 种子轮(Sycamore $65M) |
| 基础设施(开源协议) | 横切 | 长期对赌 | 难以单独定价 |
这四个层级会一直分化下去——不会有一个公司通吃所有层。这正是为什么”选什么产品”是个时间窗口问题,不是简单的好坏排序。
八、决策建议:现在该买、该等、该自建什么
选型的第一个问题不是”买哪个”,而是走哪条路线。这取决于你想要什么——是给开发者一套工具去建 agent,还是给业务方一个能用的 agent 产品。两条路线分别给建议:
8.1 基础设施路线(“我要建自己的 agent”)
适用:开发者、工程团队、关心可控性和数据主权的场景。
现在就买:Cursor、Claude Code、Copilot、GitHub Copilot Workspace。瞄准关卡 1,IDE 内嵌,$20/月固定订阅,大量已验证用户。避免 credit 制定价的产品——2025-2026 年多次出现超额扣费翻车[D7],Cursor 已经从 credit 切到 quota 但仍建议设消费上限。
谨慎试用:Claude Managed Agents、OpenAI Agents SDK、Mastra。瞄准关卡 2 长跑,但成功率仍在波动、定价模型未稳定。注意 Managed Agents 的 runtime hour 累积成本——10000 个工单的工作流,一小时会话可能花 $37[F5]。
建议等:Sycamore、早期企业 agent 平台、Self-improving、Multi-agent preview。还在跑马圈地或研究预览阶段。可以做 PoC,但不要把核心业务流程绑上去——预期 6-12 个月内会有更明确的赢家。
自建:wanman + Sandbank、OpenHarness、自托管 LangGraph + LangSmith。只有以下任一情况才走这条路:
- 凭据不能出本地(金融、医疗、政府)
- 多模型混用(不想绑死 Claude 或 GPT)
- 数据主权要求(GDPR、行业合规)
- 押开源标准化红利(不想被 vendor 锁定)
代价是运维成本自担——supervisor 挂了自己排查,没 24/7 oncall。
8.2 打包 agent 路线(“我要这件事被完成”)
适用:终端用户、业务团队、不想写代码、按结果付费的场景。
现在就买:ChatGPT Agent、Lindy、Carly、Lovable、Bolt、v0。这一档已有大量付费用户验证——Lindy 40 万付费、Lovable 2 个月做到 $20M ARR、ChatGPT Agent 融合到主 ChatGPT。业务工作流自动化、$20-50/月固定订阅、连接现有业务工具——风险可控,可直接用于生产。
谨慎试用:Manus、Devin、Project Mariner、Replit Agent、Computer Use。这些是”通用消费级 + 自主工程”的代表,实际成功率在 15-67% 之间波动[D6]。建议:
- 选边界清晰的任务(一次性研究、PPT 生成、bug fix)
- 别绑生产流程
- 注意 Manus 是 credit 制(复杂任务一次能用 500-900 credit),成本不可预期
建议等:Microsoft Copilot Actions、Anthropic Computer Use(早期形态)。企业 SKU 仍在配置、数据 / 合规边界未清。观察大厂入场后的整合方向。
备选:AutoGPT、AgentGPT、商业 agent 的开源仿制版。免费但可靠性差,适合学习和原型,生产场景仍建议商业版。
8.3 混合策略:两条路线一起用
实际操作中,很多团队两条路线都会用——这不矛盾:
- 开发者用 Cursor / Claude Code 写代码(基础设施路线)
- 同一团队用 ChatGPT Agent 做调研、Lovable 做内部小工具原型(打包 agent 路线)
- 核心业务流程用 wanman + Sandbank 自建(基础设施路线)
- 边缘场景如客服自动化用 Lindy 订阅(打包 agent 路线)
别陷入”必须选一边”的伪命题——这两条路线在产品组合里互补,不是替代。
九、未来 12 个月:值得关注的三件事
把所有线索收束起来,未来一年内最值得跟踪三件事:
1. Devin 的成功率拐点——从 15-67% 区间能不能稳定到 80%+。这件事见分晓的方式是 SWE-Bench Pro 上面 250x 估值的现实化检验。如果拐点到了,整个自主型 agent 类目重新估值;如果没到,Devin 的估值会面临回调压力。
2. Anthropic vs OpenAI 的定价博弈结局——12 个月内能看到 $0.08/h runtime 费这个模式是否成立。如果用户接受了,Anthropic 的赌注成立,harness 是有壁垒的资产;如果用户用脚投票去 OpenAI 的开源 SDK,runtime 费会被迅速洗掉。
3. Agent Client Protocol(ACP)和 A2A Protocol 的标准化进展——这是开源派的”对赌窗口”。如果协议标准化成功(类似 MCP),开源 + 自托管会跟商业 SaaS 长期共存;如果没成功,开源派会被边缘化。
十、结语:抽象层比产品活得久
如果你只能从这篇文章带走一个判断:
Agent 基础设施正在经历它的”OS 时刻”——和操作系统当年虚拟化硬件、把 read() 这种接口稳定下来是同一种工程。
底层在收敛(MCP、JSON-RPC、append-only event log),中层在战斗(harness 的五大厂打四种主张),上层在分化(个人 vs 团队是两个市场)。短期内你需要根据具体需求选一套,长期看接口比产品活得久。
read() 之所以能活几十年,是因为它把”从某个东西读字节”这件事抽象到了刚刚好的层级。Agent 基础设施正在找它自己的 read()——可能是 getEvents(),可能是 execute(name, input) → string,也可能都不是。但这层抽象一定会比今天任何一个具体产品都活得久。
Cursor $60B 的估值、Devin 的 250 倍营收倍数、Anthropic 的 $0.08/h 押注、wanman 的开源对赌——每一个都是某种意义上的赌注。值得关注的不是哪个项目会赢,而是这层抽象的接口稳不稳定。等抽象稳定下来,今天的所有产品都会被替换,但写在它们之上的应用会一直留下。
附录:引用来源
Anthropic 官方
- [A1] Anthropic Engineering, “Effective harnesses for long-running agents”, 2025-11
- [A2] Anthropic Engineering, “Harness design for long-running application development”, 2026-03-24. https://www.anthropic.com/engineering/harness-design-long-running-apps
- [A3] Anthropic Engineering, “Scaling Managed Agents: Decoupling the brain from the hands”, 2026-04-08. https://www.anthropic.com/engineering/managed-agents
- [A4] Claude Managed Agents Documentation. https://platform.claude.com/docs/en/managed-agents/overview
SWE-Bench / 基准数据
- [B1] Particula, “Agent Scaffolding Beats Model Upgrades: 42% to 78% on SWE-Bench”, 2026-03-25. https://particula.tech/blog/agent-scaffolding-beats-model-upgrades-swe-bench
- [B2] Morphllm, “SWE-Bench Pro Leaderboard (2026): Why 46% Beats 81%”, 2026-03-01. https://www.morphllm.com/swe-bench-pro
- [B3] BSwen, “What Does SWE-bench Pro Reveal About Agent Scaffold Performance?”, 2026-04-20. https://docs.bswen.com/blog/2026-04-20-swe-bench-pro-agent-scaffold/
- [B4] Quesma, “Compare harnesses not models: Blitzy vs GPT-5.4 on SWE-Bench Pro”, 2026-04. https://quesma.com/blog/verifying-blitzy-swe-bench-pro/
- [B5] Vals.ai SWE-bench commentary. https://www.vals.ai/benchmarks/swebench
- [B6] Build MVP Fast, “Cursor IDE Harness Boosted Model Performance 11%”, 2026-03-28. https://www.buildmvpfast.com/blog/cursor-ide-harness-benchmark-model-performance-2026
行业方案与媒体报道
- [C1] OpenAI Codex 团队 100 万行代码案例(多源报道)
- [C2] The New Stack, “Anthropic, OpenAI, Google, and Microsoft agree that the harness is the product. They disagree on the price.”, 2026-04. https://thenewstack.io/ai-agent-harness-pricing-split/
- [C3] InfoQ, “Anthropic Designs Three-Agent Harness Supports Long-Running Full-Stack AI Development”, 2026-04. https://www.infoq.com/news/2026/04/anthropic-three-agent-harness-ai/
- [C4] Addy Osmani, “Agent Harness Engineering”. https://addyosmani.com/blog/agent-harness-engineering/
- [C5] NxCode, “What Is Harness Engineering? Complete Guide for AI Agent Development (2026)”, 2026-03. https://www.nxcode.io/resources/news/what-is-harness-engineering-complete-guide-2026
- [C6] awesome-harness-engineering. https://github.com/ai-boost/awesome-harness-engineering
- [C7] Yichao ‘Peak’ Ji (Manus), “Context Engineering for AI Agents: Lessons from Building Manus”, 2025-07. https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
- [C8] OpenAI, “Introducing ChatGPT agent: bridging research and action”, 2025-07. https://openai.com/index/introducing-chatgpt-agent/
商业化数据
- [D1] Sacra, “Cognition revenue, valuation & funding”. https://sacra.com/c/cognition/
- [D2] Dealroom, “Cognition AI in talks at $25B as AI coding race intensifies after SpaceX-Cursor deal”, 2026-04. https://app.dealroom.co/news/note/cognition-ai-in-talks-at-25b-as-ai-coding-race-intensifies-after-spacex-cursor-deal
- [D3] Remio, “Cognition AI Built a Coding Agent With a 15% Success Rate. Now It Is Worth $25 Billion.”, 2026-04. https://www.remio.ai/post/cognition-ai-built-a-coding-agent-with-a-15-success-rate-now-it-is-worth-25-billion
- [D4] Contrary Research, “Cognition Business Breakdown”. https://research.contrary.com/company/cognition
- [D5] MightyBot, “Best AI Coding Agents in 2026, Ranked”, 2026-04. https://mightybot.ai/blog/coding-ai-agents-for-accelerating-engineering-workflows/
- [D6] Codegen, “Best AI Coding Agents in 2026: Ranked and Compared”, 2026-04. https://codegen.com/blog/best-ai-coding-agents/
- [D7] ShareUhack, “Cursor vs Claude Code vs Windsurf 2026: Pricing, Benchmarks”, 2026-04. https://www.shareuhack.com/en/posts/cursor-vs-claude-code-vs-windsurf-2026
- [D8] Lindy 公司公开信息(40 万付费用户、SOC 2 + HIPAA 合规、$50/月)· Carly 公司公开定价 · Lovable 公开 ARR 数据
开源项目
- [E1] chekusu/sandbank. https://github.com/chekusu/sandbank
- [E2] chekusu/wanman. https://github.com/chekusu/wanman
- [E3] NousResearch/hermes-agent. https://github.com/NousResearch/hermes-agent
- [E4] openclaw/openclaw. https://github.com/openclaw/openclaw
- [E5] HKUDS/OpenHarness. https://github.com/HKUDS/OpenHarness
行业分析
- [F1] Kai Waehner, “Enterprise Agentic AI Landscape 2026: Trust, Flexibility, and Vendor Lock-in”, 2026-04. https://www.kai-waehner.de/blog/2026/04/06/enterprise-agentic-ai-landscape-2026-trust-flexibility-and-vendor-lock-in/
- [F2] Earlperry (Medium), “How Every Major Tech Company Is Sandboxing AI Agents Differently”, 2026-03
- [F3] SoftwareSeni, “AI Agents in Production: The Sandboxing Problem No One Has Solved”, 2026-01. https://www.softwareseni.com/ai-agents-in-production-the-sandboxing-problem-no-one-has-solved/
- [F4] OWASP Top 10 for Agentic Applications 2026
- [F5] VentureBeat, “Anthropic’s Claude Managed Agents gives enterprises a new one-stop shop”, 2026-04. https://venturebeat.com/orchestration/anthropics-claude-managed-agents-gives-enterprises-a-new-one-stop-shop-but
- [F6] Augment Code, “Swarm vs. Supervisor: Multi-Agent Architecture Guide”. https://www.augmentcode.com/guides/swarm-vs-supervisor
- [F7] Vellum, “10 Best Manus Alternatives in 2026”, 2026-04. https://www.vellum.ai/blog/best-manus-alternatives(含 Meta $2B 收购信息)
- [F8] Programming Helper Tech, “Google’s Project Mariner: The AI Browser Agent That’s Redefining How We Interact With the Web”, 2026-01
打包 agent 路线
- [G1] Taskade Blog, “Manus AI Review 2026: Features, Pricing, 7 Alternatives”, 2026-04. https://www.taskade.com/blog/manus-ai-review
- [G2] Carly Blog, “8 Best Manus Alternatives in 2026”, 2026-03. https://www.usecarly.com/blog/manus-alternatives/
- [G3] Till Freitag, “Personal AI Assistants 2026 – Market Overview”, 2026-04. https://till-freitag.com/en/blog/personal-ai-assistant-market-overview
- [G4] OpenAI, “Introducing Operator”, 2025-01. https://openai.com/index/introducing-operator/
- [G5] E2B Blog, “How Manus Uses E2B to Provide Agents With Virtual Computers”, 2025-05. https://e2b.dev/blog/how-manus-uses-e2b-to-provide-agents-with-virtual-computers
- [G6] Philipp Schmid, “Context Engineering for AI Agents: Part 2”, 2025-12. https://www.philschmid.de/context-engineering-part-2(Manus webinar 笔记)
本文基于 2026 年 4 月公开资料整理。所有项目和产品在快速演化中,建议直接看各自最新文档。