Agent 基础设施 2026：在繁荣与泡沫之间，找到该买、该等、该自建的边界

这是 AI agent 基础设施跑马圈地最热的一年，也是数据最矛盾的一年。Cursor 估值 $60B，Devin 真实成功率却只有 15-67%。这两个数字怎么并存？答案不在模型里，在 harness engineering 这门 2026 年才正式成型的新学科里。本文从这个反差讲起，给你一张能拿来做决策的地图。

一、从两组反向数据说起

2026 年 4 月的 AI agent 市场充满了同时存在但方向相反的信号：

繁荣与泡沫并存

繁荣这边——Cursor 在 2026 年 2 月达到 $2B ARR，预计年底跨过 $6B[D7]；SpaceX 4 月 21 日宣布以 $60B 收购 Anysphere（Cursor 母公司），约 30 倍营收[D2]；Cognition（Devin 母公司）从 $1M ARR 增长到 $73M 仅用 9 个月[D1]。

泡沫这边——Devin 在 SWE-bench 上的实际任务成功率只有 15-67%，好场景 67%、差场景仅 15%[D6]；Cognition 在谈 $25B 估值对应 $100M+ ARR，估值/营收倍数 250 倍[D2][D3]；Gartner 预测 78% 的 agent 试点项目无法进入生产环境[F1]。

繁荣是真的，泡沫也是真的——这两个看起来矛盾的事实怎么并存？

答案藏在一个 2026 年才正式成型的新学科里：harness engineering[C4][C5]。要理解 agent 基础设施今天的图景、估值的逻辑、以及该买什么该自建什么，必须先理解为什么”harness 才是产品”。

二、为什么 harness engineering 是答案

2.1 论点：不是模型问题，是模型周围的工程问题

2025 年 11 月，Anthropic 发布了一篇 engineering 博客 “Effective harnesses for long-running agents”[A1]。2026 年 3 月又发了第二篇 “Harness design for long-running application development”[A2]。这两篇连起来推出一个结论：

让 agent 跑数小时还能保持稳定的关键，不是发布更聪明的模型，而是模型周围更聪明的环境。

这个论点听起来像 Anthropic 自卖自夸，但 2026 年 Q1 三组独立的基准数据把它变成了行业共识：

同模型不同 harness 性能差异

论据一：极端案例——Nate B. Jones 团队的客户问要不要把 Claude Sonnet 升级到 Opus 来修复 agent 的 34% 任务完成率。团队没换模型，只重建了 scaffolding（更好的工具编排、更聪明的错误恢复、每步上下文压缩），完成率从 34% 跳到 71%。Jones 还记录了从 42% 到 78% 的极端案例——同模型，36 个百分点差距[B1]。

论据二：标准化对照实验——Scale AI 的 SEAL leaderboard 强制所有模型走相同 scaffolding、相同 250 turn 限制。结果是前沿 6 个模型分数相互之间只差 0.8 个百分点，最好和最差的差 1.3 点——这是噪声不是信号[B2]。Auggie 在自己的 harness 下比 SEAL 标准 harness 多解 17 道题（731 道里），9.5 个百分点的差距全部来自 scaffolding[B1]。

论据三：独立第三方验证——Blitzy 用 GPT-5.4 跑 SWE-Bench Pro 拿到 66.5%，比 GPT-5.4 自己（57.7%）高 8.8 个点[B4]。Anthropic 自己声称 custom harness 带来 10 个百分点准确度提升[B5]。Cursor 内部研究测出 11% 的 harness 增益[B6]。SWE-Bench Pro 上 scaffolding 造成 22+ 点摆动，模型升级在前沿只能拿约 1 点[B3]。

业界 2026 年 3 月以后的共识三句话归纳：

Model 是天花板，harness 是梯子。

同一个模型，不同 harness 可以差出一个产品好用 vs 不好用的距离。

模型升级带来的边际收益已经接近零，在 harness 上下功夫的回报远高于等下一代模型。

2.2 规模化验证：OpenAI 的百万行代码

如果说 SWE-Bench 是实验室证据，OpenAI 给出了规模化的产业证据。

Codex 团队用自己的 harness 跑 agent，构建了一个 100 万行生产代码的应用——没有一行由人工编写。三人小队日均合并 3.5 个 PR，团队扩到 7 人后吞吐量反而上升[C5]。他们的 harness 包括：

AGENTS.md 文件作为 agent 的机器可读指令
可重现的 dev 环境（一键启动、per-worktree 隔离）
CI 中的机械不变量（架构边界、格式规则、数据验证）

吞吐量随团队扩大而上升的现象关键——说明更好的 harness 设计放大了每个工程师的价值。这跟传统软件工程”团队扩大边际产出递减”完全相反，这才是真正的范式转移信号。

Viv Trivedy 给这门学科起了名字：harness engineering[C4]。Anthropic、OpenAI、Google、Microsoft 全部公开同意 harness 是产品——他们的分歧只在怎么收钱[C2]。

公式简单到一句话：

Agent = Model + Harness。如果你不是 model，你就是 harness。[C4]

三、四个痛点的三段递进：能用 → 好用 → 敢用

理解了 harness 是关键，下一个问题是——harness 到底要解决什么？

把 Anthropic 两篇论文的发现和行业实践归纳起来，agent 长跑的痛点收敛到四个。但这四个痛点不是同等重要、也不是平铺关系——它们是用户决策路径上的三道关卡，每一关过不去，下一关再优秀也用不上：

四个痛点的三段递进

关卡 1：能不能用？

这一关回答的是”agent 跑不跑得到任务结束”。卡在这里的产品根本上不了台面。两个痛点同属这一关：

① 上下文焦虑（context anxiety）[A2]——模型感知到上下文窗口快满，提前结束任务、草草交差。Anthropic 发现 Sonnet 4.5 有这个行为，给到 Opus 4.5 自动消失。

② 长跑失稳（incoherence over time）[A2]——agent 跑几个小时后偏离原目标、忘掉早先约束、陷入”修一个 bug 引入两个新 bug”的循环。这是 3 月 24 日那篇 harness 论文的核心问题。

这两个痛点不解决，agent 根本跑不到完整任务结束——所有自主 agent 产品都必须先回答这一关。Devin 估值 $25B 赌的本质就是这一关有没有可能在未来 12-18 个月被攻破。

关卡 2：好不好用？

过了关卡 1 是技术上能跑，但能跑 ≠ 跑得好。这一关回答的是”产出靠不靠谱”：

③ 自评偏正（self-evaluation bias）[C3]——让 agent 给自己打分，它倾向说”做完了""挺好的”——但其实没做完。Anthropic 3 月发布的三 agent harness 直接给出解法：generator 和 evaluator 必须是不同的 agent。这是 prose 版本的 GAN——生成的人和打分的人要分开。

这一关不解决能跑，但跑不出好结果。Devin 的 15-67% 成功率，相当一部分卡在这一关——任务跑完了，但产出质量不稳定，工程师还得花时间检查。

关卡 3：要不要用？

过了关卡 1+2 技术上能跑、跑得不错，但能跑得好 ≠ 敢部署。这一关回答的是”企业敢不敢真把它接入生产环境”：

④ 工具误用 / 凭据泄漏[F4]——agent 拿到生产凭据后，prompt 注入能让它把数据库导出到外部。OWASP 2026 年发布了 Top 10 for Agentic Apps，把这类攻击列为最高优先级威胁。

这一关不解决能跑、能出活，但企业不敢部署。Gartner 那个”78% 试点失败率”的数字里，有相当大比例是因为这一关没过——工程团队做出了 demo，但安全合规审查没批。

这三道关卡怎么用

拿这三道关卡去看任何 agent 产品都有一把标尺：

它能过几关？（能不能用 / 好不好用 / 要不要用）
它故意不过哪一关？（产品取舍）
它的目标用户为什么愿意接受这种取舍？

下一节就用这把尺子看四种代表性产品。有意思的是，没有任何一个产品三关全过——每个产品都在故意放弃某一关，换来另一关上的极致。

四、四种产品的”放弃哲学”

讲产品差异最容易的方式是讲”它做了什么”——但这种讲法记不住。更有效的角度是讲它故意不做什么。每个成功产品的背后都是一个清晰的取舍判断：放弃 A 换 B。

4.1 Claude Managed Agents：放弃跨厂商兼容性，换结构性安全

它选择放弃：跨厂商兼容性。Managed Agents 是 Claude-only 基础设施，没有路径让其他模型走这个 harness[A3][F5]。如果你建生产工作流后想要模型灵活性，迁移意味着重建编排层。

它换来什么：结构性安全 + 接口稳定。Anthropic 把 agent 抽象成四件套：Brain（Claude 模型）、Harness（无状态编排循环）、Hands（执行环境，统一通过 execute(name, input) → string 调用）、Session（append-only 事件日志）[A3]。这个抽象的厉害之处是借用了 OS 的设计哲学——read() 不管底下是 1970 年代的磁盘还是现代 SSD 都能用，接口比硬件活得久。

体检表：①②④ 解决得好，③ 还在 research preview。上下文焦虑通过 session 外置 + getEvents() 切片解决；长跑失稳通过 stateless harness + init/coding 分阶段解决；凭据问题通过 vault + proxy 让凭据从不进 sandbox[A3]——这是 SaaS 才能做到的结构性安全。多 agent 协作和自评偏正还在 preview 阶段。

赌注：harness 是有壁垒的资产，值得收 $0.08/会话小时的运行时费用[C2]。这个赌注下面会单独分析。

4.2 wanman：放弃服务端持久化，换数据主权和零运维

它选择放弃：跨设备访问、24/7 托管运行、企业级 SLA。wanman 是个本地 supervisor，跑你笔电上一个 git 仓库[E2]。

它换来什么：完整的数据主权 + 零运维成本 + 跨模型支持。所有状态写在 .wanman/wanman.db（SQLite 单文件），停掉 wanman 直接 rm -rf .wanman 就重置；CLI agent 用你本地的 Claude Code OAuth token，凭据从不离开你的机器；supervisor 编排现成 CLI（Claude Code、Codex），可以混用模型[E2]。

wanman 架构与消息优先级

最关键的设计是 steer / follow-up 双消息通道——wanman send ceo "..." 是 follow-up 队列等空闲投递；wanman send ceo --steer "..." 是直接打断 stdin。这个语义对人类和对 agent 都一样——CEO agent 也能用 steer 管 dev[E2]。

体检表：②③④ 解决得好。长跑失稳通过角色分工（CEO/dev/reviewer）和 cross-validation skill 解决；自评偏正通过 CEO 检查 dev 产出解决；隔离通过 git worktree + 独立 $HOME 解决。① 上下文焦虑不是它的核心议题——因为 agent on-demand 起、干完即销毁，单个 agent 不会跑太久。

赌注：未来会出现”标准化红利”，类似 GitLab 之于 GitHub——开源 + 自托管会跟商业 SaaS 长期共存。

4.3 Hermes Agent：放弃多 agent 协作，换单 agent 自我进化

它选择放弃：多 agent 真协作。今天 Hermes 是一个 agent，可以通过 delegate_task 派生用完即弃的子 agent。这些子 agent 单独工作、不能互相对话、不能共享状态、只把摘要返回父 agent[E3]。Issue #344 是社区在筹划真正的多 agent 升级，目前还没落地。

它换来什么：跨会话进化能力。使用 DSPy 和 Genetic Evolution of Prompt Architectures（GEPA）做演化式自我改进，agent 在使用中自动创建 skill、修改自己的 prompt[E3]。这是 Hermes 区别于其他工具最显眼的特征——它不只是用 LLM，是在用 LLM 优化自己。

体检表：① 解决得很好（ContextCompressor 监控 token 使用率，达到 50% 自动压缩；FTS5 全文回忆 + LLM 摘要做跨会话回忆）。其他三层都不是核心议题。

赌注：未来 agent 的核心竞争力是”用得越久越懂你”——而不是”会协作”。如果这个判断对，Hermes 会成为个人 agent 的事实标准。

4.4 OpenClaw：放弃工程协作场景，换 25+ IM 渠道覆盖

它选择放弃：长跑、多 agent 协作、企业级合规。OpenClaw 不针对工程场景[E4]。

它换来什么：无处不在的触达。支持 WhatsApp、Telegram、Slack、Discord、iMessage、微信、QQ 等 25+ 通讯渠道，加上 macOS 菜单栏、iOS/Android 桌面端、语音唤醒[E4]。它在卖”个人助理无缝融入用户已有通讯习惯”——你在哪个 IM 上活跃，它就在哪儿。

它的”多 agent”是路由型的——按渠道路由到独立 agent，比如老板从 Slack 来用工作 agent，老婆从 WhatsApp 来用家庭 agent。和 wanman 的”几个 agent 共同完成一个项目”是完全不同的概念：

三种多 agent 形态

OpenClaw 的代码量惊人——TypeScript 36 万行，是 wanman 的几十倍[E4]。这反映了它的产品复杂度：每个聊天渠道都是单独工程，加上语音、Live Canvas、浏览器自动化、插件市场。

体检表：四层都不是它的核心议题——它解决的是另一个问题（如何让 AI 助理无缝融入用户已有的通讯习惯）。

赌注：消费级 AI 助理的入口在 IM，不在新建独立 app。如果这个判断对，OpenClaw 是分发渠道的赢家。

4.5 一个关键观察：放弃才是产品哲学

回过头看四个产品，它们的差异不是功能多少，而是取舍方向：

Managed Agents 放弃跨厂商，押接口长寿
wanman 放弃托管，押数据主权
Hermes 放弃协作，押个人进化
OpenClaw 放弃工程场景，押消费触达

每个赌注都是合理的——它们对应不同的用户、不同的市场、不同的时间窗口。理解了这一点，下面的横向对比和商业化分析就立体了。

五、另一条路线：打包 agent 赛道

到这里你可能注意到一件事——上面四个产品都是**“卖给开发者的工具”**，需要你写代码、调配置、自己拼装。但同时还有另一类完全不同的玩家——它们不卖工具，直接卖一个能用的 agent 产品。

这是 2026 年市场上同样热闹的另一条赛道：

打包 agent 赛道全景

按目标用户分四档：

5.1 通用消费级 agent：“输入一句话，等几分钟拿结果”

代表玩家：Manus、ChatGPT Agent、Google Project Mariner、Anthropic Computer Use、Microsoft Copilot Actions。

Manus 是这条赛道最具标志性的产品。每个 session 一台独立云 VM（用 E2B Firecracker microVM[G5]），三个协作 agent（planner / executor / verification），通过虚拟浏览器、终端、文件系统完成”我要 PPT”、“我要分析”、“我要订机票”。Manus 自己公开的 context engineering 博客里[C7]讲了大量关键技巧：用文件系统当外部记忆、用 todo.md 文件持续重述目标、用 KV-cache hit rate 当核心指标——这些技巧跟 Anthropic 论文里讲的关卡 1、关卡 2 痛点完全是同一套问题。Meta 在 2025 年 12 月以 $2B+ 收购 Manus[F7]。

ChatGPT Agent 是 OpenAI 把 Operator（浏览器操作）和 Deep Research（深度研究）融合到 ChatGPT 里的统一形态[C8]。给一个云端虚拟电脑，能浏览网页、跑代码、做 PPT。WebArena 基准上达到 SOTA。

Google Project Mariner 是 Google 的对位答案——10 个并发任务，深度融入 Gemini API 和 Vertex AI，靠 Google 自己的搜索和浏览数据建立优势[F8]。

Anthropic Computer Use 让 Claude 直接看屏幕、动鼠标键盘——和 Operator 同一思路但接口更原始（API 而不是终端产品）。Microsoft Copilot Actions 在 Microsoft 365 里跑同样的事，绑定 Office 全家桶。

5.2 业务工作流 agent：处理白领的日常重复

代表玩家：Lindy、Carly、Taskade Genesis。

它们和通用消费级 agent 的关键区别是——长连接到你的业务工具。Lindy 已有 40 万付费用户，从 iMessage 入口管你的邮件、日历、会议[D8]。Carly 给每个 agent 配一个邮箱地址，$35/月固定不按 credit 收费，连接 200+ 业务工具。Taskade Genesis 更接近”团队 workspace”——多个 agent 共享 project memory，已部署 50 万 agent。

这一档 agent 的特点是重复性、可预期、按月订阅——它们在解决”工程师下班后还有 50 封邮件要处理”这种确定性问题，不是开放式探索。

5.3 垂直工程 agent：vibe coding 一句话生成应用

代表玩家：Devin、Lovable、Replit Agent、Bolt、v0。

这一档的产品形态高度相似——输入”我要一个 X 应用”，等几分钟，拿到一个能跑的代码 + 部署 URL。技术分化在哪：

Devin 押全栈工程任务（修 bug、重构、迁移），$100M+ ARR / $25B 估值
Lovable 押”非技术创始人快速原型”，2 个月做到 $20M ARR
Replit Agent 押教育 + 个人开发者，云 IDE 内嵌
Bolt（StackBlitz）和 v0（Vercel） 押前端代码生成，浏览器里直接跑

它们的共同押注是——“vibe coding”（凭感觉 / 凭描述写代码）会替代相当一部分传统编程，让”会用 Excel”成为新的”会写代码”。

5.4 开源对位：AutoGPT 这一脉

AutoGPT（160k stars）是这条路线的鼻祖——2023 年 4 月发布，第一次公开演示”给 LLM 工具和目标，让它自己迭代”。Manus、Devin、ChatGPT Agent 全部受它启发。AgentGPT、SuperAGI 等是后续仿制版。

但开源对位的可靠性问题至今没解决——任务循环卡死、token 爆炸、需要技术功底——大部分团队验证完原型后会”毕业”到商业版。

5.5 这条路线的哲学分歧

把”打包 agent”路线和前面四个”基础设施”路线放一起对比，能看出一个根本性的市场分化：

两条路线的哲学分歧

简单说：

基础设施路线 = “AWS 模式”：卖原料，用户拼装。Anthropic、wanman、Hermes、OpenClaw 走这条。
打包 agent 路线 = “Vercel 模式”：卖体验，用户开箱即用。Manus、Devin、Lindy 走这条。

这两条路线会长期共存，就像今天 AWS 和 Vercel 都赚钱——不是替代关系。它们对应的是同一个市场的两种用户：开发者要工具，终端用户要结果。

最有意思的是 Claude Managed Agents——它处于两条路线的交叉点：对开发者它是基础设施 SaaS（API 调用），对企业终端它已经接近”打包 agent”（用 Sonnet 4.5 的 agent 直接帮你做客服、做合规审查）。这种混合定位让它的商业化路径比纯路线玩家更复杂——但也意味着 Anthropic 在押两条路线都能赚到钱。

六、横向对比：四象限里的赌注

把四种产品（加上 IDE 类工具做对比）放到”自主性 × 服务规模”的二维坐标里：

四种产品形态的优劣势矩阵

每个象限代表一个赌注——

辅助型 + 团队规模（Cursor / Claude Code / Copilot）：赌”高频日常”。瞄准关卡 1（能不能用）的可重复部分（每次 tab 补全、每次小重构），人类全程在场可挽回。优势是付费意愿高、风险可控；劣势是人不能离开，本质上还是辅助工具。

自主型 + 团队规模（Devin / Managed Agents / wanman）：赌”自主拐点”。瞄准关卡 2（好不好用，agent 自走数小时也能产出靠谱），目标是工程师下班后还能继续干活。优势是放大效应大；劣势是任务定义不清就跑偏、Devin 实际成功率 15-67%[D6]、Managed Agents 成本不可预测。

辅助型 + 个人规模（OpenClaw）：赌”消费级入口”。瞄准”无处不在的助理”的渠道分发逻辑。优势是渠道覆盖深；劣势是工程复杂度极高，商业化路径不清。

自主型 + 个人规模（Hermes Agent）：赌”个人化进化”。瞄准”用得越久越懂你”。优势是技术领先（GEPA / 自我改进）；劣势是非营利组织背景、无商业化、多 agent 还在路上。

四个象限有个共同的盲区——中间地带（小团队 / 个人开发者既想要协作又想要个人化）今天没有好方案。这块可能是下一个机会窗口。

七、商业化解读：钱跟着痛点走

现在回到开头那个反差——为什么 Cursor 估值 $60B，Devin 估值 $25B 对应只有 $100M+ ARR，开源派几乎没有商业化？

答案在这张因果链图里：

痛点的频率 × 深度 = 商业化路径

ARR 不是数字本身，是市场对每一类痛点的定价。

7.1 为什么 Cursor 赚钱最多

Cursor 瞄准的是关卡 1 里”被天天验证的部分”——IDE 内每一次 tab 补全都是一次小成功，每一次 Cmd+K 都是一次确定性收益。高频 + 低风险 + 人类全程在场——三个特征组合起来意味着付费意愿极高。

具体数据：2025 年 1 月 $100M ARR，6 月 $500M，11 月跨过 $1B，2026 年 2 月达到 $2B[D7]。SpaceX 在 4 月 21 日宣布以 $60B 收购 Anysphere（Cursor 母公司），约 30 倍营收[D2]。这个倍数在 SaaS 行业不算夸张，反映市场对 Cursor 的判断是稳健成长股。

Claude（Anthropic）的 $2.5B 年化 run rate 同时包含 Claude Code 和 API 收入[D5]。Claude Code 是 Anthropic 自己 dogfooding 的 harness——他们的 harness engineering 论文不是空谈[A2]。

7.2 为什么 Devin 估值溢价这么高

Cognition（Devin 母公司）的故事更激进：从 2024 年 9 月 $1M ARR 增长到 2025 年 6 月 $73M——9 个月 73 倍[D1]。2026 年 4 月在谈 $25B 估值——按 $100M+ ARR 算就是 250 倍营收[D2][D3]。

但 Devin 的产品现实并不像估值光鲜：SWE-bench 实际成功率 15-67%[D6]，定价从最初的 $500/月降到 $20 起步 + $2.25/ACU——做了大幅可访问性调整[D4]。Cognition 自己也承认：“把 coding agent 从 impressive demos 变成 reliable engineering infrastructure”——demo 和生产之间还有距离[D3]。

那 250x 估值倍数怎么解释？市场不是给当下的成功率定价，是给”自主 agent 拐点会到来”这件事定价。如果未来 12-18 个月内 Devin 的成功率从 67% 提到 90%，整个关卡 2 市场（数百亿美金规模）就豁然开朗。这是一个赌时间窗口的高方差押注。

7.3 为什么 Anthropic 敢收 $0.08/h，OpenAI 不收

定价模型的分歧本质是两家在赌不同的事[C2]：

Anthropic Managed Agents：token + 会话小时（$0.08/h）混合计费——赌 harness 是有壁垒的资产，用户愿意为 runtime 单独付费
OpenAI Agents SDK：仅 token + 工具，不收 runtime 费——赌 harness 会商品化，谁先收谁就被绕开

谁对谁错 12 个月内能见分晓。OpenAI 的开源策略本质是赌后者——如果 harness 真的被标准化了，订阅 runtime hour 这种商业模式会被迅速洗掉。Anthropic 的策略是赌”接口比产品长寿，但实现细节有壁垒”——他们押抽象层稳定（Session、getEvents），但每一层的具体实现是 Anthropic 的 know-how。

7.4 为什么开源派暂时没有商业化

wanman、Hermes、OpenClaw 这些项目目前都没有清晰的商业化路径。最常见的玩法是：

托管版：wanman.ai 这种把开源版跑在云上的服务
企业服务：私有部署 + 支持合同
生态收费：marketplace 抽成、premium skill

但目前都还没人验证这条路在 agent 领域走得通[F1]。值得对比的是 GitLab 之于 GitHub 的路径——agent 基础设施很可能复制类似演化，但需要等市场分层完成。开源派现在押的是这个长期红利，不是当下的现金流。

7.5 三组数字背后的市场判断

把这些拼起来看，2026 年 4 月的市场判断是这样的：

痛点关卡	频率	商业化成熟度	代表公司估值倍数
关卡 1 能不能用（辅助型 IDE）	高	已验证	30x ARR（Cursor）
关卡 2 好不好用（自主 agent）	中	早期溢价	250x ARR（Devin）
关卡 3 要不要用（合规平台）	低	跑马圈地	种子轮（Sycamore $65M）
基础设施（开源协议）	横切	长期对赌	难以单独定价

这四个层级会一直分化下去——不会有一个公司通吃所有层。这正是为什么”选什么产品”是个时间窗口问题，不是简单的好坏排序。

八、决策建议：现在该买、该等、该自建什么

选型的第一个问题不是”买哪个”，而是走哪条路线。这取决于你想要什么——是给开发者一套工具去建 agent，还是给业务方一个能用的 agent 产品。两条路线分别给建议：

双路线决策窗口

8.1 基础设施路线（“我要建自己的 agent”）

适用：开发者、工程团队、关心可控性和数据主权的场景。

现在就买：Cursor、Claude Code、Copilot、GitHub Copilot Workspace。瞄准关卡 1，IDE 内嵌，$20/月固定订阅，大量已验证用户。避免 credit 制定价的产品——2025-2026 年多次出现超额扣费翻车[D7]，Cursor 已经从 credit 切到 quota 但仍建议设消费上限。

谨慎试用：Claude Managed Agents、OpenAI Agents SDK、Mastra。瞄准关卡 2 长跑，但成功率仍在波动、定价模型未稳定。注意 Managed Agents 的 runtime hour 累积成本——10000 个工单的工作流，一小时会话可能花 $37[F5]。

建议等：Sycamore、早期企业 agent 平台、Self-improving、Multi-agent preview。还在跑马圈地或研究预览阶段。可以做 PoC，但不要把核心业务流程绑上去——预期 6-12 个月内会有更明确的赢家。

自建：wanman + Sandbank、OpenHarness、自托管 LangGraph + LangSmith。只有以下任一情况才走这条路：

凭据不能出本地（金融、医疗、政府）
多模型混用（不想绑死 Claude 或 GPT）
数据主权要求（GDPR、行业合规）
押开源标准化红利（不想被 vendor 锁定）

代价是运维成本自担——supervisor 挂了自己排查，没 24/7 oncall。

8.2 打包 agent 路线（“我要这件事被完成”）

适用：终端用户、业务团队、不想写代码、按结果付费的场景。

现在就买：ChatGPT Agent、Lindy、Carly、Lovable、Bolt、v0。这一档已有大量付费用户验证——Lindy 40 万付费、Lovable 2 个月做到 $20M ARR、ChatGPT Agent 融合到主 ChatGPT。业务工作流自动化、$20-50/月固定订阅、连接现有业务工具——风险可控，可直接用于生产。

谨慎试用：Manus、Devin、Project Mariner、Replit Agent、Computer Use。这些是”通用消费级 + 自主工程”的代表，实际成功率在 15-67% 之间波动[D6]。建议：

选边界清晰的任务（一次性研究、PPT 生成、bug fix）
别绑生产流程
注意 Manus 是 credit 制（复杂任务一次能用 500-900 credit），成本不可预期

建议等：Microsoft Copilot Actions、Anthropic Computer Use（早期形态）。企业 SKU 仍在配置、数据 / 合规边界未清。观察大厂入场后的整合方向。

备选：AutoGPT、AgentGPT、商业 agent 的开源仿制版。免费但可靠性差，适合学习和原型，生产场景仍建议商业版。

8.3 混合策略：两条路线一起用

实际操作中，很多团队两条路线都会用——这不矛盾：

开发者用 Cursor / Claude Code 写代码（基础设施路线）
同一团队用 ChatGPT Agent 做调研、Lovable 做内部小工具原型（打包 agent 路线）
核心业务流程用 wanman + Sandbank 自建（基础设施路线）
边缘场景如客服自动化用 Lindy 订阅（打包 agent 路线）

别陷入”必须选一边”的伪命题——这两条路线在产品组合里互补，不是替代。

九、未来 12 个月：值得关注的三件事

把所有线索收束起来，未来一年内最值得跟踪三件事：

1. Devin 的成功率拐点——从 15-67% 区间能不能稳定到 80%+。这件事见分晓的方式是 SWE-Bench Pro 上面 250x 估值的现实化检验。如果拐点到了，整个自主型 agent 类目重新估值；如果没到，Devin 的估值会面临回调压力。

2. Anthropic vs OpenAI 的定价博弈结局——12 个月内能看到 $0.08/h runtime 费这个模式是否成立。如果用户接受了，Anthropic 的赌注成立，harness 是有壁垒的资产；如果用户用脚投票去 OpenAI 的开源 SDK，runtime 费会被迅速洗掉。

3. Agent Client Protocol（ACP）和 A2A Protocol 的标准化进展——这是开源派的”对赌窗口”。如果协议标准化成功（类似 MCP），开源 + 自托管会跟商业 SaaS 长期共存；如果没成功，开源派会被边缘化。

十、结语：抽象层比产品活得久

如果你只能从这篇文章带走一个判断：

Agent 基础设施正在经历它的”OS 时刻”——和操作系统当年虚拟化硬件、把 read() 这种接口稳定下来是同一种工程。

底层在收敛（MCP、JSON-RPC、append-only event log），中层在战斗（harness 的五大厂打四种主张），上层在分化（个人 vs 团队是两个市场）。短期内你需要根据具体需求选一套，长期看接口比产品活得久。

read() 之所以能活几十年，是因为它把”从某个东西读字节”这件事抽象到了刚刚好的层级。Agent 基础设施正在找它自己的 read()——可能是 getEvents()，可能是 execute(name, input) → string，也可能都不是。但这层抽象一定会比今天任何一个具体产品都活得久。

Cursor $60B 的估值、Devin 的 250 倍营收倍数、Anthropic 的 $0.08/h 押注、wanman 的开源对赌——每一个都是某种意义上的赌注。值得关注的不是哪个项目会赢，而是这层抽象的接口稳不稳定。等抽象稳定下来，今天的所有产品都会被替换，但写在它们之上的应用会一直留下。

附录：引用来源

Anthropic 官方

[A1] Anthropic Engineering, “Effective harnesses for long-running agents”, 2025-11
[A2] Anthropic Engineering, “Harness design for long-running application development”, 2026-03-24. https://www.anthropic.com/engineering/harness-design-long-running-apps
[A3] Anthropic Engineering, “Scaling Managed Agents: Decoupling the brain from the hands”, 2026-04-08. https://www.anthropic.com/engineering/managed-agents
[A4] Claude Managed Agents Documentation. https://platform.claude.com/docs/en/managed-agents/overview

SWE-Bench / 基准数据

[B1] Particula, “Agent Scaffolding Beats Model Upgrades: 42% to 78% on SWE-Bench”, 2026-03-25. https://particula.tech/blog/agent-scaffolding-beats-model-upgrades-swe-bench
[B2] Morphllm, “SWE-Bench Pro Leaderboard (2026): Why 46% Beats 81%”, 2026-03-01. https://www.morphllm.com/swe-bench-pro
[B3] BSwen, “What Does SWE-bench Pro Reveal About Agent Scaffold Performance?”, 2026-04-20. https://docs.bswen.com/blog/2026-04-20-swe-bench-pro-agent-scaffold/
[B4] Quesma, “Compare harnesses not models: Blitzy vs GPT-5.4 on SWE-Bench Pro”, 2026-04. https://quesma.com/blog/verifying-blitzy-swe-bench-pro/
[B5] Vals.ai SWE-bench commentary. https://www.vals.ai/benchmarks/swebench
[B6] Build MVP Fast, “Cursor IDE Harness Boosted Model Performance 11%”, 2026-03-28. https://www.buildmvpfast.com/blog/cursor-ide-harness-benchmark-model-performance-2026

行业方案与媒体报道

[C1] OpenAI Codex 团队 100 万行代码案例（多源报道）
[C2] The New Stack, “Anthropic, OpenAI, Google, and Microsoft agree that the harness is the product. They disagree on the price.”, 2026-04. https://thenewstack.io/ai-agent-harness-pricing-split/
[C3] InfoQ, “Anthropic Designs Three-Agent Harness Supports Long-Running Full-Stack AI Development”, 2026-04. https://www.infoq.com/news/2026/04/anthropic-three-agent-harness-ai/
[C4] Addy Osmani, “Agent Harness Engineering”. https://addyosmani.com/blog/agent-harness-engineering/
[C5] NxCode, “What Is Harness Engineering? Complete Guide for AI Agent Development (2026)”, 2026-03. https://www.nxcode.io/resources/news/what-is-harness-engineering-complete-guide-2026
[C6] awesome-harness-engineering. https://github.com/ai-boost/awesome-harness-engineering
[C7] Yichao ‘Peak’ Ji (Manus), “Context Engineering for AI Agents: Lessons from Building Manus”, 2025-07. https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
[C8] OpenAI, “Introducing ChatGPT agent: bridging research and action”, 2025-07. https://openai.com/index/introducing-chatgpt-agent/

商业化数据

[D1] Sacra, “Cognition revenue, valuation & funding”. https://sacra.com/c/cognition/
[D2] Dealroom, “Cognition AI in talks at $25B as AI coding race intensifies after SpaceX-Cursor deal”, 2026-04. https://app.dealroom.co/news/note/cognition-ai-in-talks-at-25b-as-ai-coding-race-intensifies-after-spacex-cursor-deal
[D3] Remio, “Cognition AI Built a Coding Agent With a 15% Success Rate. Now It Is Worth $25 Billion.”, 2026-04. https://www.remio.ai/post/cognition-ai-built-a-coding-agent-with-a-15-success-rate-now-it-is-worth-25-billion
[D4] Contrary Research, “Cognition Business Breakdown”. https://research.contrary.com/company/cognition
[D5] MightyBot, “Best AI Coding Agents in 2026, Ranked”, 2026-04. https://mightybot.ai/blog/coding-ai-agents-for-accelerating-engineering-workflows/
[D6] Codegen, “Best AI Coding Agents in 2026: Ranked and Compared”, 2026-04. https://codegen.com/blog/best-ai-coding-agents/
[D7] ShareUhack, “Cursor vs Claude Code vs Windsurf 2026: Pricing, Benchmarks”, 2026-04. https://www.shareuhack.com/en/posts/cursor-vs-claude-code-vs-windsurf-2026
[D8] Lindy 公司公开信息（40 万付费用户、SOC 2 + HIPAA 合规、$50/月）· Carly 公司公开定价 · Lovable 公开 ARR 数据

开源项目

[E1] chekusu/sandbank. https://github.com/chekusu/sandbank
[E2] chekusu/wanman. https://github.com/chekusu/wanman
[E3] NousResearch/hermes-agent. https://github.com/NousResearch/hermes-agent
[E4] openclaw/openclaw. https://github.com/openclaw/openclaw
[E5] HKUDS/OpenHarness. https://github.com/HKUDS/OpenHarness

行业分析

[F1] Kai Waehner, “Enterprise Agentic AI Landscape 2026: Trust, Flexibility, and Vendor Lock-in”, 2026-04. https://www.kai-waehner.de/blog/2026/04/06/enterprise-agentic-ai-landscape-2026-trust-flexibility-and-vendor-lock-in/
[F2] Earlperry (Medium), “How Every Major Tech Company Is Sandboxing AI Agents Differently”, 2026-03
[F3] SoftwareSeni, “AI Agents in Production: The Sandboxing Problem No One Has Solved”, 2026-01. https://www.softwareseni.com/ai-agents-in-production-the-sandboxing-problem-no-one-has-solved/
[F4] OWASP Top 10 for Agentic Applications 2026
[F5] VentureBeat, “Anthropic’s Claude Managed Agents gives enterprises a new one-stop shop”, 2026-04. https://venturebeat.com/orchestration/anthropics-claude-managed-agents-gives-enterprises-a-new-one-stop-shop-but
[F6] Augment Code, “Swarm vs. Supervisor: Multi-Agent Architecture Guide”. https://www.augmentcode.com/guides/swarm-vs-supervisor
[F7] Vellum, “10 Best Manus Alternatives in 2026”, 2026-04. https://www.vellum.ai/blog/best-manus-alternatives（含 Meta $2B 收购信息）
[F8] Programming Helper Tech, “Google’s Project Mariner: The AI Browser Agent That’s Redefining How We Interact With the Web”, 2026-01

打包 agent 路线

[G1] Taskade Blog, “Manus AI Review 2026: Features, Pricing, 7 Alternatives”, 2026-04. https://www.taskade.com/blog/manus-ai-review
[G2] Carly Blog, “8 Best Manus Alternatives in 2026”, 2026-03. https://www.usecarly.com/blog/manus-alternatives/
[G3] Till Freitag, “Personal AI Assistants 2026 – Market Overview”, 2026-04. https://till-freitag.com/en/blog/personal-ai-assistant-market-overview
[G4] OpenAI, “Introducing Operator”, 2025-01. https://openai.com/index/introducing-operator/
[G5] E2B Blog, “How Manus Uses E2B to Provide Agents With Virtual Computers”, 2025-05. https://e2b.dev/blog/how-manus-uses-e2b-to-provide-agents-with-virtual-computers
[G6] Philipp Schmid, “Context Engineering for AI Agents: Part 2”, 2025-12. https://www.philschmid.de/context-engineering-part-2（Manus webinar 笔记）

本文基于 2026 年 4 月公开资料整理。所有项目和产品在快速演化中，建议直接看各自最新文档。