AI Agent 进化论:从工具到系统的范式转移
当 AI 不再只是回答问题,而是开始记住你、学习你、进化自己——我们正站在人机协作的新起点。
引言
2026 年 4 月,AI Agent 领域发生了两件标志性事件:Nous Research 的 Hermes Agent 在 GitHub 上斩获 43,700+ 星标,而 Anthropic 则推出了 Claude Managed Agents 托管服务。这两件事看似独立,实则指向同一个趋势——AI Agent 正在从"一次性工具"进化为"持续性系统"。
本文将深入探讨这一范式转移的技术本质、商业影响,以及开发者应该如何应对。
一、问题的本质:为什么现在的 AI Agent 不够好用?
如果你用过 ChatGPT、Claude 或其他 AI 助手,一定经历过这种挫败感:
- 每次新对话都要重新解释背景
- AI 记不住你的偏好和习惯
- 复杂的任务需要反复拆解、多次交互
- 跨会话之间完全没有连续性
这背后的根本原因是:大多数 AI Agent 是"无状态"的。
每次对话都是一次全新的开始,AI 不会记住你上周让它优化的代码风格,也不会记得你偏好的技术栈。这种设计在简单问答场景下没问题,但在复杂的工程协作中就成了致命短板。
二、Hermes Agent:用"记忆"重新定义 Agent
Nous Research 的 Hermes Agent 提供了一个截然不同的思路。
核心创新:GEPA + 技能系统
Hermes Agent 的核心卖点是"用越久越聪明"。它通过两个机制实现这一点:
1. GEPA(Genetic-Pareto)Prompt 优化系统
GEPA 是由 UC Berkeley、Stanford、MIT 和 Databricks 研究者共同开发的 prompt 优化器,2025 年被 ICLR 2026 接收为 Oral Paper。与传统强化学习方法(如 GRPO)需要上万次评估不同,GEPA 仅需 100-500 次评估就能达到效果。
它的工作原理是:用自然语言反思来诊断失败原因、提出 prompt 修改建议,再通过 Pareto-based 选择机制维护多样性。
2. 技能文件自动生成
每次完成复杂任务后,Hermes Agent 会自动把解法写成 Markdown 格式的技能文件,存入持久记忆(SQLite FTS5 全文搜索 + LLM 摘要)。下次遇到类似任务就直接载入对应技能。
与 OpenClaw 的结构性差异
| 比较项目 | Hermes Agent | OpenClaw |
|---|---|---|
| 跨 session 记忆 | FTS5 全文搜索 + LLM 摘要,永久保存 | 每次对话从零开始 |
| 技能学习 | 自动生成、自动改进技能文件 | 靠社群插件,手动配置 |
| 后端部署 | 6 种:本地、Docker、SSH、Daytona、Singularity、Modal | 主要本地或 Docker |
| 自我优化 | 内建 GEPA + DSPy 整合 | 无 |
| MCP 支援 | v0.6.0 起原生支援 | 有限 |
关键差异不在功能列表,而在架构逻辑。OpenClaw 是"每次执行一个任务"的工具,Hermes 是"持续运行的系统"。
三、Claude Managed Agents:企业级 Agent 基础设施
如果说 Hermes Agent 代表了开源社区的创新方向,那么 Anthropic 的 Claude Managed Agents 则展示了企业级 Agent 服务的未来形态。
“脑手分离"架构
Managed Agents 的核心理念来自操作系统的设计哲学——把硬件虚拟化为 process 和 file 这些抽象概念,让未来的程序不受底层硬件变化影响。
Anthropic 将 Agent 的组成虚拟化为三个解耦的介面:
| 组件 | 功能 | 设计原则 |
|---|---|---|
| Session(会话) | Append-only 的事件日志,所有发生过的事都记录在这里 | 持久化存储,独立于 harness 和 sandbox |
| Harness(控制回路) | 呼叫 Claude、把 tool call 路由到对应基础设施的主回路 | 无状态,crash 后可从 Session 重启 |
| Sandbox(执行环境) | Claude 跑程序代码、编辑文件的容器环境 | 可抛弃式,失败就换一个新的 |
这种设计解决了三个具体问题:
- Debug 困难:分离之后,harness crash 了直接起一个新的,从 Session log 接续
- 安全边界:沙箱和凭证完全隔离,Agent 生成的代码永远碰不到 OAuth token
- 性能提升:p50 TTFT(Time to First Token)降了约 60%,p95 降了超过 90%
定价与商业模式
Managed Agents 的定价结构很有启示:
- 模型 token:依 Anthropic 标准 API 定价
- Agent 运行时间:USD 0.08/小时(仅活跃时段收费)
- 网页搜索:USD 10/1,000 次搜索
这意味着一个每天运行 8 小时的 Agent,运行时间成本大约是 USD 0.64/天。主要成本还是 token 消耗,但省下的基础设施开发和运维成本通常远大于这个数字。
四、范式转移:从"使用 AI"到"与 AI 协作”
Hermes Agent 和 Claude Managed Agents 代表了两种不同的路径,但指向同一个终点:
AI Agent 正在从"你问我答"的工具,进化为"持续协作"的伙伴。
这种转变意味着:
- 记忆成为核心能力:未来的 AI 产品竞争焦点将从"模型能力"转向"记忆系统"
- 技能可以积累:AI 会像人类一样,通过实践积累经验、形成专长
- 部署形态改变:从"按需调用"变成"常驻服务"
- 人机关系重构:从"用户-工具"变成"协作者-协作者"
五、开发者应该如何应对?
对于正在评估 AI Agent 策略的开发者和企业,我有以下建议:
短期(3-6 个月)
- 实验记忆型 Agent:尝试 Hermes Agent 或类似方案,体验跨 session 记忆的差异
- 建立 DESIGN.md 规范:参考 awesome-design-md,让 AI 编码工具理解你的设计系统
- 评估 Managed Agents:如果主要使用 Claude 模型,值得在小范围项目上试跑
中期(6-12 个月)
- 构建内部 Agent 基础设施:无论是基于开源方案还是托管服务,建立适合团队的 Agent 工作流
- 开发专属技能库:把团队的最佳实践、代码规范、常用模式转化为 AI 可学习的技能
- 关注 MCP 生态:Model Context Protocol 正在成为 Agent 工具集成的标准
长期(1-2 年)
- Agent 优先的工作流:重新设计团队协作方式,让 AI Agent 成为默认的协作伙伴
- 持续学习系统:建立 AI 从实践中学习、进化的机制
- 安全与对齐:随着 Agent 自主性增强,安全护栏和对齐机制将成为关键
结语
AI Agent 的进化才刚刚开始。Hermes Agent 和 Claude Managed Agents 只是第一波浪潮,它们证明了"记忆"和"持续性"是 Agent 从玩具变成工具、从工具变成伙伴的关键。
对于开发者来说,现在正是建立认知、积累经验的最佳时机。范式转移的机会窗口通常只有 2-3 年,错过了就可能要在别人的基础设施上工作了。