近期,硅谷在“Agent 工具箱”领域动作频频,OpenAI、Google、Anthropic 三大模型公司纷纷发力,引发行业高度关注。10 月 6 日,OpenAI 在开发者日上推出 AgentKit 等一系列工具,为开发者构建独立 AI 或 Agent 产品提供支持;两天后,Google 发布 Gemini CLI(命令行交互)Extensions,完善其开发生态;10 月 16 日,Claude 推出 Claude Skills,让用户无需编程,通过“文件夹系统”即可定义工作流。这些动作背后,是模型升级后,如何用好新能力的迫切需求。
核心模型厂商之外,“Agent 工具箱”也成为硅谷创业的热门领域。今年夏天,开源 AI 框架公司 LangChain 融资 1 亿美元,跻身新独角兽行列;语音模型提供商 ElevenLabs 卖员工老股,最新估值达 66 亿美元;OpenAI 更是以 11 亿美元全股收购 ABtest 和 AI 应用评估(evals)工具公司,其创始人维贾耶·拉吉出任 OpenAI 应用业务线 CTO。
为深入探讨 Agent 工具链(Agentic Tooling)的发展趋势和美国创业实践,我们邀请了常驻硅谷的 AGI House 合伙人 Henry Yin 和 Naomi Xia 进行交流。Henry Yin 毕业于清华姚班,后赴伯克利攻读博士,期间退学创办思码逸(Merico),长期关注 Agent 工具链与应用层创新,目前正筹备社区型基金 MoE Capital,探索下一代 AI 创业与投资模式。Naomi Xia 毕业于沃顿商学院,曾任职于摩根大通 AI 投融资团队,现负责 AGI House 早期投资,已投资 20 多家公司,其中就包括 Composio 和 Livekit。
Henry Yin 梳理了 Agent 工具链领域的“6 次进化”。他认为,Agent 工具的发展始终围绕模型能力的跃迁。ChatGPT 的发布催生了 LangChain 框架,Anthropic 提出的 MCP 协议为 Composio 转型提供了契机,GPT-4o 推出高级语音模式则让 LiveKit 迎来爆发式增长。随着模型升级间隔越来越短,机会涌现的节奏也在加快。
在 Agent 工具链中,AgentKit 备受关注。Henry Yin 指出,此次 OpenAI 推出的 AgentKit 涵盖了整个 Agent 开发周期。构建环节,新推出的 Agent Builder 是一个可视化工具,通过拖拽就能快速搭建 Agent;前端部署方面,ChatKit 允许开发者在自己的应用中快速嵌入类似 ChatGPT 的聊天界面,与 OpenAI 的模型实时交互;上线后的持续维护、优化,OpenAI 提供了监控、评估和改进的一套工具,新增 datasets(数据集管理)、自动 prompt 优化(自动提示词优化)、Trace grading(痕迹分级)、以及 reinforcement fine tuning(强化微调)等功能。其中,Trace grading 备受关注,它通过写 grading(评价函数),判断用户与 Agent 交互流程中哪些做得好、哪些不好,并给出标签或评分,评分可以手动打,也可以让 LLM 来做评审。
对于 Agent Builder,有人认为其思路与 AGI 有分歧。大部分人认同,最终的智能体应该是高度自动化、能执行多步任务、持续使用工具的,这需要将人工手写的流程吃到模型里,而 Agent Builder 是先画流程图。不过,Henry Yin 认为,虽然对追求研究者来说,AgentKit 并不性感,但对大客户来说,它安全、好理解、能落地,因此具有一定的市场竞争力。
除了 AgentKit,Apps in ChatGPT 和 Apps SDK 也是 OpenAI 开发者日的重磅发布。ChatGPT 负责人 Nick Turley 表示,ChatGPT 有潜力变成个操作系统。Henry Yin 认为,把 ChatGPT 当做操作系统并非首次炒作,两年前的 CustomGPTs 就曾有过类似尝试,但最终多数 GPTs 只是带 logo 的一个 prompt 模板,因为当时调用外部数据麻烦,也不能用第三方服务、存储状态、发送通知或运行工作流。而此次有了 AgentKit 和 Apps SDK,ChatGPT 类似 iOS 的开发 SDK,终于可以调用外部工具,还补上了 UI 组件,是一个真正的平台,也有了一套更完整的工具箱。更重要的是,ChatGPT 官方公布的周活有 8 亿,开发者做出的好应用能立刻触达大量用户,冷启动问题会小很多,同时还能获得大企业的信任背书,进入大型企业采购流程。
在市场竞争方面,2024 年 Anthropic 抢走了不少 OpenAI 的 to B 份额,此前 OpenAI 给外界印象也是在 to C 超级应用上更激进。但 Henry Yin 认为,OpenAI 不会放弃 to B。一方面,ChatGPT 周活 8 亿,已经是“操作系统级”的流量入口;另一方面,Anthropic、Google 都在猛推企业侧和开发者侧,OpenAI 面临生态压力。而且,B 端数据和使用偏好对提升模型也很重要,很多 C 端用户也是在生产力场景里使用 ChatGPT,B 端数据的反馈也能反哺这块。从团队变化也能看出 OpenAI 对 to B 的重视,他们新成立了“The Future of Work”的团队,专门加速 AI 在各种商业场景的落地,如客服、合同审核、数据分析、商业线索转化等。
此次发布后,创业者既看到了机会,也感受到了压力。机会在于,新平台把创业者和开发者和用户拉得更近;压力则来自两个方面,一是数据与留存的不对称,现在 app 的上下文与数据多托管在平台方,初创团队拿到的只是有限的上下文调用,难以真正建立用户关系、优化留存;二是平台自己下场做的可能性,像 OpenAI 掌握完整的数据和用户对话记录,平台上那些看起来很有潜力的机会,也有可能被 OpenAI 直接吃掉。不过,大家对 Google 反而没那么担心,认为 Google 做应用的速度追不上初创公司,而 OpenAI 节奏快得多。
在 Agent 工具链领域,具体的发展脉络也十分清晰。Henry Yin 认为,Agent 工具的发展始终围绕模型能力的跃迁,大致经历了六次主要升级。2022 年底,ChatGPT 和 GPT-3.5 发布,全球第一次直观感受到 LLM 的力量,LangChain 等框架出现,提供脚手架让开发者可以更快构建应用;2023 年 6 月,OpenAI 首次在 API 里官方支持 function calling(工具使用),LLM 开始能按上下文需要调用外围工具;2024 年 11 月,Anthropic 发布 MCP 协议,让工具在不同模型间更易复用;2024 年 5 月,GPT-4o 的 Advanced Voice 模式推出,高质量语音交互雏形出现,带火了实时音视频传输需求,LiveKit 迎来爆发式增长;2024 年 Claude 3.5 Sonnet 的发布和迭代带来了 Cursor 的成功,AI 写代码能力大幅增强,对“安全执行代码”的沙盒环境需求暴涨;2024 年 10 月,Anthropic 率先发布 Computer use 模型,随后 OpenAI 推出 Operator,Agent 终于能像人一样用浏览器完成任务。
在工具调用方面,最早 OpenAI 在 2023 年 6 月推出 function calling,现在更主流的协议却是 Anthropic 发起的 MCP。这是因为 Claude 在“怎么把 tool use 做强”上花了很多时间,过程中沉淀出 MCP。对于下一次进化,Henry Yin 认为很难预测,但相对确定的是,所有大模型厂商都会继续加注 Agent 能力,包括推理、工具使用和语音等方面,另外,多模态也会更深融合。
在第三方创业公司方面,也有很多值得关注的方向。Naomi Xia 投资的 Composio 就是其中之一。Composio 是 MCP 的集成商,能提供高质量 MCP Server,不止能调工具,更能保证任务的可靠执行。它分为平台和偏 prosumer(消费者 + 生产者)的产品 Rube 两部分。平台方面,开发者通过编程把平台上的 MCP Server 接到自己的 Agent;Rube 最近增长很快,因为它解决了在 Cursor 中只能同时调用 3 个 MCP Server 的痛点,提供了 metaMCP Server,可以根据任务自动调用正确的 MCP Server。Composio 一开始想做“自动生成集成代码”的智能体,但代码准确度不够,发现原因是模型调用工具的过程不稳定,于是转向搭建智能体的技能层,把通用工具封装成可直接调用的技能。凭借高质量技术演示和社区驱动,它迅速出圈,最终拿到光速创投(LSVP)领投的 A 轮投资,2024 年 6 月产品上线时已积累 ClickUp、Gleam 等早期客户。
除了 Browser Use,语音也是智能体工具领域的重要方向。现在全球每天约 100 亿次通话,很大一部分是商业通话,面向企业服务的 AI 机会很大,同时个人助理或情感陪伴领域的增长也很快。LiveKit 成立于疫情期,一开始服务远程办公需求,基于 WebRTC 的实时音视频传输,与 AI 关系不大。GPT-4o 把 LiveKit 用作语音传输层后,它从底层往上丰富产品,现在用它的 SDK 能方便地搭建语音 Agent。目前,LiveKit 每天支撑约 2000 万次通话,一年前数据是 100 万,年增 20 倍。企业层面,OpenAI、Character.AI 以及 Grok 的语音层都由 LiveKit 驱动,全美最大的 CRM 公司 Salesforce 马上要把客服智能体部署在 LiveKit 平台;公共服务层面,LiveKit 可以支持美国 911 约 25% 的呼叫,通过直播现场让接线员了解情况,还能转接心肺复苏的教练。
记忆也是 Agentic tooling 的重要方向。Henry Yin 介绍了四类记忆,包括情境记忆、流程记忆、存储事实的知识记忆和角色记忆或人格记忆。其中,Letta 是这方面增速很快的一家公司,由两位伯克利的博士毕业后创立,帮 Agent 开发者做“有状态的智能体(State for Agent)”。它提出“睡眠时计算(Sleep-time Compute)”的概念,不是在推理时烧 token,而是在系统空闲时做整理,就像白天开了很多会,晚上用睡觉时间回放处理,把信息沉淀成学习内容和洞见。对于用户是否愿意把数据给 Letta 的问题,Henry Yin 认为不太会出现类似自动驾驶初创公司优化算法需要司机数据,但车企出于竞争和数据敏感性不愿给的情况,因为现在的 Agent 应用市场更分散、更多样,很多创业公司体量小,商业话语权不强。
在评估方面,虽然几乎所有人都认为评估很重要,但大多数公司不愿做,因为这件事很难做。一是成本高,评估数据很多需要人工标注,任务越复杂,成本越高;二是策划与共识,团队常对“用什么数据、怎么构建数据集”没有一致意见。不过,标准化的第三方评估工具也有创业机会。OpenAI 以 11 亿美元收购了 Statsig,做的是 AB 测试、功能逐步发布和数据指标闭环,也就是评估模型效果,按节奏扩大流量。做业务的公司自己也会加入评估组件,但专门做评估的公司仍有其存在的价值。
从商业层面看,Agent 工具(Agentic tooling)的市场规模潜力巨大。全球软件市场年销售约 6500 亿美元,开发者工具(DevTools)规模约 200 到 300 亿美元。但这波 AI Agent 改变了游戏规则,红杉曾预测,AI 会把软件市场的天花板从六千多亿推到约 10 万亿美元,因为它能切入服务业,把原来靠人力的服务转成软件。如果这个判断成立,那么为 AI Agent 提供“武器装备”的 Agent 工具市场规模也会随之跃升,长期规模可能达到 2000 亿到 5000 亿美元。而且,这一波 AI 不是瓜分存量,而是在创造增量。在这个市场中,已经出现了一些有潜力的公司,如做身份认证的 Okta 最近一年收入大概在 20 亿美元,云通信巨头 Twilio 高峰期年收入大概在 40 亿美元,而面向 Agent 的观测平台、实时通信基础设施、Agent 模块和现有工作流的集成等领域,都有可能诞生年收入 100 亿美元的大公司,关键在于是否能形成网络效应和数据壁垒。