Trajectory：前Google和Apple研究员打造AI持续学习平台

核心观点

2026年5月27日，一群来自Google DeepMind、Apple、OpenAI和Meta的顶尖AI研究员宣布成立Trajectory，一家致力于解决AI领域最关键难题之一的创业公司：持续学习（Continual Learning）。这家公司已获得1500万美元种子轮融资，估值达1.15亿美元，由知名风投机构Conviction领投，Bessemer Venture Partners、Radical VC和BoxGroup跟投¹。

Trajectory的核心使命是构建一个平台，让AI产品能够从真实用户交互中持续学习和改进——这是当前主流AI模型普遍缺失的能力。正如CEO Ronak Malde所言：“即使是最强大的AI今天仍然是静态的。你昨天使用的AI模型今天会犯同样的错误。”¹

持续学习的挑战：为什么AI会"学完就忘"

静态模型的根本局限

当前的主流AI模型——无论是OpenAI的GPT系列、Google的Gemini还是Anthropic的Claude——都遵循相同的范式：在庞大的静态数据集上进行预训练，然后通过RLHF（人类反馈强化学习）进行对齐，之后模型权重就被冻结¹。

这种"训练-部署"模式存在一个根本性问题：模型一旦部署就停止学习。它无法从实际使用中的错误中学习，无法适应特定用户或企业的独特需求，更无法随着时间的推移而进化。

具体来说，当企业部署一个AI客服系统时，这个系统会在第一天和第一年后犯完全相同的错误。它不会记住"上周用户询问退货政策时的困惑"，也不会从"上个月处理过的复杂投诉"中学习。每一次交互都是孤立的，没有形成累积的知识。这种"金鱼式记忆"严重限制了AI在企业场景中的实用价值。

更深层的问题在于，企业为了获得更好的AI性能，往往被迫等待基础模型提供商发布新版本——这可能需要数月甚至数年。在此期间，企业的业务需求可能已经发生变化，竞争对手可能已经采用更先进的解决方案，而企业的AI系统却原地踏步。

图灵奖得主的警告

2025年12月，在NeurIPS大会上，图灵奖得主Richard Sutton发表了题为《Oak架构：超级智能的愿景》的演讲，明确指出持续学习是构建超级智能代理的关键²。Sutton认为，真正的智能应该能够从持续的经验流中学习，而不是依赖固定的训练数据集。

Sutton的Oak架构提出了一个激进的观点：超级智能不应该来自单纯的规模扩张，而应该来自经验、抽象和持续学习的结合。这意味着AI系统需要具备类似人类的学习能力——从每一次交互中提取模式，从每一个错误中吸取教训，从每一天的经验中进化。

这一观点得到了业界的广泛认同。OpenAI、Google和Anthropic虽然在训练越来越强大的模型方面取得了巨大成功，但在让AI产品从错误中实时学习方面却普遍挣扎¹。这种"高智商、低情商"的困境正是当前AI系统的核心瓶颈。

代码领域的先行突破

值得注意的先例来自AI编程工具Cursor。Cursor团队在其技术博客中详细描述了如何通过**在线强化学习（Online RL）**来持续改进Tab补全功能³。他们的方法不同寻常：每天频繁向用户推出新模型，并使用用户接受/拒绝建议的数据进行训练。

Cursor的技术实现值得深入理解。他们的Tab模型每天处理超过4亿次请求，每次请求都会产生一个信号：用户是否接受了AI的建议。通过策略梯度方法（Policy Gradient），Cursor能够直接优化模型的"接受率"，而不是仅仅预测下一个token。这种方法的美妙之处在于，它将用户的每一次编辑都转化为训练信号——接受意味着"做得好"，拒绝意味着"需要改进"，编辑意味着"接近但不够准确"。

这种方法带来了显著效果——Tab建议的接受率提升了近30%⁴。Cursor的成功证明，持续学习在特定领域是可行的，但将其扩展到更广泛的AI应用场景仍面临巨大挑战。

代码领域的特殊性在于其"可验证性"——代码要么能运行，要么不能；要么通过测试，要么失败。这种明确的反馈信号使得强化学习能够高效运作。但在客服、法律、医疗等领域，“正确"往往是主观的、情境依赖的，这使得持续学习的应用更加复杂。

Trajectory的技术方案：从信号到智能

四位核心创始人

Trajectory的创始团队堪称豪华阵容¹：

Ronak Malde（CEO）：前Windsurf AI研究员，Google DeepMind以24亿美元收购Windsurf后加入DeepMind。Windsurf曾是AI编程领域的重要玩家，这次收购让Malde成为少数几位从被收购公司进入DeepMind的核心研究员之一。这段经历让他深刻理解了AI产品从原型到规模化部署的痛点。
Arjun Karanam（联合创始人）：前Apple AI研究员，曾参与Vision Pro项目。在Apple的工作经历让他见识了消费级AI产品的严苛要求——不仅要准确，还要在延迟、隐私和用户体验之间取得平衡。
Michael Elabd（联合创始人）：前Google DeepMind机器人部门研究员。机器人领域对持续学习的需求尤为迫切——每个机器人面对的环境都是独特的，必须能够从实时经验中学习才能有效运作。

这支团队对持续学习的技术挑战有着深刻理解，因为他们曾在各自的前雇主那里亲身经历过这些问题的复杂性。更重要的是，他们来自不同的技术背景——编程工具、消费产品、机器人——这意味着他们能够从多个角度审视持续学习的问题。

平台架构：四层学习循环

Trajectory的平台设计围绕四个核心环节构建⁵：

环节	功能描述	技术实现
Instrument（采集）	捕获用户行为信号	轻量级SDK集成，记录追踪、修正、重提示、编辑等交互
Understand（理解）	分析失败模式	识别AI表现不佳的场景，理解用户意图与AI输出的差距
Steer（引导）	优化模型行为	针对特定业务需求调整模型，提升可控性（Steerability）
Learn（学习）	持续后训练	基于采集的信号每周甚至更频繁地更新模型

这个架构的设计哲学体现了Trajectory对"持续学习"的独特理解：它不是简单地把新数据喂给模型，而是构建一个完整的反馈闭环。首先，系统必须能够"感知”——捕获用户与AI交互的每一个细微信号；然后，系统必须能够"理解"——从这些信号中识别出"成功"与"失败"的模式；接着，系统必须能够"引导"——根据业务目标调整模型的行为方向；最后，系统必须能够"学习"——将所有的洞察转化为模型的实际改进。

这种分层架构的优势在于模块化和可解释性。企业可以清楚地看到：哪些用户行为被采集了？系统如何理解这些行为？模型的行为被引导向什么方向？最终学到了什么？这种透明度对于企业级应用至关重要——毕竟，没有人愿意部署一个"黑箱"AI，它今天的行为和昨天完全不同，却没有人能解释为什么。

开源基础+企业定制

与直接使用OpenAI或Anthropic的现成模型不同，Trajectory让客户从开源模型开始，然后根据特定的AI产品需求进行后训练¹。这种方法的优势在于：

成本可控：避免为通用能力支付高额API费用。企业不再需要为每个token支付OpenAI或Anthropic的价格，而是可以基于开源模型构建自己的解决方案，边际成本趋近于零。
数据隐私：企业敏感数据不出境。对于金融、医疗、法律等行业，数据主权是红线。Trajectory的方案让企业的数据始终在自己的基础设施内，满足最严格的合规要求。
定向优化：模型专门针对企业特定场景优化。通用模型为了覆盖广泛场景，往往在特定任务上表现平庸。Trajectory的方法让模型"专精"于企业的核心业务，在关键任务上超越通用模型。
快速迭代：每周甚至更频繁地部署更新。传统的基础模型更新周期以月甚至年计，而Trajectory让企业能够每周甚至每天迭代自己的AI能力，快速响应市场变化。

这种"开源基础+企业定制"的模式正在成为一种趋势。它代表了AI应用从"消费通用API"向"构建专有AI能力"的转变。在这个转变中，企业的竞争优势不再取决于"用了哪个模型"，而取决于"如何让模型更好地为自己的业务服务"。

应用案例：从客服到法律

Decagon：AI客服的持续进化

Decagon是一家构建AI客服代理的企业，也是Trajectory的早期客户之一。在他们的使用场景中，Trajectory平台会记录AI表现不佳的实例——比如当客户试图退货时，AI无法正确处理请求，最终将对话转接给人工客服¹。

这个场景揭示了持续学习在客服领域的独特价值。传统的AI客服系统面临一个尴尬困境：上线初期表现不佳，因为缺乏领域知识；随着使用时间增长，表现并不会自动改善，因为系统没有学习能力；最终企业被迫在"忍受低质量服务"和"投入大量人工维护"之间做选择。

Trajectory的方案打破了这种困境。当Decagon的AI客服遇到无法处理的退货请求时，系统会完整记录这次交互：客户的问题是什么？AI给出了什么回答？为什么这个回答不合适？人工客服最终是如何解决的？这些信号被转化为训练数据，用于后训练模型。下一次遇到类似场景时，AI就能够给出更准确的回答。

Decagon的研究工程师Cyrus Asgari特别强调了"可控性（Steerability）“的重要性⁵。在企业客服场景中，“正确"的定义往往因客户而异、因场景而异。Trajectory的平台不仅让模型学习"什么是对的”，还让模型学习"如何根据特定需求调整行为”。这种精细的控制能力是企业级AI的关键。

这些"失败案例"被转化为宝贵的训练信号。Trajectory使用这些实例对模型进行后训练，声称经过优化的模型在企业最关心的特定任务上表现优于前沿实验室的通用模型。

Clay：GTM（Go-to-Market）场景的探索

Clay是一家专注于GTM（Go-to-Market）自动化的企业，帮助企业自动化销售线索研究、外联和跟进。这个场景对持续学习提出了独特的挑战：每个企业的目标客户不同，每个行业的销售话术不同，每个销售代表的风格也不同。

Clay的CEO Kareem Amin表示：“持续学习是Clay路线图上的重要研究方向，Trajectory正在构建帮助我们探索这一方向的基础设施。我们正在测试一个能够从用户那里学习的模型，已经看到它从错误中学习的例子。”⁵

在GTM场景中，“成功"的定义本身就是动态的。一个销售邮件模板今天有效，下周可能就失效了；一个线索评分模型对这个客户有效，对另一个客户可能就完全错误。传统的静态AI系统无法适应这种快速变化的环境。

Trajectory的持续学习方案让Clay的AI系统能够从每一次用户交互中学习：哪些邮件获得了回复？哪些线索最终转化了？销售代表对AI建议做了哪些修改？这些信号不断流入系统，驱动模型的持续进化。结果是，Clay的AI不仅不会过时，反而会随着使用变得越来越"懂"每个客户的业务。

Harvey：法律AI的专业化

法律AI公司Harvey的总裁Gabe Pereyra指出：“法律专业知识位于人类知识的长尾深处。它高度专业化，不断被判例、判断和实践所塑造，而固定数据集无法捕捉这些。通过Trajectory，我们正在构建能够承载这项工作背后不断演进的领域专业知识的代理。”⁵

行业意义：AI部署范式的转变

从"前向部署工程师"到自进化系统

当前，企业想要部署AI解决方案，往往需要雇佣大量"前向部署工程师”（Forward-Deployed Engineers）——嵌入企业内部的顾问和技术人员，帮助构建AI产品¹。OpenAI、Anthropic和Palantir都在积极填补这一需求。

Trajectory的愿景是构建一个能够自我改进的产品，让企业不再需要内部工程师持续排查AI堆栈。如果成功，这将彻底改变企业采用AI的方式——从依赖外部咨询转向拥有自进化的AI系统。

投资者阵容：AI界的"全明星"

Trajectory的投资人名单堪称AI界的"全明星阵容"¹：

Jeff Dean：Google DeepMind首席科学家，Google AI的奠基人之一。Dean的投资意味着Trajectory的技术方向得到了Google AI最高层的认可。
Fei-Fei Li：斯坦福教授、World Labs CEO，被誉为"AI教母"。作为ImageNet的创建者，Li对计算机视觉和AI发展有着深刻洞察。她的参与表明持续学习被视为AI发展的下一个前沿。
Conviction：由前OpenAI研究员Sarah Guo创立的风投机构。Conviction专注于AI基础设施投资，其参与说明Trajectory正在解决的是一个基础设施级别的问题——不是某个具体应用，而是支撑所有AI应用的基础能力。

这种级别的投资人背书，不仅提供了资金支持，更意味着Trajectory的技术方向得到了业内最顶尖专家的认可。值得注意的是，这些投资人本身都是技术出身，他们的投资决策基于对技术趋势的深刻理解，而非仅仅是财务回报的计算。

此外，Bessemer Venture Partners、Radical VC和BoxGroup的参与，也为Trajectory带来了丰富的企业服务和AI领域的资源网络。这些资源对于一家早期创业公司来说，往往比资金本身更有价值。

可实践建议：企业如何准备持续学习时代

建议领域	具体行动	预期收益
数据基础设施	建立用户交互日志系统，捕获接受/拒绝、编辑、重试等信号	为持续学习提供燃料
评估体系	构建业务特定的评估指标，而非仅依赖通用基准	确保模型优化方向正确
开源策略	评估开源基础模型+后训练 vs 闭源API的成本效益	降低长期成本，提升可控性
隐私合规	明确用户数据用于模型训练的政策和边界	避免合规风险
渐进部署	从低风险场景（如内部工具）开始试点持续学习	积累经验，降低风险

挑战与局限

尽管Trajectory的愿景令人兴奋，但批评者指出该公司尚未实现真正的持续学习——至少不是传统意义上的¹。目前，Trajectory的模型每周更新一次，在更新之间仍然保持静态。

这个批评触及了持续学习领域的核心难题：在线学习（Online Learning）与批量学习（Batch Learning）的区别。真正的持续学习意味着模型在每个交互后立即更新，就像人类一样。但当前的深度学习技术还无法安全地实现这一点——频繁的权重更新可能导致"灾难性遗忘"（Catastrophic Forgetting），即模型在学习新知识的同时忘记了旧知识。

Trajectory采用的每周批量更新是一种务实的妥协。它允许系统积累足够的信号，然后使用成熟的微调技术（如LoRA）来更新模型，同时通过评估套件确保模型不会退化。这种方法虽然不如真正的在线学习理想，但在当前技术条件下是可行的。

另一个挑战是评估的困难。在代码领域，评估相对简单——代码能否编译？测试能否通过？但在客服、法律等领域，“正确"往往是主观的。如何定义"改进”？如何避免"过度优化"某些指标而损害整体体验？这些问题没有标准答案，每个企业都需要根据自己的业务目标来定义。

数据质量也是一个关键问题。用户行为信号并不总是可靠的训练信号。用户接受一个建议可能只是因为没有更好的选择，用户拒绝一个建议可能只是因为个人偏好而非建议本身有问题。如何从噪声中提取真正的信号，是Trajectory平台需要持续优化的方向。

隐私和合规同样不容忽视。持续学习意味着用户数据被用于训练模型，这引发了隐私方面的担忧。Trajectory强调其平台符合SOC 2标准，企业可以完全控制哪些数据用于训练⁵。但在实际操作中，如何平衡学习效果和隐私保护，仍然是一个需要谨慎处理的问题。

Michael Elabd对此回应称，Trajectory才刚刚开始。他认为AI行业正在向一个新的范式转变——AI从经验中学习，就像AI编程领域已经发生的那样。Trajectory的最终目标是构建一个能够每天更新企业AI模型的平台，甚至更频繁——“每天可能还不够，可能是每小时，可能是每次交互。”¹

这个愿景如果实现，将标志着AI从"工具"向"伙伴"的根本转变。今天的AI是工具——你使用它，它保持不变；明天的AI可能是伙伴——你使用它，它和你一起成长。

一句话总结

Trajectory代表着AI从"静态智能"向"动态智能"的关键转变——让AI不再是训练完成就冻结的雕像，而是能够从每一次用户交互中学习和进化的生命体。

参考链接

本文是 RSS Daily 自动生成的技术深度文章，基于2026年5月28日最新资讯整理分析。