清华大学研究团队近期在人工智能领域取得重要进展,提出一种名为OpenRath的新型框架,旨在解决多智能体协作中普遍存在的“隐藏运行时状态问题”。该研究以预印本形式发布于学术平台,论文编号为arXiv:2606.19409,为理解复杂AI系统的决策过程提供了全新视角。
在软件开发、科研分析等场景中,AI系统常由多个智能体分工协作完成。例如规划路径的智能体、编写代码的智能体、测试功能的智能体等,它们可能同时尝试不同解决方案。然而,现有系统往往将各智能体的操作记录分散存储于私有日志中,甚至未记录关键信息。当任务结果出现错误时,用户无法追溯“问题出在哪个环节、依据何种数据、由谁修改”,如同试图拼凑散落在多个抽屉中的碎片。
研究团队将这一困境类比为工程项目管理:若每个参与者都独立记录工作,最终报告将缺乏完整的“施工日志”。为此,他们从深度学习框架PyTorch中汲取灵感,提出以“会话对象”(Session)作为核心设计,构建可追溯的智能体协作机制。在PyTorch中,数据以“张量”形式在神经网络各层间流动,所有操作均作用于该对象并保留计算历史。OpenRath将这一哲学迁移至AI系统,使Session成为承载任务全生命周期状态的流动载体。
Session的设计突破了传统对话记录的局限。它不仅存储用户输入与AI回复的文本,还记录工具调用的请求与结果、操作执行环境、任务路径的分叉与合并关系、资源消耗统计,以及记忆系统的调用与提交事件。例如,当智能体调用文件修改工具时,Session会明确记录操作发生的沙箱环境、修改前后的文件状态,而非仅保留“工具已调用”的模糊信息。这种设计使得“分叉探索多条路径”或“合并有效结果”等操作,成为对Session对象的直接程序操作,而非依赖外部日志重建。
在多智能体协作场景中,OpenRath通过统一接口简化复杂度。每个智能体均接收Session、处理Session并返回更新后的Session,工作流则负责组合多个智能体的输出。这种模式避免了引入共享可变对象或隐藏消息总线等额外状态对象,防止新“黑洞”的产生。例如,在科研文献复现任务中,搜索者、复现者与输出者三个智能体可通过Session传递中间结果,父工作流仅需关注最终返回的Session,而无需了解内部协作细节。
研究团队特别强调记忆功能的边界设计。与其他系统将记忆内容隐式注入提示词不同,OpenRath要求记忆的调用与提交作为显式事件记录于Session中。例如,当智能体使用某条记忆辅助决策时,Session会标注“于何时调用哪条记忆”,而非让审查者猜测提示词中是否包含记忆内容。不过,论文也坦诚指出,记忆模块的检索质量尚未验证,其具体实现仍需后续研究完善。
为确保研究结论的可验证性,团队创新性地提出“声明账本”机制。论文中的每个技术声明均映射至具体证据包,包含运行命令、源码、环境元数据及输出制品。例如,关于“Session支持分叉与合并操作”的声明,证据包中提供了自定义工具与脚本化工作流的运行记录。这种设计为审查者提供了从论文到可复现代码的直接路径,也明确了维护者的发布门槛:仅当证据包在文档化环境中可复现时,声明状态方可从“证据门控”升级为“已支持”。
与现有系统相比,OpenRath的定位更具基础性。图调度系统(如LangGraph)通过检查点记录执行进度,追踪系统(如OpenAI Agents SDK)通过跨度记录观测事件,而OpenRath的Session直接作为程序运行时传递的核心对象。三者可协同工作:调度器基于Session决定任务恢复点,追踪系统观测Session相关事件,沙箱提供者执行Session中的工具操作。这种设计避免了每一层重复发明不兼容的状态表示方式。
论文在限制章节中以罕见坦诚态度列出未声明内容:未进行跨系统基准测评、未验证所有后端一致性、记忆模块尚未完全实现、未涉及安全性声明等。研究团队明确表示,当前工作聚焦于构建可靠的基础设施,而非急于提出未经充分验证的结论。这种工程诚实态度,为AI系统可审查性与信任度提供了重要参考。
深度学习领域因张量的引入,实现了神经网络构建与调试的系统化。OpenRath试图为AI智能体系统提供类似地位的核心流动值——Session。它使分叉、合并、重放等操作成为程序内在能力,而非依赖外部重建。这一探索或许比具体实验结果更值得行业思考:当AI系统复杂度持续攀升时,如何通过工程设计确保其决策过程的透明性与可追溯性?











