十三年后,由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布了一篇研究预览,其构建的交互模型在底层追求上,与 Samantha 的逻辑高度契合。这篇题为《交互模型:人机协作的可扩展方案》的博客,全篇反复强调的核心便是一个词:「presence」——持续在场。博客链接地址:https://thinkingmachines.ai/blog/interaction-models/颇有意思的是,2024 年正是 Mira Murati 在 OpenAI 主持发布了 GPT-4o 的高级语音模式,让人机交互开始更接近人与人的自然交流。两年后,她带着出走的团队另起炉灶,却又把这件事从头做了一遍。评论区的吐槽也是一条比一条犀利。人类已被移出 AI 协作群聊文章开篇指出,结合 METR 在 2025 年的研究报告,主流 AI 公司普遍倾向将「模型自主完成长任务」作为最重要的能力指标,导致目前的交互界面几乎没给人类留出持续参与的空间。但在实际工作中,需求极少能在最初就交代得完美无缺。高质量产出往往需要人持续介入与反复调整,而现有的「回合制」机制恰恰缺乏这样的通道。语言学者 Clark 和 Brennan 在 1991 年的研究表明:高效沟通依赖共在、同时性和并发性。双方需共处同一情境,同步接收和表达信息;同时,如 Walter Ong 在 1982 年关于「口语稍纵即逝性」的研究所示,对话的本质在于高频参与。结合哈耶克 1945 年的理论,真正有价值的知识正存在于这类即时的细节传递中。
现在的模型工作时,用户输入,AI 等待;AI 输出时,则对用户的即时反应一无所知。Thinking Machines 将此比喻为:面对紧迫分歧不去当面沟通,而是靠发邮件来回拉扯。目前的实时语音市场存在两条存在局限的路线:大多数主流商业系统是靠在模型外接入语音活动检测(VAD)等组件拼接出的「伪实时」。这种外挂组件的管理方式局限性明显:模型无法主动打断对话,无法对屏幕报错等视觉变化作即时反应,更难以胜任「边听边同传」这类高频并发任务。 而另一方面,市场上虽然也出现了 Moshi、PersonaPlex 等无需 VAD 的原生全双工系统,但它们多为较小规模的模型,为了低延迟在综合智能水平上做出了妥协。
Thinking Machines 认同强化学习学者 Richard Sutton 的观点:依赖人工设计组件的系统最终会被通用学习赶超。交互能力必须成为模型原生的一部分。











