AIPress.com.cn报道
有没有想过这样一件事,我们跟AI对话的方式,其实很奇怪。
输出一段要求,等它回。它回完,再回复。你等它,它等你。
这样的情况像极了两个人在用对讲机聊天,一方说完,另一方才能开口。
这种回合制的交互方式,已经成了人和AI协作之间最大的障碍。
5月11日,OpenAI前CTO Mira Murati创立的Thinking Machines的AI实验室发布了一项新研究,正面回应这个问题。他们发布了一套名为"交互模型"的系统,其核心只有一个:AI应该像人一样参与进正常对话。
对答式AI的痛点:只能被动等回复你可能会觉得,现在的大模型已经很厉害了。能写代码、能分析报告、能处理复杂任务。
但如果仔细回想一下日常使用体验,就会发现一个很别扭的地方:
必须把所有需求一次说清楚,才能得到一个符合要求的答案。
因为一旦它开始回答,你就不能插话。它生成内容的过程是封闭的,所以只能等。等它说完,再看有没有偏差,再重新描述需求,再等它重新回答。
这个过程,更像发一封邮件,然后等对方回复。
而现实中,真正高效的协作从来不是这样运作的。在真实的工作场景里,两个人坐在一起解决问题,会随时打断、随时确认、随时调整方向。信息是流动的,反馈是即时的。
Thinking Machines的研究团队认为,这才是问题的根本所在。现在的大模型,大多数在智能上已经很强,但交互方式却依然停留在非常落后的阶段。它们被设计成"等待指令、处理、输出"的线性流程,完全没有为真正的协作留出空间。
提出AI新范式:实时交互模型Thinking Machines提出的交互模型,核心改变是:把交互能力直接训练进模型本身,而不是靠外部系统拼凑出来。
现在很多看起来"实时"的AI助手,其实是靠一堆外部模块组合实现的。先用一个检测器判断用户说没说完,再把音频传给模型处理,再调用语音合成模块把文字变成声音输出,里面每个环节都有损耗。
Thinking Machines的做法是,从零开始训练一个原生支持实时交互的模型。
技术上,他们设计了一种叫"微交互"的处理机制。
模型每200毫秒处理一小段音视频输入,同时生成200毫秒的输出。输入和输出持续交错运行,不用等你说完,也不用等它答完。
这带来巨大的效果提升:
•可以问它"帮我看看这段代码有没有bug",它可以边看你敲代码边实时给出反馈•你让它给你做俯卧撑计数,它会真的盯着摄像头,每做一个动作喊一个数•甚至可以实现同声传译
⚡ 核心突破
这些能力,在回合制架构下几乎不可能实现。
双模型架构:兼顾实时响应与深度推理光有"实时"还不够,因为有些任务确实需要深度思考和长链条推理,这和"快速响应"天然是矛盾的。
Thinking Machines的解决方案是把系统拆成两层。
•前台:交互模型,负责实时对话,始终在线,随时响应•后台:推理模型,负责处理复杂任务,比如调用工具、搜索网页、生成长文档、执行多步骤规划
两套模型共享上下文,后台完成一部分任务就把结果传回前台,由交互模型在合适的时机自然融入对话,而不是突然打断某一方。
这像一个配合默契的团队,一个人在前台负责接待,另一个人在后台快速处理,信息随时同步。
测评数据:交互质量和响应速度占优Thinking Machines公布了一批测评数据。他们的模型在主流实时AI系统的对比中,在交互质量和响应速度两个维度上都处于领先位置。
更有意思的是,他们专门设计了几个针对新型交互能力的测试:
时间感知测试:让模型在你呼吸练习时,每四秒提醒一次吸气和呼气,要求时间精准,内容正确。
视觉主动响应测试:让模型盯着视频,在特定动作发生的瞬间主动开口回答,而不是等你说话。
实时计数测试:让模型通过摄像头统计你做了多少个俯卧撑,实时报出数字。
他们对比了GPT Realtime和Gemini Live等当前主流实时模型。结论是:现有模型在这些任务上几乎无法完成,大多数时候保持沉默,或者给出错误答案。
⚠️ 关键差异
因为这些任务的根本要求是主动感知、主动开口,而不是等待触发、被动响应。
论文坦诚模型不足之处Thinking Machines在论文里也坦率列出了当前的局限:
•连续的音视频流会快速积累上下文,如果对话时间很长,模型的上下文管理会面临压力•低延迟流传输对网络稳定性要求很高,连接质量差的情况下体验会明显下降•目前发布的是一个276B参数的MoE模型,其中120亿参数处于激活状态•更大规模的版本因为速度问题还没有部署,计划今年晚些时候推出•实时交互场景下的安全性和对齐问题,也是他们正在持续研究的方向
OpenAI前CTO的"复仇者联盟"Mira Murati曾在OpenAI任职六年半,2022年升任首席技术官,主导了ChatGPT、DALL-E、Codex、Sora等几乎所有明星产品的技术方向。在2023年11月Sam Altman被董事会罢免事件中,Murati曾短暂出任OpenAI临时CEO。2024年9月,她正式宣布离开OpenAI,寻求独立技术探索。
2025年2月,Thinking Machines Lab正式成立。创始团队集结了大批OpenAI核心元老,被业内称为AI行业的"复仇者联盟"。
公司成立仅5个月,便完成20亿美元种子轮融资,由a16z领投,Nvidia、AMD、Jane Street等机构跟投,公司估值达到120亿美元。
成立之后,公司遭遇了多次核心人员流失:2025年10月,联合创始人Andrew Tulloch离职加入meta;2026年1月,CTO Barrett Zoph离开,联合创始人Luke Metz及核心成员Sam Schoenholz同步回归OpenAI;2026年4月,meta再次挖走至少7名创始团队成员。
最初的五位联合创始人,最终仅剩John Schulman一人留守。
面对动荡,Mira Murati做出关键决策:将PyTorch创造者Soumith Chintala从meta招入,并提拔为新任CTO。
即便遭遇大规模创始团队流失,公司仍在成立仅15个月后,推出了这一具有行业定义性的技术Demo。
过去几年,AI能力的竞争集中在一个维度:更聪明。更长的推理链、更强的代码能力、更大的知识库、更准确的输出。
但Thinking Machines的这项工作,指向了另一个可能被低估的领域:AI不只要更聪明,还要更会协作。
AI和人类之间真正的协作,可能才刚刚开始变得可能。








