科幻电影《Her》中,操作系统萨曼莎展现的“无等待交互”曾让观众惊叹:它能预判用户意图、感知情绪波动,甚至在对话中主动调整节奏。十三年后,这种理想化的人机协作模式正从银幕走向现实——由OpenAI前CTO米拉·穆拉蒂创立的Thinking Machines Lab,近日发布了一项突破性交互模型,其核心设计理念与萨曼莎的“持续在场”特性高度契合。
该实验室在《交互模型:人机协作的可扩展方案》技术博客中强调,当前主流AI系统普遍存在“人类参与断层”问题。METR 2025年研究报告显示,多数企业将“模型自主完成任务”作为首要目标,导致交互界面设计忽视人类实时介入需求。语言学家克拉克1991年的研究指出,高效沟通依赖共在性、同时性和并发性,而现有“回合制”对话模式无法满足高频信息交换需求。这就像用电子邮件处理紧急分歧,而非面对面沟通——模型输出时无法感知用户反应,输入时又无法处理视觉或听觉环境变化。
市场现有解决方案存在明显局限。多数商业系统通过外挂语音活动检测(VAD)组件实现“伪实时”,但模型无法主动打断对话或响应屏幕错误;少数原生全双工系统虽能降低延迟,却因模型规模限制牺牲了综合智能水平。Thinking Machines团队认为,交互能力必须成为模型原生架构的一部分,而非后期添加的组件。他们借鉴Seeduplex、Qwen-omni等项目的经验,构建了由前台交互模型与后台推理模型协同工作的系统。
该系统的创新之处在于“微轮次机制”:以200毫秒为处理单元,交替解析输入输出信号,将用户沉默、抢话等行为均视为有效信息。这种设计使模型能隐式追踪用户意图,无需独立对话管理模块即可实现同步说话、中途插话,甚至在边听边看时调用工具或生成界面。在模态处理上,团队摒弃了独立大型编码器,通过轻量化处理使音视频数据直接参与Transformer主体训练。为确保低延迟,他们优化了底层算力分配与通信协议,避免内存反复重分配导致的卡顿。
面对复杂任务时,前台模型会将完整上下文传递给后台进行深度推理,再将结果流式返回并自然融入对话。安全机制方面,模型接受了拒绝对话的拟真训练与防越狱测试,在Harmbench基准测试中保持99.0%的安全拒绝率。测试数据显示,其120亿参数的TML-Interaction-Small模型在打断响应测试中获77.8分,远超GPT Realtime-2.0的46.8分;在深度推理测试中,其响应质量与通过率(82.8/68.0)亦优于竞品高延迟版本。在音视频问答、指令遵循等综合测试中,该模型同样展现出速度与智能的平衡优势。
为更精准评估原生交互能力,实验室自建了多项评测标准。在主动发言测试TimeSpeak中,TML得分64.7;同步纠错测试CueSpeak中获81.7分;持续视觉追踪测试RepCount-A达35.4分。相比之下,主流模型在这些场景下几乎全部失分。研究员尼尔·吴表示,项目初衷是让AI协作更接近人类对话:“如果交互不再局限于聊天框,而是像与真人交谈般自然,会带来怎样的变革?”CTO苏米特·钦塔拉将技术路线分为三步:提升信息带宽、突破智能上限、确保人类核心地位。
在多数AI研发聚焦模型自主性的当下,Thinking Machines选择了逆向路径:通过优化人类介入流程,使沟通本身成为协作基础设施。团队成员翁荔在开发日志中提到,137页记录与12个版本迭代证明,人类协作模式对改善人机协作至关重要。这种设计哲学暗示,要创造真正理解人类沟通节奏的AI,研究者需先深刻理解人类互动的本质。当AI逐渐具备“持续在场”能力时,其带来的不仅是技术革新,更是对人类认知与依赖关系的重塑——这种转变的深层影响,或许比技术本身更值得关注。











