ITBear旗下自媒体矩阵:

OpenAI 前 CTO 创业大模型首秀,第一剑先斩 ChatGPT 聊天框

   时间:2026-05-12 19:49:38 来源:APPSO编辑:快讯 IP:北京 发表评论无障碍通道
 
2013 年的科幻电影《Her》中,操作系统 Samantha(萨曼莎)让观众首次具象化了理想的 AI 存在方式:不等你说完即可开口、能感知语气迟疑,且始终「在场」,而非被动等待唤醒。

十三年后,由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布了一篇研究预览,其构建的交互模型在底层追求上,与 Samantha 的逻辑高度契合。这篇题为《交互模型:人机协作的可扩展方案》的博客,全篇反复强调的核心便是一个词:「presence」——持续在场。博客链接地址:https://thinkingmachines.ai/blog/interaction-models/颇有意思的是,2024 年正是 Mira Murati 在 OpenAI 主持发布了 GPT-4o 的高级语音模式,让人机交互开始更接近人与人的自然交流。两年后,她带着出走的团队另起炉灶,却又把这件事从头做了一遍。评论区的吐槽也是一条比一条犀利。人类已被移出 AI 协作群聊文章开篇指出,结合 METR 在 2025 年的研究报告,主流 AI 公司普遍倾向将「模型自主完成长任务」作为最重要的能力指标,导致目前的交互界面几乎没给人类留出持续参与的空间。但在实际工作中,需求极少能在最初就交代得完美无缺。高质量产出往往需要人持续介入与反复调整,而现有的「回合制」机制恰恰缺乏这样的通道。语言学者 Clark 和 Brennan 在 1991 年的研究表明:高效沟通依赖共在、同时性和并发性。双方需共处同一情境,同步接收和表达信息;同时,如 Walter Ong 在 1982 年关于「口语稍纵即逝性」的研究所示,对话的本质在于高频参与。结合哈耶克 1945 年的理论,真正有价值的知识正存在于这类即时的细节传递中。

现在的模型工作时,用户输入,AI 等待;AI 输出时,则对用户的即时反应一无所知。Thinking Machines 将此比喻为:面对紧迫分歧不去当面沟通,而是靠发邮件来回拉扯。

目前的实时语音市场存在两条存在局限的路线:大多数主流商业系统是靠在模型外接入语音活动检测(VAD)等组件拼接出的「伪实时」。这种外挂组件的管理方式局限性明显:模型无法主动打断对话,无法对屏幕报错等视觉变化作即时反应,更难以胜任「边听边同传」这类高频并发任务。 而另一方面,市场上虽然也出现了 Moshi、PersonaPlex 等无需 VAD 的原生全双工系统,但它们多为较小规模的模型,为了低延迟在综合智能水平上做出了妥协。

Thinking Machines 认同强化学习学者 Richard Sutton 的观点:依赖人工设计组件的系统最终会被通用学习赶超。交互能力必须成为模型原生的一部分。
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version