ITBear旗下自媒体矩阵:

Thinking Machines Lab打破AI“回合制”局限,翁荔携新模型开启人机交互新篇章

   时间:2026-05-12 13:23:05 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来重大突破,Thinking Machines Lab(简称TML)正式推出首个具备原生实时交互能力的模型TML-Interaction-Small,标志着人机交互模式从传统"回合制"向自由对话的范式转变。该模型支持用户与AI随时插话互动,实现语音与代码的同步输出,在测试中响应速度较GPT-realtime-2.0提升4倍,交互质量实现全面超越。

传统AI系统采用"等待-响应"的邮件式交互模式,用户输入时模型暂停感知,生成内容时无法接收新信息。这种设计导致三大核心缺陷:无法处理中途修正的需求、难以支持时间敏感型任务、协作效率受限于低带宽通道。例如用户询问"我跑一英里用了多久"时,现有系统因缺乏实时感知能力而无法作答。

TML的创新架构通过双模型协同机制破解难题。前台模型以200毫秒为时间单位切割输入输出流,实现连续音频、视频、文本的交错处理。后台模型则负责异步执行复杂推理、工具调用和智能体协作,通过流式传输将结果无缝插入对话。这种设计使系统能直接学习沉默、重叠对话、视觉变化等上下文信息,而非依赖外部组件模拟实时性。

技术实现层面,研发团队摒弃传统独立编码器架构,采用dMel轻量音频编码与hMLP图像编码方案,所有组件与Transformer主干网络联合训练。为应对高频小规模推理需求,团队开发出streaming sessions技术,将客户端发送的200毫秒数据块追加至GPU持久序列,避免内存重复分配带来的性能损耗。相关优化方案已通过SGLang开源平台发布。

该模型的训练历程充满挑战,团队在数月内迭代12个版本,形成137页详细训练日志。测试数据显示,在需要即时反馈的场景中,系统能准确捕捉用户中途修正的指令,并在对话中自然插入计算结果。例如用户编写代码时要求"把循环条件改为小于100",模型可立即调整输出而无需等待完整指令。

这家由OpenAI前CTO Mira Murati创立的实验室,自成立之初便备受关注。在尚未推出产品的阶段即完成20亿美元种子轮融资,估值突破120亿美元。其人才战略聚焦meta等科技巨头,核心团队包括FAIR实验室前研究员Piotr Dollar等顶尖专家。算力布局同样激进,先后与英伟达、谷歌达成总额超十亿美元的合作协议,获取基于GB300芯片的超级计算资源。

此次发布的TML-Interaction-Small采用2760亿参数混合专家架构,激活参数120亿。研发团队坦言,更大规模的预训练模型尚无法满足实时交互需求,计划于年内推出升级版本。新模型将重点优化多模态理解能力,尝试将预训练数据重构为智能体轨迹,为构建下一代人机协作界面奠定基础。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version