ITBear旗下自媒体矩阵:

小米MiMo-V2.5-Pro UltraSpeed模式发布:通用GPU实现1T模型超千tokens/s推理

   时间:2026-06-10 05:09:44 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,一场关于模型推理速度的突破性进展引发行业震动。MiMo模型团队与TileRT系统团队联合宣布,其最新研发的Xiaomi MiMo-V2.5-Pro模型UltraSpeed模式,在标准通用GPU环境下实现万亿参数(1T)模型推理速度突破1000tokens/s,这一成果标志着AI应用范式即将迎来根本性变革。

传统技术路径中,追求极致推理速度往往需要依赖专用硬件架构。此次突破性成果完全基于8卡标准GPU节点实现,通过模型与系统的深度协同设计(Codesign),在保持模型精度的前提下,将硬件资源利用率提升至全新高度。研发团队采用FP4量化技术,仅对MoE架构中的专家模块进行量化处理,既压缩了90%的模型体积,又确保关键能力不受影响。配合DFlash投机解码算法,通过块级并行预测和滑动窗口注意力机制,使推理过程摆脱传统串行约束,在代码生成场景中实现平均6.30tokens的连续接受长度。

系统层面的创新同样关键。TileRT执行框架引入常驻内核引擎,将计算流水线永久驻留GPU内存,使数据搬运与计算操作实现完全重叠。通过异构流水线协作技术,将通信、数据搬运和张量计算拆解至线程束级别,构建出精密协作的异构执行系统。这种软硬件深度融合的设计,使得编译引擎与计算核能够针对FP4量化和DFlash算法进行微秒级优化,最终在通用硬件上实现专用芯片级的推理性能。

此次技术突破将直接改变多个领域的运作模式。在金融交易领域,毫秒级响应能力使高频量化策略获得更精准的决策窗口;医疗场景中,实时影像分析为手术操作争取宝贵时间;开发领域则迎来代码生成效率的质的飞跃——开发者可同时验证数十条推理路径,通过自动纠错机制显著提升输出质量。某量化交易机构实测显示,接入该技术后策略执行延迟降低87%,年化收益提升3.2个百分点。

该技术采用限时开放策略,2026年6月9日至6月23日期间,开发者可通过申请制体验UltraSpeed模式。API服务定价为标准版的3倍,但提供10倍的输出速度提升,不过该服务仅支持API调用,暂不开放TokenPlan订阅。为保障资源合理分配,系统设置每日最多10次队列进入权限,单次会话时长限制为30分钟,空闲超5分钟将自动释放资源。这项突破不仅证明通用GPU的潜力尚未完全开发,更为AI基础设施的演进指明新方向——通过算法与系统的协同创新,在现有硬件框架内挖掘出指数级性能提升空间。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version