北京AI基础设施领域迎来一家新锐企业清程极智的阶段性成果展示。这家脱胎于清华大学计算机系高性能计算团队的创业公司,在成立不到三年时间内已完成三轮融资,获得北京市人工智能产业基金、联想集团和中科创星等机构注资。公司今日向媒体披露,其自主研发的智能计算软件栈、大模型推理引擎及服务评测平台已形成完整技术矩阵,覆盖从训练到推理再到应用落地的全链条需求。
针对当前大模型应用中日益突出的Token服务乱象,清程极智推出AI Ping评测平台。该系统通过北京、上海、深圳、成都四地分布式节点,对市场上主流Token服务商进行7×24小时匿名测试。测试数据显示,不同服务商在首Token延迟、吞吐量、上下文支持长度等核心指标上存在四至五倍差异。更值得关注的是,部分厂商通过低单价吸引用户,却因缓存命中率低下导致实际使用成本激增,这种"价格陷阱"在评测中被系统化暴露。
在技术实现层面,AI Ping采用动态输入机制防止服务商针对性优化,其评测结果与头部云厂商内部监控数据误差控制在1%以内。通过智能路由调度系统,该平台已帮助用户降低超37%的Token采购成本,同时将服务可用率提升至99.99%以上。这种"模型导航"功能对中小企业尤其具有价值,解决了其独立评测多供应商的技术门槛和成本障碍。
公司另一核心产品赤兔推理引擎则聚焦国产算力适配。区别于简单移植国外开源方案,该引擎从底层架构开始重构,针对昇腾、沐曦、海光等国产芯片特性优化计算流程。通过软件实现FP8/FP4量化支持,在无硬件加速的国产GPU上仍能保持可用性能,有效降低推理成本。测试数据显示,搭载赤兔引擎的系统在国产芯片上可实现每秒处理数万Token,吞吐量较通用方案提升90%以上。
技术团队透露,赤兔引擎的研发受益于高性能计算领域数十年积累。在流体力学模拟、药物设计等传统计算领域积累的并行优化经验,为大模型推理引擎开发提供了重要参考。这种跨领域技术迁移,使得国产芯片在AI场景下的性能发挥效率显著提升,算子库手工优化与编译器自动优化相结合的策略,有效减少了数据搬运带来的性能损耗。
面对国产算力生态碎片化现状,清程极智选择站在系统级优化角度突破。技术负责人指出,当前国产芯片厂商各自建设生态体系,但底层技术需求存在共性。通过开发通用型软件栈,既能避免重复造轮子,又能加速形成产业合力。这种定位已获得多家国产芯片厂商认可,相关适配工作正在持续推进。
在应用趋势判断上,团队观察到长上下文、多轮交互等新型应用正在改变Token消耗模式。虽然市场价格持续走低,但实际需求增长速度更快,算力供给仍面临压力。通过AI Ping的智能调度系统,可在全国范围内实现算力余缺调剂,既提升资源利用率,又为用户创造新的成本优势。这种基于实时数据的资源调配模式,正在重塑Token服务的市场格局。
关于模型架构演进,技术专家认为通用人工智能(AGI)目标尚未收敛,自回归架构之外的技术路线值得关注。去年蚂蚁集团探索的扩散机制语言模型,以及谷歌在多模态统一模型方面的尝试,都预示着行业可能迎来新的技术突破。这种持续创新的环境,对底层基础设施的灵活性和扩展性提出了更高要求,也为AI Infra领域创造了持续发展空间。











