当人工智能从回答问题迈向交付结果,算力需求正经历一场前所未有的结构性变革。云端推理的高成本与不确定性,让行业开始重新思考算力分配的路径——是否该将计算能力从集中式云端向分布式终端迁移?这一命题背后,隐藏着AI普惠化的关键密码。
消费级硬件的潜力远未被充分挖掘。传统认知中,终端设备受限于内存、算力等硬件条件,只能运行轻量化模型。但万格智元团队通过自研非GPU推理引擎,成功在普通电脑上实现了300亿参数模型的本地化部署。这项突破性技术将内存占用压缩至4GB量级,推理速度达到30 tokens/s,直接对标云端GPT-4o级性能。技术负责人王冠博指出:"我们不是为了适配终端而牺牲模型能力,而是要让真正的大模型在终端设备上高效运行。"
这种技术路线变革带来三重价值重构。首先,成本结构发生根本性转变:一次性硬件投入后,边际推理成本趋近于零,彻底摆脱云端按token计费模式。其次,响应延迟被严格限定在终端设备内部,无需云端往返传输数据。最关键的隐私保护层面,所有计算过程在本地完成,数据无需离开设备,从架构层面杜绝信息泄露风险。这些特性使得AI代理(Agent)得以在离线环境持续运行,机器人不再依赖云端大脑与网络链路。
清华大学计算机系博士王冠博带领的团队,正在构建AI时代的"算力供水系统"。这套端侧推理引擎通过算子优化与流式并行调度,将大模型拆解为可协同计算的模块单元。就像将大型工程分解为多个并行施工的子项目,既突破硬件限制,又保持计算效率。技术验证显示,在16GB内存的普通电脑上,300亿参数模型的推理吞吐率与云端服务持平,而能耗仅为后者的1/5。
行业竞逐的焦点正从云端向终端迁移。当前多数端侧方案仍聚焦GPU优化,但消费级硬件的内存带宽、功耗限制等特性,使得这类方案难以真正落地。万格智元选择直接切入最苛刻的消费级场景,其技术路线已实现三大突破:在有限硬件资源下完成大模型部署、保持推理速度的可用性、确保系统级隐私安全。这种差异化定位使其在种子轮融资中获得头部机构数千万元支持。
技术突破正在打开新应用场景。本地化部署的AI代理可实现7×24小时持续运行,无需计算每次调用的成本。在工业机器人领域,离线推理能力使设备能在电梯、野外等网络覆盖盲区自主作业。个人助理类应用则通过本地化部署,彻底消除用户对数据隐私的顾虑。这些场景的商业化验证,正在重塑AI技术的价值评估体系——不再单纯比较模型参数量,而是聚焦实际场景中的可用性、经济性与安全性。
创始团队的技术积累可追溯至七年前。王冠博在同济大学期间便开始探索科技竞赛的商业化路径,这段经历让他深刻认识到:"将技术转化为可交付的产品带来的获得感,远超单纯的理论突破。"这种认知驱动他在清华攻读博士期间持续深耕端智能领域,累计发表近十篇顶会论文。其创业历程印证了技术理想主义与商业现实的融合可能——从首次组队创业到二次创业,团队始终保持着核心成员的稳定性与技术方向的连贯性。
当被问及技术路线选择时,王冠博强调:"性能门槛必须首先跨越。"团队拒绝采用裁剪模型参数的妥协方案,而是通过底层引擎创新实现真正的大模型本地化。这种坚持源于对AI发展规律的判断:随着开源模型能力快速提升,80%的日常任务可通过中高端模型完成,这为终端推理创造了市场基础。而剩余20%的极致性能需求,仍可通过云端协同满足,形成"端云协同"的新生态。
资本市场的选择印证了技术路线的前瞻性。在完成数千万元种子轮融资后,团队正加速推进技术迭代与场景落地。投资方看重的不仅是当前技术指标的突破,更是其重构AI基础设施的潜力——当算力变得像水电一样触手可及,将催生无数现在难以想象的创新应用。这种基础设施级的变革,可能重新定义人工智能时代的生产力边界。









