由开源推理引擎vLLM核心团队创立的AI基础设施企业Inferact,近日宣布完成1.5亿美元种子轮融资,投后估值达8亿美元。本轮融资由a16z与Lightspeed联合领投,真格基金、红杉资本、Altimeter Capital及Redpoint Ventures等机构参与跟投。
作为全球最具影响力的开源推理引擎之一,vLLM已支持超过500种模型架构,适配200余类硬件加速器,meta、谷歌、Character.ai等科技企业均已将其应用于生产环境。该项目在GitHub社区拥有超2000名贡献者,长期保持同类项目活跃度前列,为Inferact的成立奠定了坚实基础。
Inferact核心团队均来自vLLM核心开发阵营。首席执行官Simon Mo作为vLLM原始维护者,毕业于加州大学伯克利分校电气工程与计算机科学系,专注于机器学习系统设计,此前在AI基础设施公司Anyscale积累了丰富的工程落地经验。
联合创始人Woosuk Kwon是vLLM项目发起人,拥有伯克利计算机科学博士学位,师从Databricks联合创始人Ion Stoica教授。他提出的Paged Attention算法通过优化KV Cache显存效率,成为提升vLLM吞吐性能的关键技术突破。
首席科学家游凯超曾获清华大学特等奖学金,并在伯克利EECS系担任访问学者。他主导开发的分布式推理功能,通过优化张量并行与PyTorch生态接口,显著降低了多卡环境下大模型推理的开发门槛,使系统稳定性得到质的提升。
团队技术阵容还包括前Roblox高级机器学习工程师Roger Wang,以及以深度顾问形式参与项目的Ion Stoica教授与伯克利计算机科学教授Joseph Gonzalez。这种产学研结合的架构,为技术突破与商业落地提供了双重保障。
据Inferact官方声明,公司将继续以独立开源项目形式维护vLLM,所有技术改进均会回馈社区。同时,团队将重点构建跨硬件平台的推理基础设施,通过优化资源调度与能耗管理,帮助企业降低AI模型部署与运营成本。目前,其技术方案已实现单服务器每秒处理数万token的推理能力,在长文本生成场景中表现尤为突出。










