谷歌近日宣布,其Gemini API将新增两种服务层级——Flex Inference与Priority Inference,旨在为开发者提供更灵活的成本与性能管理方案。这一调整允许开发者根据任务需求动态选择推理优先级,通过统一接口实现不同场景下的优化配置,无需再为同步与异步任务设计复杂架构。
随着AI应用场景的扩展,开发者常需同时处理两类任务:一类是允许较高延迟的后台计算,如大规模数据处理或模型深度推理;另一类是要求即时响应的交互任务,例如智能客服或实时协作工具。传统模式下,开发者需通过拆分系统架构、混合使用同步与异步API来满足需求,这增加了开发复杂度与维护成本。
Flex Inference专为成本敏感型任务设计。开发者将请求设置为该层级后,模型运行成本可降低约50%,但需接受更长的响应时间与较低的服务稳定性。谷歌建议,该模式适用于客户关系管理系统数据更新、科研模拟计算以及需要模型在后台进行多步骤推理的Agent工作流等非实时场景。
Priority Inference则聚焦于关键业务场景。该层级通过优先级调度机制,确保请求在系统高负载时仍能优先处理,从而提升服务可靠性。若用户设置的Priority流量超出配额,超出部分将自动降级至标准服务,避免应用中断。谷歌强调,实时客服系统、在线内容审核平台以及金融交易等对延迟与稳定性要求严苛的场景,均可通过该模式获得优化支持。
开发者可通过修改请求参数中的service_tier字段,直接调用这两种新层级,且二者均支持Gemini API的GenerateContent与Interactions接口。API返回结果将明确标注实际使用的服务层级,帮助开发者直观掌握性能表现与费用消耗。这一机制被视为谷歌降低AI应用规模化部署门槛的重要举措,为开发者在成本与性能之间提供了更精细的平衡选项。











