AIPress.com.cn报道
4月3日消息,谷歌宣布为Gemini API新增两种服务层级,Flex Inference与Priority Inference,以帮助开发者在成本与系统可靠性之间进行更精细的权衡。新机制通过统一接口实现,使开发者能够根据不同任务需求动态调整推理优先级。
随着AI应用从简单对话扩展到更复杂的Agent系统,开发者通常需要同时处理两类任务:一类是无需即时响应的大规模后台任务,例如数据处理或模型“思考”过程;另一类则是面向用户的实时交互任务,如聊天机器人或Copilot工具。这两类任务在延迟和稳定性上的需求差异较大。
此前,开发者往往需要在同步API与异步Batch API之间拆分架构以满足不同需求。谷歌表示,新推出的Flex与Priority层级旨在简化这一流程,使开发者能够通过同一套同步接口处理不同类型的工作负载。
Flex Inference是一种面向成本优化的推理模式,适用于对延迟不敏感的任务场景。开发者在将请求设置为Flex层级后,可以以标准API约一半的价格运行模型,但相应地需要接受更高延迟以及较低的服务可靠性。谷歌表示,该模式适用于客户关系管理数据更新、大规模研究模拟以及需要模型在后台进行复杂推理的Agent工作流。
与之相对,Priority Inference则是面向关键业务场景的高可靠性推理服务。该模式在平台负载较高时仍能优先处理请求,从而提高系统稳定性。若用户的Priority流量超过配额,超出的请求会自动降级至标准服务层级,而不会直接失败,以确保应用持续运行。
谷歌表示,Priority模式适用于实时客服系统、在线内容审核以及对响应速度和稳定性要求较高的应用场景。API返回结果还会标明实际使用的服务层级,使开发者能够更清晰地了解性能表现与计费情况。
两种新服务层级均可通过设置请求参数中的service_tier字段进行调用,并适用于Gemini API中的GenerateContent与Interactions接口。谷歌称,这一机制旨在为开发者提供更灵活的成本与性能控制,以支持AI应用在生产环境中的规模化部署。(AI普瑞斯编译)











