谷歌再次在人工智能领域投下一枚重磅炸弹,正式推出Gemini 3.1 Flash-Lite模型。这款新模型以惊人的输出速度和极具竞争力的价格,在性能测试中全面超越同类产品,被业界称为"性价比之王"。
在输出速度方面,Gemini 3.1 Flash-Lite达到每秒363个token,与自家上一代2.5 Flash-Lite(366 token/s)几乎持平,但远超Gemini 2.5 Flash的249 token/s。对比其他主流模型,GPT-5 mini仅71 token/s,Claude 4.5 Haiku为108 token/s,Grok 4.1 Fast稍快至145 token/s。这意味着Flash-Lite的速度是GPT-5 mini的5倍,Claude 4.5 Haiku的3.4倍。
价格方面,Gemini 3.1 Flash-Lite展现出巨大优势。其输入成本为每百万token 0.25美元,输出成本1.50美元/百万token。相比之下,GPT-5 mini输出价格为2.00美元,Gemini 2.5 Flash为2.50美元,Claude 4.5 Haiku高达5.00美元。更令人惊讶的是,Flash-Lite比同系列的3.1 Pro便宜8倍,在保持高性能的同时将成本压缩到极致。
在多项基准测试中,Gemini 3.1 Flash-Lite表现出色。科学知识和推理能力测试GPQA Diamond上,它取得86.9%的高分,超越GPT-5 mini的82.3%、Claude 4.5 Haiku的73.0%,甚至超过体量更大的Gemini 2.5 Flash(82.8%)。多模态理解测试MMMU-Pro中,Flash-Lite以76.8%的成绩领先,GPT-5 mini为74.1%,Gemini 2.5 Flash为66.7%。
事实准确性测试SimpleQA Verified显示,Flash-Lite准确率达43.3%,而Gemini 2.5 Flash为28.1%,GPT-5 mini仅9.5%,Claude 4.5 Haiku更低至5.5%。多语言能力测试MMMLU中,Flash-Lite以88.9%登顶,超过Gemini 2.5 Flash的86.6%和GPT-5 mini的84.9%。视频理解测试Video-MMMU中,它获得84.8分,同样领先同类产品。
尽管在代码生成测试LiveCodeBench中,Flash-Lite得分72.0%,低于GPT-5 mini的80.4%和Grok 4.1 Fast的76.5%;在Humanity's Last Exam测试中,它获得16.0分,与GPT-5 mini的16.7%接近,但Grok 4.1 Fast以17.6%领先。不过考虑到其价格优势,这些差距显得微不足道。
在Chatbot Arena的文本竞技场中,Gemini 3.1 Flash-Lite以1432的Elo分数排名第36,与OpenAI的旗舰推理模型o3(1432分)和GPT-5 High(1434分)不相上下。代码竞技场中,它得分1261,排名并列35,与Claude Haiku 4.5(1308分)和DeepSeek V3.2(1321分)差距不大。Artificial Analysis评测确认,Flash-Lite在输出速度和成本效益方面达到业界最佳水平。
Gemini 3.1 Flash-Lite的独特优势在于其可调节的"思考深度"功能。开发者可以根据任务复杂度自由设定模型投入的推理资源:对于批量翻译、内容审核等简单任务,采用浅思考模式以最大化速度和降低成本;对于生成UI界面、构建模拟环境等复杂任务,则切换到深度推理模式,效果可与大模型媲美。
实际应用测试进一步验证了Flash-Lite的强大能力。在电商场景中,它能在几秒内用数十个品类、数百款商品自动填充整个电商界面原型,包括名称、价格、分类和图片占位,这项工作以往需要设计师花费半天时间手动完成。在实时数据看板方面,Flash-Lite可结合最新天气预报接口和历史数据,快速生成动态可视化天气数据面板,相当于省去一个前端工程师的工作量。
对于企业用户,Flash-Lite在构建SaaS智能体方面表现突出。它能够处理多步骤灵活任务,如自动化客户工单处理和订单跟踪等流程,其低延迟和低成本特性使其成为高频调用场景的理想选择。面对海量非结构化内容,如图片、文档和用户评论,Flash-Lite还能快速完成分析、标签化和归类整理。
Gemini 3.1 Flash-Lite的发布标志着AI竞争进入新阶段。过去各家大模型主要比拼性能极限,而Flash-Lite的出现将战场转向性价比维度。这款模型用几分之一的价格实现旗舰级效果,以5倍速度碾压竞品,在事实准确性上取得断崖式领先,证明谷歌在性价比赛道上已占据领先地位。对于全球开发者而言,这可能是目前最值得关注的模型之一,毕竟在真实产品场景中,成本和速度往往比单纯跑分更重要。







