谷歌沉寂一年多后,携全新升级的多模态大模型Gemini 3重返公众视野。此次更新不仅带来了前端UI的全面升级,更在性能上实现了显著提升。尽管在深度推理和上下文一致性方面,Gemini 3与ChatGPT 5.1 thinking仍存在一定差距,但其已能满足绝大多数用户的基本AI需求,引发了业界和用户的广泛关注。
Gemini 3的架构设计是其一大亮点。它采用了稀疏Mixture-of-Experts(MoE)Transformer架构,原生支持文本、图像、音频和视频等多种模态输入。这种设计使得模型能够跨模态进行推理,例如同时理解视频内容和讲解文字,从而更准确地解释实验失败的原因。Gemini 3还具备超长上下文处理能力,输入上限高达100万token,输出上限为6.4万token,为处理长文档、代码库和长时间视频提供了有力支持。
Gemini 3的训练流程分为三个阶段:自监督预训练、监督式指令微调和强化学习。在预训练阶段,模型在多模态数据上进行类似“下一个token预测”的自监督训练,以学习通用语言和世界知识。随后,通过监督式指令微调,模型使用人类编写的高质量多模态指令数据进行微调,以提升其理解和执行指令的能力。最后,在强化学习阶段,模型通过人类和批评模型的反馈进行进一步优化,特别是在多步推理、问题求解和定理证明等方面取得了显著进展。
从设计选择来看,Gemini 3体现了谷歌在容量与成本、场景优先、推理优先、安全与合规以及全栈一体化等方面的深刻洞察。通过采用稀疏MoE架构,谷歌在相同算力下实现了更大的参数容量,从而提升了模型的表达力和专业化能力。同时,原生多模态和超长上下文设计使得模型能够直接处理代码库、产品文档等复杂场景,为用户提供更便捷的AI助手体验。在推理方面,谷歌通过强化学习刻意强化了模型的多步推理和定理证明能力,使其在多个高难度推理基准上表现出色。
然而,尽管Gemini 3在知识准确性和推理能力方面取得了显著进展,但其幻觉问题仍然较为严重。据评测数据显示,当Gemini 3无法给出正确答案时,它仍然倾向于提供一个自信的错误答案,而不是承认自己不知道。这一问题在可靠性基准测试中尤为突出,尽管Gemini 3在正确率方面领先,但幻觉率也相对较高。因此,对于用户而言,将Gemini 3视为一个“知识丰富、推理强大但自我认知尚待提升”的AI助手可能更为恰当。










