在人工智能领域持续创新的浪潮中,微博近日正式推出自主研发的开源大模型Vibe Thinker,以15亿参数的精巧设计在国际顶级数学竞赛基准测试中脱颖而出,成功超越拥有6710亿参数的DeepSeek R1模型。这一突破不仅体现在准确率上的领先,更在于其单次“后训练”成本仅需7800美元,相较于DeepSeek-R1和MiniMax-M1等同类模型,成本降低了数十倍,展现了高效能与低成本并重的显著优势。
Vibe Thinker的核心竞争力在于其采用的轻量化MoE(混合专家)架构与多轮知识蒸馏技术。这一创新设计使得模型在处理数学问题时,仅需5GB以下的数学语料即可完成高效微调,极大地降低了训练资源的需求。同时,微博官方宣布,该模型支持通过Hugging Face平台一键下载,并提供了商用许可,为开发者提供了便捷的接入途径。据微博技术团队透露,在AIME 2025、HMMT等国际知名数学竞赛题库中,Vibe Thinker的平均得分较DeepSeek R1提升了3.4%,推理延迟时间更是降低了42%,这一性能提升使其在教育、金融等对实时性要求较高的场景中展现出巨大的应用潜力。
为了进一步推动技术的普及与应用,微博在开源版本中提供了PyTorch与GGUF两种格式,确保模型能够在不同硬件环境下灵活部署。特别值得一提的是,Vibe Thinker的最低运行要求仅为单张RTX4090显卡,这一低门槛设计使得更多研究机构和开发者能够轻松上手,进行模型的二次开发与优化。微博还同步开放了训练脚本与数据配比方案,为社区贡献了宝贵的技术资源。
展望未来,微博计划于12月推出Vibe Thinker-Math专用数学增强版,这一版本将针对数学领域的特定需求进行深度优化,进一步提升模型在数学问题解决上的能力。与此同时,微博还将联合多所高校举办“轻量级数学挑战赛”,旨在通过竞赛的形式激发创新活力,推动低成本、高精度AI技术的广泛应用,为人工智能领域的发展注入新的动力。






