滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

豆包1.8新模型发力：从屏幕理解到现实操控，AI“干活”新突破？

时间：2025-12-20 15:36:35 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，大模型之间的竞争愈发激烈，用户对模型的期待也水涨船高。如今，仅凭单一优势已难以脱颖而出，要么在性能上实现断层领先，要么能带来前所未有的创新体验。近期，豆包手机助手的发布便引发了广泛关注，其多功能性与出色表现，让不少人对“AI手机”的设想有了更真切的感受。

趁热打铁，豆包在火山引擎的FORCE大会上，推出了全新的基础模型——豆包大模型1.8。这一新模型的优化方向十分明确，其目标不止于打造更强的聊天模型，而是致力于成为通用且面向真实世界的Agent代理。

豆包团队在技术报告中展现出了难得的坦诚。在基础跑分环节，对于表现不及竞争对手的项目，他们如实呈现，不夸大、不回避。在编程（LiveCodeBench）、高难数学（AIME）以及硬核科学推理等领域，Google的Gemini 3-Pro目前仍是行业标杆，豆包大模型1.8在这些方面确实稍显逊色。然而，这种“逊色”并非毫无亮点，其含金量不容小觑。

在Agent能力测试中，豆包实现了对Gemini的反超。在GAIA测试（模拟日常任务执行）和BrowseComp测试（网上资料搜集）中，豆包新模型均取得了优异成绩。尤其值得一提的是，在搜集英文资料（BrowseComp-en）方面，作为中国公司推出的大模型，豆包的表现远超GPT、Gemini、Claude等外国公司的产品，这一成绩令人瞩目。

为了更直观地感受豆包新模型的实际能力，我们进行了一系列测试。借助字节今年开源的Agent TARS框架，我们将豆包1.8新模型的API接入其中，尝试让其完成一些实际任务。例如，我们让豆包协助完成多邻国的打卡任务。只需简单描述需求，豆包便能在浏览器中自动找到多邻国网址，在手动登录账号后，它开始识别屏幕，逐步思考并完成任务。整个过程中，我们可以实时看到豆包的思考路径，如在完成选择后，它会主动寻找下一步的任务按钮。

尽管任务执行耗时约16分钟，速度不算快，但由于其在后台运行，不影响其他操作，因此这一缺点并不影响其实用性。我们还让豆包自动总结与具身智能相关的新闻并保存到本地，甚至询问电脑型号和存储空间剩余情况，它都能通过命令行查询基础信息，并以通俗易懂的语言反馈给我们。

豆包新模型的能力提升，源于多方面的技术优化。一方面，它不断强化对图像的理解能力。Seed1.8在同一接口中支持搜索、代码生成与执行以及GUI交互，检索到的信息、代码运行结果和界面状态都会纳入下一步决策，形成闭环。团队深知，真实环境中Agent能获取的信息多为截图、文字、图标和按钮，因此模型对屏幕的理解能力直接决定了任务完成度。

另一方面，豆包的“记性”也得到了显著增强。视觉理解能力提升后，模型一次性理解的帧数翻倍。假设每六秒截一次屏幕，豆包能一口气理解一小时内的电脑操作记录。它还能边看视频边调用工具，实现视频的反复回看。例如，官网展示的例子中，模型先快速浏览整个视频，再通过VIDEOCUT工具仔细回看关键片段，以加深理解。我们测试时，上传了一段高速公路上车辆行驶的视频，让豆包统计黄色车辆数量，它不仅准确找到了黄车，还标记了出现时间。

豆包团队还特别关注模型“听人话”的能力。针对大模型有时难以理解复杂指令的问题，他们进行了针对性优化。例如，在Inverse IFeval测试集中，设计了许多“反直觉”题目。以一道类似鸡兔同笼的问题为例，题目问笼子里有几种动物，答案显然是两种，但这一简单问题却难倒了GPT，而豆包经过思考后给出了正确答案。

豆包1.8的模型兼容性也表现出色。近年来，通过命令行控制电脑的AI工具层出不穷，其效果取决于任务拆解能力和模型实力。豆包在不同框架下的代码通过率稳定在64.8%至72.9%之间，显示出其不挑工作环境的强大适应性。

随着模型基础能力的不断提升，各AI厂商对AI发展的理解差异也逐渐显现。Anthropic认为代码即智能，DeepSeek坚持数学即智能，谷歌则强调理解即智能，而豆包的思路十分明确——Agent即智能。模型能力越强，越能操纵现实世界中的互联网，便越接近AGI的目标。

在豆包大模型的发布会上，一组数据引发了热议：目前，豆包大模型的日均使用量已达50万亿tokens，较去年刚发布时增长了417倍。这一数字不仅体现了AI发展的迅猛势头，也反映出各行业对AI的旺盛需求。在AI浪潮中，谁能更好地满足实际需求，谁便能在竞争中占据先机。

更多>同类资讯

国产手机千元机时代落幕，成本与市场变革下便宜手机路在何方？

03-23

辛选超市转战线上：去头部化下，能否借新布局沉淀流量寻突破？

03-23

商业航天“五小龙”竞逐：谁能率先突围，成为中国版SpaceX？

03-23

京东欧洲战略新篇：以超级供应链能力，重塑欧洲电商新版图

03-23

字节跳动溢价出售沐瞳科技，游戏业务收缩，战略重心转向AI新赛道

03-23

上交所受理宇树科技IPO，人形机器人龙头估值或飙升至500亿？

03-23

家电企业竞逐AI赛道，全屋智能何时能实现“无感操控”新体验？

03-23

雷军微博更正“相对速度120km/h碰撞”表述，感谢网友指正其口误

3月21日午间，小米集团创始人、董事长兼CEO雷军在微博发文称：“发布会上，我在解释‘相对速度120km/h碰撞’时候，口误多讲了一句，‘相当于120km/h时速撞墙’，确实说错了。感谢网友们指正。”此前3月…

03-23

雷军就小米汽车对撞表述口误致歉，小米SU7新品实力仍获认可

小米SU7新一代上市，价格仅涨4000元，成功换代，但雷军误称碰撞能量为“120km/h撞墙”引发争议，后致歉。

03-23

马斯克TERAFAB工厂开建，年产1太瓦算力，人类迈向星际文明新征程启航

03-23

百度DuMate全量上线！零门槛操作+多重安全防护，开启企业办公新体验

03-23

德系豪华承压，小米两代SU7接力领跑，中国汽车工业迎来关键逆转

03-23

马斯克Terafab工厂：以算力为基，为人类星际文明筑牢底层根基

03-23

贾佳亚：创新科研赋能产业创业育人共筑AI新未来

贾佳亚本科毕业4年后获得计算机博士学位，37岁获聘香港中文大学终身教授，41岁创办人工智能领域企业，创新、创业、育人多向发力。 2011年，贾佳亚带领研究团队，解决了图像处理领域的一个难题——如何在平滑图像、…

03-23

雷军揭秘新一代SU7：靛石绿夺冠，卡布里蓝与赤霞红谁更胜一筹？

03-23

点击查看更多 +

全站最新

雷军微博更正“相对速度120km/h碰撞”表述，感谢网友指正其口误

雷军就小米汽车对撞表述口误致歉，小米SU7新品实力仍获认可

东风日产NX8携天演架构2.0登场，大品牌大空间大智慧开启家庭出行新体验

马斯克Terafab工厂：以算力为基，为人类星际文明筑牢底层根基

首钢携手中国一汽突破极限！2400MPa级热成形钢助力汽车安全与轻量化升级

油价飙升引连锁反应：车企利润承压，动力总成格局悄然生变

热门内容

本栏最新

雷军微博更正“相对速度120km/h碰撞”表述，感谢网友指正其口误

雷军就小米汽车对撞表述口误致歉，小米SU7新品实力仍获认可

马斯克Terafab工厂：以算力为基，为人类星际文明筑牢底层根基

从村长到科技新贵：52岁李锐迪拜签12亿大单，跨界人生同样精彩

京东服饰携手国际时装周，以四大篇章解锁超级面料春日品质美学新体验

蔡崇信谈AI发展：中国科技迎爆发期，阿里全栈布局引领智能新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.