ITBear旗下自媒体矩阵:

豆包1.8新模型发力:从屏幕理解到现实操控,AI“干活”新突破?

   时间:2025-12-20 15:36:35 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,大模型之间的竞争愈发激烈,用户对模型的期待也水涨船高。如今,仅凭单一优势已难以脱颖而出,要么在性能上实现断层领先,要么能带来前所未有的创新体验。近期,豆包手机助手的发布便引发了广泛关注,其多功能性与出色表现,让不少人对“AI手机”的设想有了更真切的感受。

趁热打铁,豆包在火山引擎的FORCE大会上,推出了全新的基础模型——豆包大模型1.8。这一新模型的优化方向十分明确,其目标不止于打造更强的聊天模型,而是致力于成为通用且面向真实世界的Agent代理。

豆包团队在技术报告中展现出了难得的坦诚。在基础跑分环节,对于表现不及竞争对手的项目,他们如实呈现,不夸大、不回避。在编程(LiveCodeBench)、高难数学(AIME)以及硬核科学推理等领域,Google的Gemini 3-Pro目前仍是行业标杆,豆包大模型1.8在这些方面确实稍显逊色。然而,这种“逊色”并非毫无亮点,其含金量不容小觑。

在Agent能力测试中,豆包实现了对Gemini的反超。在GAIA测试(模拟日常任务执行)和BrowseComp测试(网上资料搜集)中,豆包新模型均取得了优异成绩。尤其值得一提的是,在搜集英文资料(BrowseComp-en)方面,作为中国公司推出的大模型,豆包的表现远超GPT、Gemini、Claude等外国公司的产品,这一成绩令人瞩目。

为了更直观地感受豆包新模型的实际能力,我们进行了一系列测试。借助字节今年开源的Agent TARS框架,我们将豆包1.8新模型的API接入其中,尝试让其完成一些实际任务。例如,我们让豆包协助完成多邻国的打卡任务。只需简单描述需求,豆包便能在浏览器中自动找到多邻国网址,在手动登录账号后,它开始识别屏幕,逐步思考并完成任务。整个过程中,我们可以实时看到豆包的思考路径,如在完成选择后,它会主动寻找下一步的任务按钮。

尽管任务执行耗时约16分钟,速度不算快,但由于其在后台运行,不影响其他操作,因此这一缺点并不影响其实用性。我们还让豆包自动总结与具身智能相关的新闻并保存到本地,甚至询问电脑型号和存储空间剩余情况,它都能通过命令行查询基础信息,并以通俗易懂的语言反馈给我们。

豆包新模型的能力提升,源于多方面的技术优化。一方面,它不断强化对图像的理解能力。Seed1.8在同一接口中支持搜索、代码生成与执行以及GUI交互,检索到的信息、代码运行结果和界面状态都会纳入下一步决策,形成闭环。团队深知,真实环境中Agent能获取的信息多为截图、文字、图标和按钮,因此模型对屏幕的理解能力直接决定了任务完成度。

另一方面,豆包的“记性”也得到了显著增强。视觉理解能力提升后,模型一次性理解的帧数翻倍。假设每六秒截一次屏幕,豆包能一口气理解一小时内的电脑操作记录。它还能边看视频边调用工具,实现视频的反复回看。例如,官网展示的例子中,模型先快速浏览整个视频,再通过VIDEOCUT工具仔细回看关键片段,以加深理解。我们测试时,上传了一段高速公路上车辆行驶的视频,让豆包统计黄色车辆数量,它不仅准确找到了黄车,还标记了出现时间。

豆包团队还特别关注模型“听人话”的能力。针对大模型有时难以理解复杂指令的问题,他们进行了针对性优化。例如,在Inverse IFeval测试集中,设计了许多“反直觉”题目。以一道类似鸡兔同笼的问题为例,题目问笼子里有几种动物,答案显然是两种,但这一简单问题却难倒了GPT,而豆包经过思考后给出了正确答案。

豆包1.8的模型兼容性也表现出色。近年来,通过命令行控制电脑的AI工具层出不穷,其效果取决于任务拆解能力和模型实力。豆包在不同框架下的代码通过率稳定在64.8%至72.9%之间,显示出其不挑工作环境的强大适应性。

随着模型基础能力的不断提升,各AI厂商对AI发展的理解差异也逐渐显现。Anthropic认为代码即智能,DeepSeek坚持数学即智能,谷歌则强调理解即智能,而豆包的思路十分明确——Agent即智能。模型能力越强,越能操纵现实世界中的互联网,便越接近AGI的目标。

在豆包大模型的发布会上,一组数据引发了热议:目前,豆包大模型的日均使用量已达50万亿tokens,较去年刚发布时增长了417倍。这一数字不仅体现了AI发展的迅猛势头,也反映出各行业对AI的旺盛需求。在AI浪潮中,谁能更好地满足实际需求,谁便能在竞争中占据先机。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version