近日,豆包大模型家族迎来重要更新——其首款具备工具调用能力的视觉深度思考模型1.6-vision正式亮相。该模型在多模态理解和推理能力上实现突破,不仅支持图像定位、剪裁、点选等精细操作,还能通过模拟人类视觉认知过程完成复杂图像处理任务。
据技术团队介绍,1.6-vision模型创新性地将图像处理融入思维链,实现了从全局扫描到局部聚焦的渐进式推理。这种设计使模型能够像人类一样先把握整体结构,再聚焦关键细节,在提升操作精准度的同时增强了推理过程的可解释性。例如在医疗影像分析场景中,模型可先识别器官整体形态,再精准定位病变区域。
在开发效率方面,该模型通过Responses API接口实现了工具调用自动化。开发者无需编写大量代码即可完成图像处理功能集成,据实测数据显示,Agent开发环节的代码量较传统方式减少约60%。这种低代码开发模式显著降低了多模态应用的开发门槛。
成本优化是本次升级的另一大亮点。与前代视觉理解模型Doubao-1.5-thinking-vision-pro相比,1.6-vision在保持同等性能的前提下,将综合使用成本降低了约50%。这主要得益于模型架构的优化和推理效率的提升,使得单位算力能够处理更复杂的视觉任务。
目前,该模型已开放商业应用接口,支持包括工业质检、智慧零售、文档分析在内的多领域场景。技术文档显示,模型可处理最大8K分辨率的图像输入,支持30余种图像操作指令,在标准测试集上的物体识别准确率达到98.7%,操作指令执行成功率超过95%。