火山引擎近日宣布,豆包大模型家族迎来重要更新——豆包大模型1.6-vision正式上线。这一版本是该系列中首个具备工具调用能力的视觉深度思考模型,标志着多模态技术实现新突破。
据技术团队介绍,1.6-vision版本在通用多模态理解与推理能力上显著提升。该模型不仅支持更复杂的视觉场景解析,还能通过Responses API实现与外部工具的深度交互,为智能系统开发提供更灵活的解决方案。
回顾今年6月的FORCE原动力大会,火山引擎曾集中发布多项技术成果。当时同步推出的豆包大模型1.6版本,已展现出强大的文本处理能力。而此次发布的视觉专项升级,则进一步补全了多模态技术矩阵。
同期亮相的还有豆包·视频生成模型Seedance 1.0 pro,该模型在动态画面生成领域取得突破。豆包·语音播客模型与实时语音模型也完成全量上线,形成覆盖文本、视觉、语音的完整AI技术体系。
技术专家指出,1.6-vision版本的核心优势在于其深度思考机制。通过构建视觉-语言联合推理框架,模型能够模拟人类分析问题的逻辑链条,在医疗影像诊断、工业质检等场景中展现应用潜力。