在近期于上海举办的FORCE LINK AI创新巡展活动中,火山引擎隆重推出了一系列AI模型升级新品,这些产品包括豆包·视频生成模型的轻量级版本Seedance 1.0 lite、豆包1.5·视觉深度思考模型,以及豆包·音乐模型。这一系列新品旨在通过更为完善的模型矩阵和多样化的智能工具,帮助企业构建从业务到智能应用的无缝链接,加速企业的智能化转型进程。
在这些新品中,Seedance 1.0 lite尤为亮眼。作为豆包视频生成模型系列的新成员,它以较小的参数量实现了令人瞩目的技术突破。Seedance 1.0 lite不仅提供了影视级的视频生成质量,还大幅提升了视频生成速度,实现了效果、速度与性价比的完美平衡。该模型支持文本生成视频和图片生成视频两种方式,用户可以根据需求选择5秒或10秒的视频时长,以及480P或720P的分辨率。
Seedance 1.0 lite在指令遵循能力上表现出色,通过强大的语义理解能力,它能够精确控制视频中人物的外貌、衣着、表情和动作等细节。该模型在多主体动作解析、嵌入式文本响应、程度副词处理和镜头切换响应等方面也具有显著优势,使得生成的视频内容更加自然、逼真。同时,Seedance 1.0 lite还支持多种影视级运镜技术,如360度环绕、航拍、变焦等,为视频增添了细腻高清的画质和影视级的美感。
在应用方面,Seedance 1.0 lite展现了广泛的适用性。在电商领域,它能够帮助商家快速生成高质量的营销视频素材,精准匹配产品展示和活动推广等场景,有效降低制作成本和周期。该模型还可应用于娱乐特效、影视创作、动态壁纸等多个领域,为创作者提供强大的视频生成支持。
另一款新品豆包1.5·视觉深度思考模型同样引人注目。这款多模态模型以仅20B的激活参数,在60个公开评估基准中的38个方面取得了最佳成绩,尤其在视频理解、视觉推理和GUI Agent能力方面表现卓越。通过采用动态帧率采样技术,豆包1.5显著提升了视频时序定位的准确性,结合向量搜索功能,能够精确识别视频中与文本描述相匹配的片段。
豆包1.5·视觉深度思考模型还具备强大的视频深度思考能力。通过学习数万亿多模态标记数据,并结合强化学习技术,该模型积累了丰富的视觉知识,显著增强了视觉推理能力。在复杂的图形推理任务中,它能够自主提出假设、进行推理验证,并在发现与假设不符时不断反思并提出新的假设,直至得出正确答案。
豆包1.5·视觉深度思考模型还新增了GUI Agent功能。凭借其强大的GUI定位能力,该模型能够在多种不同环境中执行复杂的交互任务。例如,在新开发的App功能自动化测试中,豆包1.5已展现出显著的应用效果,目前已在字节跳动的多款App产品中得到实际应用。