字节跳动近日正式推出全新一代音视频生成模型Seedance 1.5 pro,这款模型突破了传统生成式技术的局限,首次实现从文本或图像输入到带同步音频视频的完整创作流程。该技术通过深度整合音视频生成模块,在保持内容连贯性的同时,能够精准控制语音与画面的时空同步关系。
在语音生成维度,模型支持中、英、日等主流语言,并特别强化了方言语音的拟真度。研发团队通过构建多维度声学特征库,使系统能够模拟四川话的抑扬顿挫和粤语的九声六调,甚至能捕捉不同地域的语调起伏特征。针对影视创作需求,模型还优化了情感语音合成技术,可根据文本情境自动调整语速、重音和停顿节奏。
画面生成方面,该模型引入智能运镜算法,突破传统固定视角限制。通过分析文本中的空间关系和叙事节奏,系统可自主规划镜头运动轨迹,实现长镜头跟随、动态变焦等专业拍摄效果。在测试案例中,模型成功生成了包含多人物互动的复杂场景,通过动态调整景深和焦点位置,营造出电影级的视觉层次感。
技术架构上,研发团队采用改进型MMDiT框架,构建了多阶段数据优化链路。在预处理阶段,系统将输入文本解析为时空语义单元;生成阶段通过强化学习机制动态调整音视频参数;后处理环节则运用物理引擎进行运动合理性校验。这种分层优化策略使模型在人物口型匹配度、背景音效空间定位等指标上达到行业领先水平。
实际应用测试显示,该模型在广告制作、短视频创作等领域展现出显著优势。某影视公司试用后反馈,模型生成的宣传片在人物表情自然度、场景转换流畅性方面接近专业水准,但处理高速运动物体时仍存在形变问题。研发团队透露,后续版本将重点优化多角色交互场景的物理引擎,并计划开放部分参数接口供创作者微调。







