OpenAI于近日正式推出全新视频生成模型Sora 2,该模型在物理规律模拟、视觉真实感及交互控制能力上实现显著突破,并首次支持语音对话与背景音效的同步生成。这一技术进展被视为视频生成领域的重要里程碑。
据技术团队介绍,Sora 2的研发建立在初代模型基础上。2024年初推出的首代Sora曾被业界类比为视频生成领域的GPT-1时刻,其通过构建基础世界模型框架,为后续技术迭代奠定基础。经过持续优化,新一代模型在复杂动态场景的还原能力上取得质的飞跃,能够精准模拟液体浮力、物体刚性碰撞等物理特性。
在演示案例中,Sora 2成功完成两项高难度任务:其一是生成符合奥运标准的体操动作视频,通过精确控制人体关节运动轨迹,实现专业级动作演绎;其二是模拟桨板运动员完成后空翻的完整过程,从腾空姿态到入水动态均符合流体力学原理。这些场景在过往视频生成技术中均难以实现。
技术文档显示,该模型通过多模态训练架构,将语言理解、物理引擎与视听生成模块深度融合。在交互层面,用户可通过自然语言实时调整视频参数,同时系统能根据场景需求自动匹配环境音效,形成沉浸式视听体验。这种突破使得动态内容创作从"结果生成"迈向"过程可控"的新阶段。