全球首个统一多模态视频生成模型——可灵视频O1,近日正式面向所有用户开放使用。该模型通过构建新一代生成式技术底座,实现了多模态任务的无缝整合,用户无需在不同功能模块间切换,即可在单一交互界面完成复杂创作需求。
技术架构方面,可灵O1创新性地引入MVL(多模态视觉语言)交互框架,结合思维链(Chain-of-thought)推理机制,使模型具备对图像、视频、文本的深度语义理解能力。官方演示显示,系统可精准解析用户输入的各类素材指令,无论是文字描述、参考图片还是视频片段,均能转化为连贯的生成内容。
在创作体验层面,全新上线的交互界面大幅降低了技术使用门槛。用户通过自然语言对话即可操控素材组合,系统支持对生成细节的逐帧调整,包括光影效果、运动轨迹等参数。测试案例表明,即使非专业用户也能快速掌握复杂场景的构建方法。
针对视频生成的核心痛点,该模型在主体一致性方面取得突破。通过多视角主体建模技术,镜头切换时人物/物体的特征保持高度稳定,避免出现形变或逻辑错误。更支持同时处理多个独立主体,各元素间的空间关系与互动逻辑均能自动推演生成。
据技术文档披露,模型训练数据覆盖亿级规模的图文视频素材,经过多轮对齐优化后,在运动合理性、场景连贯性等指标上达到行业领先水平。目前开放的功能已涵盖影视制作、广告创意、教育演示等多个领域,后续将持续迭代更多专业化工具模块。





