可灵AI通过官方公众号正式宣布,其研发的全球首个统一多模态视频模型——可灵视频O1模型已全面上线。这一突破性成果标志着视频生成技术迈入全新阶段,通过整合多模态交互能力,为用户提供更智能、更灵活的创作体验。
据官方介绍,可灵O1模型的核心创新在于构建了统一的生成式底座架构。该架构突破了传统功能模块的割裂限制,通过引入MVL(多模态视觉语言)交互框架,实现了文本、图像、视频等不同形式输入的无缝融合。用户仅需在单一交互界面中输入指令,即可完成复杂场景的生成任务,显著提升了创作效率。
技术层面,模型深度融合了Chain-of-thought推理机制,使其具备强大的常识判断与事件推演能力。官方宣称,该系统能够精准解析各类输入内容,无论是静态照片、动态视频还是文字描述,均可转化为可执行的创作指令。配合全新升级的交互界面,用户通过自然语言对话即可自由调用素材库,实现细节参数的精准调控。
在主体呈现方面,可灵O1模型展现出显著优势。其支持多视角主体构建技术,即使镜头角度发生剧烈变化,主体特征仍能保持高度一致性,确保画面连贯稳定。更值得关注的是,该系统允许用户同时操作多个独立主体,通过智能关联算法实现复杂场景的协同生成,为影视制作、广告创意等领域开辟了新的可能性。
此次升级同步推出的创作平台进一步降低了技术门槛。用户无需掌握专业软件操作,通过直观的对话式交互即可完成从概念设计到成品输出的全流程。系统内置的智能纠错机制可实时优化生成结果,确保最终作品符合创作预期。据测试数据显示,新平台在复杂场景渲染速度上较前代产品提升近40%,同时保持了98.7%的语义理解准确率。











