ITBear旗下自媒体矩阵:

可灵3.0多模态全家桶来袭!智能分镜+人物一致,AI导演拜年大片嗨翻天

   时间:2026-02-07 22:24:53 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

AI视频生成领域迎来新一轮技术升级,某平台推出的可灵3.0多模态系统引发行业关注。该系统通过智能分镜、主体一致性优化等核心功能,显著降低了多镜头视频创作门槛,普通用户也能快速生成具备专业质感的动态内容。

在智能分镜功能测试中,系统展现出强大的文本解析能力。用户输入包含复杂场景转换的提示词后,AI可自动拆解出多个独立镜头,并精准匹配角色动作与台词。例如在模拟《甄嬛传》宫斗场景时,系统不仅完整还原了四个镜头切换,还通过语音合成技术实现了角色对话的声画同步,仅在背景音乐生成环节出现轻微偏差。

角色一致性控制方面,新引入的多图参考机制有效解决了传统模型易出现的"换脸"问题。测试人员上传人物不同角度照片后,系统在奔跑、转身等动态场景中,仍能保持面部特征与体型比例的稳定性。不过当参考图缺乏正面形象时,模型会自主进行特征补全,导致部分测试中出现肤色、发型等细节变化。

文字保真技术成为本次升级的亮点。在动态镜头测试中,旋转的香水瓶身文字始终保持清晰可辨,证明系统已掌握空间变换下的结构渲染能力。这项突破为电商广告制作提供了新工具,商家可直接生成包含产品LOGO的动态宣传片,无需后期人工修图。

方言语音合成功能呈现差异化表现。系统虽支持多语种及地方口音生成,但在复杂语境下仍需优化。测试中让虚拟角色用天津话介绍煎饼果子的场景,最终输出为标准普通话;而兵马俑说四川话的测试则获得较好效果,显示模型对特定方言的掌握程度存在差异。

同步推出的O3 OMNI模型进一步拓展创作边界。该模型支持15秒中长视频生成,可通过3-8秒参考视频提取角色特征,实现外观、声音的双重绑定。在万圣节主题测试中,系统准确控制兔子跳跃轨迹,使其依次穿过南瓜灯、墓碑等元素,展现出对时序关系的精确把控。

分镜叙事功能提供智能与自定义双模式。智能模式允许用户直接输入完整脚本,由AI自动完成镜头设计;自定义模式则面向专业创作者,支持上传参考图并标注每个镜头的运动轨迹。不过测试显示,自定义模式对提示词精度要求较高,普通用户更倾向使用智能生成方案。

当前该系统已向黑金会员开放Web端体验,普通用户预计将在短期内获得使用权限。技术团队承认现有模型仍存在角色融合度不足、自定义分镜操作复杂等问题,但强调这些缺陷不影响基础创作需求,后续版本将持续优化交互体验与生成质量。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version