ITBear旗下自媒体矩阵:

Grok Imagine Video 1.5正式登场:音画同步升级,25秒速创6秒720P视频

   时间:2026-06-18 11:21:32 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

马斯克旗下人工智能公司xAI近日宣布,其研发的Grok Imagine Video 1.5视频生成模型正式结束预览阶段,现已通过xAI API向全球开发者开放。这款以"静态图转动态视频"为核心功能的新模型,在音画同步、物理模拟和生成效率三大维度实现突破性升级。

在音频与画面协同技术方面,该模型突破传统分步生成模式,实现单次运算同时输出环境音效、背景音乐和人物对话。通过自主研发的声画对齐算法,能够精准匹配音频波形与肢体动作时间轴,使人物口型开合与语音节奏完全同步。测试数据显示,在包含复杂对话的短视频场景中,语音清晰度较前代提升37%,口型误差率降低至2.1%以内。

物理引擎的革新是本次升级的核心亮点。研发团队重构了运动模拟算法,通过引入三维空间动力学模型,有效解决了前代产品中常见的肢体扭曲和物体悬浮问题。新模型可精准计算物体质量、摩擦力和空气阻力等参数,在测试案例中,人物行走时衣摆摆动频率与步频匹配度达92%,抛掷物体的抛物线轨迹误差控制在4%以内,动态效果更接近真实物理世界。

针对创作效率痛点,团队开发了双模式生成架构。标准模式下可保持画质精度,Fast模式则通过动态分辨率调整技术,将6秒720p视频的生成时间从40秒压缩至25秒。实测表明,在保持画面细节的前提下,整体处理速度提升38%,特别适合需要快速迭代的短视频创作场景。

开发者可通过API接口调用该模型,仅需上传起始图片、设定运动参数并选择输出规格,即可自动生成带同步音频的完整视频。目前支持720p至4K分辨率输出,时长范围覆盖3-15秒。xAI工程师透露,后续版本将增加多镜头切换和场景过渡功能,进一步拓展创作维度。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version