MiniMax公司近期震撼发布了其视频人工智能模型Hailuo02的升级版本,这一新版本在性能和价格上均实现了重大飞跃。此次升级的核心在于引入了噪声感知计算重分配(NCR)架构,据MiniMax宣称,这一创新技术将模型的训练和推理效率提升了高达2.5倍。
NCR架构在处理视频数据时展现出了独特的灵活性。在训练的初期阶段,为了提升效率,模型会引入大量人工噪声,并对视频进行高度压缩。随着训练的深入,当视频逐渐呈现出更高的清晰度时,模型则切换至全分辨率处理,以确保最终输出的高质量。
与旧版相比,Hailuo02不仅在参数数量上实现了三倍的增长,训练数据集的规模也扩大了四倍。MiniMax强调,这些数据不仅在数量上有所增加,更在质量和多样性上实现了显著提升。尽管具体参数和数据集规模未公开,但Hailuo02在处理复杂场景和模拟物理过程方面所取得的进步已得到了广泛认可。
尤为Hailuo02是目前市场上唯一能准确生成复杂场景(例如体操动作)的视频AI模型。这一突破使得MiniMax在视频生成领域站稳了脚跟,并吸引了全球创作者的广泛关注。目前,Hailuo02提供了三种不同的变体供用户选择,包括768p分辨率的六秒和十秒视频,以及1080p分辨率的六秒视频。
在人工分析视频竞赛(Artificial Analysis Video Arena)的基准测试中,Hailuo02在图像到视频类别中取得了令人瞩目的成绩,仅次于字节跳动的Seedance,并领先于谷歌备受期待的Veo3。然而,值得注意的是,当前版本的Veo3并不支持音频功能,这在一定程度上限制了其吸引力。
自去年八月发布以来,Hailuo平台已见证了超过37亿个视频的诞生。MiniMax表示,尽管初期的推广策略相对随机,但很快就引起了全球创作者的浓厚兴趣。用户可以通过多种渠道访问该模型,包括网页界面、移动应用以及API接口。
在价格方面,Hailuo02也展现出了极高的竞争力。对于API用户而言,生成一段六秒的768p视频仅需0.28美元,而1080p版本的费用也仅为0.49美元。相比之下,使用谷歌的Veo3生成一段八秒的1080p视频可能需要花费高达3美元,具体费用根据用户选择的计划而定。
MiniMax透露,他们正在不断努力提升生成速度、增强稳定性,并计划推出更多超越当前文本到视频和图像到视频选项的新功能。然而,面对来自Runway等竞争平台的挑战,这些平台已经提供了如跟踪镜头等更先进的功能,MiniMax仍需加快步伐以保持领先地位。
作为MiniMax周期间活动的一部分,该公司还推出了一个开源语言模型MiniMax-M1,并附上了详细的参数计数和技术论文。然而,关于Hailuo02训练架构的具体技术细节,MiniMax目前仍选择保持神秘,未向外界公开。