自从AI技术渗透进影视创作领域,网友们自编自导“魔改”经典剧集的热情持续高涨。近期,社交平台上涌现出一批由AI生成的视频:有人将《甄嬛传》中安陵容的经典台词改为“臣妾要告发大胖橘私通”,有人让《狂飙》的高启强念出《无间道》里“三年之后又三年”的台词,甚至有视频让汉尼拔抱着头骨抛出“先洗澡还是先被我享用”的荒诞问题。这些视频的口型、表情与台词高度契合,若非资深影迷,几乎难以分辨真假。
随着Sora 2等模型发布,行业对AI视频的要求从“画面逼真”升级为“音画同步”与“叙事完整”。在此背景下,一家名为Gaga AI的团队推出全球首个专注于人物对话的影视级音画模型GAGA-1。该模型不追求通用视频生成,而是聚焦于角色表演的细节刻画。尽管团队名称陌生,但其技术实力不容小觑——此前曾开源全球首个自回归架构视频模型,引发业内关注。
目前,能实现高质量音画同步的AI模型屈指可数,仅有Sora 2、Veo 3等头部产品。GAGA-1的差异化在于,用户只需上传一张人物照片或让AI生成图像,输入台词与效果描述,即可生成10秒、最高720p分辨率的16:9格式视频。官方宣称生成时间不超过5分钟,实际测试中,多数视频在2分钟内完成。例如,将《甄嬛传》温太医的图片与“窝囊只是我的伪装,娘娘我爱过一双”的台词结合,生成的视频中,温太医的表情从挑衅到讥笑,全程口型精准,毫无违和感。
真正的考验在于复杂情绪的演绎。以《喜剧之王》试戏场景为灵感,测试者要求同一角色表现“兴奋到难以置信”的情绪。生成的画面中,角色头部微晃,嘴角与眼角皱纹随台词“我成功了!我真的穿越回国庆前一天了”同步变化,眼神中的惊喜感极为真实。而在“高兴到失望”的情绪切换中,虽过渡稍显迟缓,但角色从嘴角下垂到眼神黯淡的细节,仍传递出强烈的失落感。这些案例表明,GAGA-1已能理解台词内涵,并调整表情与语气进行匹配。
该模型的多角色互动能力同样突出。例如,在恶搞《无间道》天台对峙的场景中,刘建明与陈永仁顶着严肃表情讨论“偷吃炸鸡”,诙谐感十足;在《绿皮书》场景中,未说话的角色被添加了细微的视线移动,增强了对话的真实感。不过,动作识别仍存在局限,如搭肩动作未被模型捕捉。语言支持方面,GAGA-1可处理多语种台词。将《三国演义》诸葛亮的台词译为英文后,生成的视频虽带有莎士比亚戏剧腔,但情绪与口型依然精准;而将《你的名字》日语台词与哈利·波特形象结合,竟呈现出日系忧郁男主的质感。
经过深度测试,以下技巧可提升生成效果:使用胸部以上的半身照效果更佳;短台词建议生成5秒视频以减少画面崩坏;情绪与动作需在提示词中明确描述;写实风格人像的输出稳定性优于其他类型。例如,在要求角色“从狂喜到无奈”的测试中,GAGA-1通过嘴角抽搐、眼神黯淡等细节,展现了层次丰富的表演。
GAGA-1的突破,标志着AI视频从“画面生成”向“角色塑造”的转型。当前,行业对“有血有肉的人物”与“完整故事”的需求日益增长,而AI演员是否会取代人类演员的争议也随之浮现。不过,现阶段AI在潜台词理解、表演节奏、停顿与眼神等细节上仍有不足,这些需通过针对性模型优化解决。或许,未来AI视频的“里程碑时刻”,将由GAGA-1这类专注细分领域的工具共同推动。
目前,GAGA-1已开放全量使用,用户可访问官网体验:https://gaga.art