ITBear旗下自媒体矩阵:

AI视频模型“数不到10”的尴尬:视觉语法虽会,物理语法未通

   时间:2026-03-08 13:29:59 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当好莱坞因Seedance 2.0的逼真效果集体发出抵制声明时,开发者们却用一场“AI数数挑战赛”戳破了技术泡沫。这项看似简单的任务——让模型生成一个人从1数到10的视频,竟让所有主流AI视频工具集体翻车。无论是Seedance 2.0、Sora还是Veo,生成的画面中要么手指数量与数字不符,要么语音与手势错乱,暴露出当前AI在物理常识理解上的根本缺陷。

这场挑战源于DeepMind开发者去年发现的悖论:三岁孩童能轻松完成的手势计数,对AI而言却是难以跨越的鸿沟。当用户要求模型在10秒内连续变换10个手势时,系统往往在第三秒就出现逻辑断裂——可能伸出三根手指却宣称“ten”,或是反复发出“t”的音节。这种荒诞场景与逼真的背景形成强烈反差,反而营造出诡异的“伪人感”。

技术专家指出,问题根源在于AI的学习机制。现有模型通过分析海量视频数据,掌握的是像素排列的统计规律,而非物理世界的运行法则。以手部动作为例,人类手掌包含27块骨骼和18个自由度,但训练数据中手部常被遮挡或模糊,导致模型缺乏高质量学习样本。即便能渲染出逼真的皮肤纹理,也无法理解“五根手指”这一基本常识。

物理规律的理解缺失更为普遍。OpenAI在Sora的技术报告中承认,该模型无法准确模拟玻璃破碎、液体流动等基础交互。当涉及时间维度时,缺陷更加明显——扩散模型将时间视为数学参数处理,缺乏记忆机制来保持前后逻辑一致。这就像让画家凭记忆作画,虽能模仿笔触风格,却无法保证画中人物的手指数量始终正确。

行业正在探索新的解决方案。世界模型(World Model)概念逐渐兴起,其核心是让AI构建对三维物理世界的结构性认知。这条路径要求系统先理解空间几何、物体属性和运动规律,再基于此生成内容。与传统模型在二维平面预测像素不同,世界模型试图让AI“懂”物理规则后再进行创作。

该领域已吸引顶尖科研力量布局。ImageNet缔造者李飞飞创办的World Labs,推出能从文本生成3D环境的工具Marble;meta前首席AI科学家杨乐昆成立的AMI Labs,同样聚焦物理世界建模;英伟达发布的Cosmos平台,则尝试将视频生成、物理模拟和机器人控制整合。这些动向表明,纯数据驱动的技术路线正遭遇瓶颈,行业开始寻求范式突破。

尽管Seedance 2.0的演示曾引发“人类创作者将失业”的恐慌,但“数不到10”的测试结果提供了冷静视角。当前AI的进步更多体现在视觉真实度上,而非对现实世界的理解。一个连手指数量都搞不清的系统,距离真正替代人类创作仍存在根本性差距。这场挑战赛提醒我们,在惊叹技术表象的同时,更需要关注其背后的认知局限。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version