滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

AI视频模型“数不到10”的尴尬：视觉语法虽会，物理语法未通

时间：2026-03-08 13:29:59 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当好莱坞因Seedance 2.0的逼真效果集体发出抵制声明时，开发者们却用一场“AI数数挑战赛”戳破了技术泡沫。这项看似简单的任务——让模型生成一个人从1数到10的视频，竟让所有主流AI视频工具集体翻车。无论是Seedance 2.0、Sora还是Veo，生成的画面中要么手指数量与数字不符，要么语音与手势错乱，暴露出当前AI在物理常识理解上的根本缺陷。

这场挑战源于DeepMind开发者去年发现的悖论：三岁孩童能轻松完成的手势计数，对AI而言却是难以跨越的鸿沟。当用户要求模型在10秒内连续变换10个手势时，系统往往在第三秒就出现逻辑断裂——可能伸出三根手指却宣称“ten”，或是反复发出“t”的音节。这种荒诞场景与逼真的背景形成强烈反差，反而营造出诡异的“伪人感”。

技术专家指出，问题根源在于AI的学习机制。现有模型通过分析海量视频数据，掌握的是像素排列的统计规律，而非物理世界的运行法则。以手部动作为例，人类手掌包含27块骨骼和18个自由度，但训练数据中手部常被遮挡或模糊，导致模型缺乏高质量学习样本。即便能渲染出逼真的皮肤纹理，也无法理解“五根手指”这一基本常识。

物理规律的理解缺失更为普遍。OpenAI在Sora的技术报告中承认，该模型无法准确模拟玻璃破碎、液体流动等基础交互。当涉及时间维度时，缺陷更加明显——扩散模型将时间视为数学参数处理，缺乏记忆机制来保持前后逻辑一致。这就像让画家凭记忆作画，虽能模仿笔触风格，却无法保证画中人物的手指数量始终正确。

行业正在探索新的解决方案。世界模型（World Model）概念逐渐兴起，其核心是让AI构建对三维物理世界的结构性认知。这条路径要求系统先理解空间几何、物体属性和运动规律，再基于此生成内容。与传统模型在二维平面预测像素不同，世界模型试图让AI“懂”物理规则后再进行创作。

该领域已吸引顶尖科研力量布局。ImageNet缔造者李飞飞创办的World Labs，推出能从文本生成3D环境的工具Marble；meta前首席AI科学家杨乐昆成立的AMI Labs，同样聚焦物理世界建模；英伟达发布的Cosmos平台，则尝试将视频生成、物理模拟和机器人控制整合。这些动向表明，纯数据驱动的技术路线正遭遇瓶颈，行业开始寻求范式突破。

尽管Seedance 2.0的演示曾引发“人类创作者将失业”的恐慌，但“数不到10”的测试结果提供了冷静视角。当前AI的进步更多体现在视觉真实度上，而非对现实世界的理解。一个连手指数量都搞不清的系统，距离真正替代人类创作仍存在根本性差距。这场挑战赛提醒我们，在惊叹技术表象的同时，更需要关注其背后的认知局限。

更多>同类资讯

北京版权主题活动聚焦AI挑战：版权保护与创新发展如何并行？

04-26

截至2025年底小米全球授权专利超4.5万项，AI驱动创新赋能新质生产力

04-26

OpenClaw「2026.4.24」更新：接入DeepSeek V4，新增多项实用功能

04-26

小米技术成果亮眼：截至2025年底全球授权专利超4.5万项，多领域布局未来可期

小米技术分享的海报显示，小米集团审查中专利申请数已突破 4 万（截至时间 2025 年 12 月 31 日）。全球专利授权数10000+、审查中专利申请数 23000+；影像技术：全球专利授权数 220…

04-26

特斯拉中国明确回应：现阶段上海超级工厂暂无人形机器人量产安排

4 月 20 日消息，据界面新闻 4 月 20 日（今天）上午报道，特斯拉中国方面称，4 月 14 日特斯拉副总裁王昊在媒体活动现场被问及机器人时，仅探讨了特斯拉上海超级工厂拥有很好的规模化量产能力，在未来…

04-26

智能体工程“隐形陷阱”：快速搭建易，规模化运维却需庞大平台支撑

运行时上下文是智能体在特定执行期间需要的实时数据，例如有关服务的信息，谁拥有这些信息，以及最近部署了什么内容。典型的模式是这样的：一个工程师构建了一个分诊智能体，其团队开始在它的帮助下处理事件。凌晨 2 …

04-26

预算有限别愁！4月这三款高性价比手机，512GB大内存不到2000元

红米Turbo4属于标准版，首发天玑8400-Ultra，跑分高达186W+，这个成绩肯定不能与中高端手机搭载的旗舰芯片相比，但对于千元机来说，已经很强了，再加上狂暴引擎和5000mm²3D冰封循环冷泵散热…

04-26

小米Vision GT内饰手稿揭秘：环形座舱融合科技舒适，引领未来出行新潮流

这款概念车不仅展示了极简科幻的设计理念，还以环形共生座舱布局和沙发赛车手的全新定位，彻底颠覆了传统超跑内饰的刻板印象。环形座舱、极简线条和人机共生的设计思路，将逐步应用于小米家用轿车与SUV车型，让更多消费者…

04-26

小米Vision GT超跑概念车亮相：以科技为笔绘就未来出行新图景

这使得小米团队在空气动力学与美学设计上达到新的高度。他强调，尽管这款车不会进入生产线，但它所积累的技术经验与设计灵感，正在为未来量产车型奠定核心竞争力。尽管这一技术尚未达到量产标准，但它为小米汽车的人机交互研…

04-26

小米VGT超跑国内首秀：雷军称无量产束缚，以大胆想象探索未来出行新可能

IT之家4月26日消息，2026北京车展4月24日开幕，小米VisionGranTurismo超跑迎来国内首秀。小米创办人、董事长兼CEO雷军随即回复称：“VGT项目就是不考虑量产，放开所有约束，大胆想象！”…

04-26

斑马智能携手东风首发淘宝闪购Agent上车，车舱内自然语音实现全流程点餐

04-26

北京车展新焦点！北京81“战术方盒子”SUV，增程动力配三把锁，能否突围？

北京81在外观上延续了北京越野家族化设计语言，采用了较为经典的方盒子造型，车身线条以平直为主，同时保持了棱角分明。车内采用了子弹造型的物理按键和枪栓式电子怀挡设计，车机系统精简了冗余功能，保留了较多实体按键以…

04-26

东方甄选四大主播相继离职俞敏洪致歉并承诺优化管理模式

04-26

AI浪潮下：网易游戏、爱奇艺热情拥抱，用户为何“不买账”？

04-26

小米VGT超跑国内首秀：雷军直言不拘量产束缚，以大胆想象勾勒未来出行图景

04-26

点击查看更多 +

全站最新

东风汽车“东方风起2030”：体系化布局引领产业升级新征程

小米VGT超跑国内首秀：雷军称无量产束缚，以大胆想象探索未来出行新可能

互联网裁员浪潮中，掌握项目管理技能为何成了“保命符”？

国家超算互联网携手DeepSeek-V4 开启百万上下文对话普惠新篇章

华为余承东揭秘尊界新车：150万至200万高定款，6月下旬将惊艳亮相

华为余承东：尊界S800上市10个月交付1.6万台连续7月百万级销量夺冠

热门内容

本栏最新

小米VGT超跑国内首秀：雷军称无量产束缚，以大胆想象探索未来出行新可能

北京车展新焦点！北京81“战术方盒子”SUV，增程动力配三把锁，能否突围？

2026科技早报：苹果折叠新机曝光；尚界车展维权；华为阔折叠开售；红魔新品将至

小米VGT超跑国内首秀！雷军：无量产束缚，以大胆想象勾勒未来出行新图景

丰田“TO YOU”理念：扎根中国，以匠心与创新回应每一位用户期待

212 METTA系列北京车展首发携手京东汽车共拓全民越野新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.