滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI生成图像视频：真懂物理规律，还是仅会“照猫画虎”？

时间：2026-07-04 06:03:10 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

一项由伊利诺伊大学厄巴纳-香槟分校联合斯坦福大学与哥伦比亚大学开展的研究，构建了一套名为TailOR的评测体系，旨在检验当前图像与视频生成模型是否真正掌握物理世界运作规律。该研究以预印本形式发布，论文编号为arXiv:2606.24256。研究团队指出，尽管现有模型能生成逼真的场景，但面对训练数据中未大量出现的物理互动时，其表现往往不尽如人意。

日常生活中的物理互动存在显著的不均衡性。以工具使用为例，锤子钉钉子、剪刀剪纸等场景因频繁出现而构成“高频交互”，成为训练数据中的主流内容。然而，用硬币拧螺丝、用厚书砸核桃等“低频交互”虽物理可行，却因罕见而难以被模型充分学习。研究人员将前者称为“头部场景”，后者归为“长尾场景”，并指出模型在头部场景的优异表现可能仅源于对训练数据的模式记忆，而非真正理解物理规律。

当前主流评测基准几乎全部聚焦于常见场景。例如，OpenAI的Sora-2在MMGR数据集上达到86%的物理准确度，但这类测试无法区分模型是真正理解物体互动还是仅复现统计规律。TailOR通过设计递进式测试，从“常规场景”到“非常规场景”再到“不可能场景”，逐步剥离模型对训练数据的依赖，暴露其真实能力。常规场景测试基础记忆，非常规场景考验属性推理，不可能场景则检验模型对物理约束的识别。

TailOR的测试框架包含双重提示方式：预测式生成要求模型根据操作过程推断结果，描述式生成则直接提供结果描述。前者测试内在物理推理能力，后者测试指令执行精度。例如，在预测式任务中，模型需自行判断“用棉花糖砸核桃”的后果；在描述式任务中，模型则需生成“棉花糖被压扁而核桃完好”的场景。这种设计进一步拆解了模型的能力边界。

数据集构建过程融合了自动化生成与人工审核。研究团队从HICO-DET数据集中提取18种代表性动作，通过GPT-5生成具体任务及工具变体，包括常规工具、非常规替代工具和不可能工具。例如，为“拧松螺丝”任务生成硬币作为非常规工具，干面条作为不可能工具。所有内容经两轮人工审核，确保物理合理性。最终数据集包含80个核心任务，衍生出1600个评测提示，覆盖室内外多种场景。

评估维度涵盖指令遵从度、交互准确度、物理真实感和感知质量。指令遵从度细分为实体完整性、属性准确性和场景合理性；交互准确度包括状态变化、功能对应性和运动合理性；物理真实感采用0-5分制评分；感知质量则评估视觉呈现效果。评测采用人工与自动并行的方式，自动评测使用Gemini-2.5-Pro模型，其结果与人工评测高度一致，验证了评测体系的可靠性。

参与测试的8个模型包括图像生成领域的Z-Image、Qwen-Image、GPT-Image-1和Nano-Banana-2，以及视频生成领域的HunyuanVideo-1.5、Wan-2.2、Sora-2和Veo-3.1。测试结果显示，所有模型从常规到非常规再到不可能场景，性能均呈系统性下滑。例如，Nano-Banana-2在常规场景的指令遵从度达69%，非常规场景降至46%，不可能场景仅42%；Sora-2的物理真实感从常规场景的3.1分跌至不可能场景的2.2分。视频模型的表现下滑更为显著，尤其在不可能场景中常生成违背物理规律的结果。

分析发现，图像模型在常规场景的失败多源于结果错误或属性不准确，如锤子与钉子位置正确但未发生互动；非常规场景则常出现功能对应性错误，如用书砸钉子时书异常弯曲。视频模型的失败模式更为复杂，常规场景中运动轨迹不连贯，非常规场景中功能对应性错误突出，不可能场景则存在严重的跨帧不一致问题，如核桃在无外力作用下突然破裂。

描述式生成本应比预测式生成更易执行，但视频模型在描述式任务中的表现反而更差。研究团队认为，这是由于视频模型对训练数据中的常见模式存在强烈惯性。例如，当模型在第一帧“看到”核桃时，会自动沿“核桃被砸碎”的熟悉路径生成后续帧，即使指令明确要求核桃完好，模型也难以抵抗这种惯性。图像模型在描述式生成中虽有一定提升，但在属性准确性方面仍存在局限。

现有模型的训练方式主要关注视觉逼真度和数据相似性，导致其将常见工具-任务配对作为整体模板记忆，而非理解背后的物理逻辑。例如，模型记住“锤子+钉子”的模板，但无法抽象出“质量”“硬度”“力传导”等底层属性，因此在面对硬书或棉花糖等新工具时无法正确推理。这种模式记忆与物理直觉的缺失，限制了模型作为真正“世界模拟器”的潜力。

对于普通用户而言，当前模型在模拟常见物理场景时表现可靠，但在处理非常规互动或呈现“失败原因”时需谨慎验证结果。研究团队建议，未来训练应引入更强的物理属性归纳偏置，帮助模型学习可复用的物理原语；视频模型需改进长程状态追踪和力传导一致性建模；评测框架也可扩展至多步操作、多物体因果链等复杂场景。完整论文及项目信息可通过arXiv编号2606.24256和tailor-bench.github.io获取。

更多>同类资讯

AI大模型"记忆压缩"新突破：无需预设阈值，动态适配各类任务需求

07-04

浙大、西湖大学联手突破：AI探索世界新方案 "隐式漫步"解锁场景记忆新方式

07-04

上海AI实验室350亿参数模型：另辟蹊径，挑战万亿参数大模型霸主地位

07-04

生数科技发布Vidu S1，实时交互视频生成模型开启数字人新篇章

07-04

戛纳舞台上的中国力量：可灵AI助力两部作品，开启商业创意新篇章

07-04

生数科技Vidu S1问世：以实时交互能力，开启视频生成全新篇章

07-04

AniShort上线三月营收破300万，八点八数字耿广星：工作流赋能AI短剧工业化突围

07-04

聚焦2026产融交流会：机器人商业化突破口在哪？产学研共探新路径

07-04

从雨果预言到AI时代：技术变革下人文精神如何应对新挑战？

07-04

紫光同创首发国产自主产权亿门级FPGA及加速卡填补国内高端芯片空白

IT之家 7 月 3 日消息，新紫光集团旗下紫光同创在 2026 慕尼黑上海电子展上发布 Titan-3 系列亿门级高端FPGA，是国内第一款自主产权亿门级高端 FPGA 产品。 IT之家注：FPGA（现场…

07-04

优必选U1系列机器人订单破万，外观引热议：高度仿生下的期待与争议

与通用人形机器人不同，这些公司更注重为机器人打造接近人类的面孔、皮肤、声音与体温，并训练其情绪交互能力，将其定义为“伙伴”甚至一种“新型关系”。这恰恰揭示了仿生机器人的复杂性：人明知它是一台机器，但面对高度…

07-04

桂海潮：从边陲学子到太空逐梦者，用科研与科普点亮航天新未来

回到地面后，他回到讲台和实验室，组建“太空智能操作技术创新中心”，带领50余名师生开展空间机器人和太空交通研究。他指导6名本科生提出多星协同清除“太空垃圾”方案，获得中国国际大学生创新大赛银奖——这6名学生…

07-04

谐波减速器产业链全解析：A股11家核心企业盈利能力大比拼（附名单）

07-04

AI Agent深度融入业务：零售企业跨越价值陷阱，解锁增长新密码

07-04

iCAR V27大版本OTA升级：HSD V2.0赋能，智驾座舱全面进化

07-04

点击查看更多 +

全站最新

浙江男子苦等10个月“熔岩橙”小米YU7 MAX未交付，配色已下架，门店方案遭拒

上汽名爵总经理直播回应抄袭质疑反遭弹幕围攻哽咽离场引热议

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

2027款福特探险者：标配10AT与四驱，长白山试驾展现美式旗舰实力

吉利银河战舰700内饰官图曝光：AI硬核SUV配悬浮屏与物理按键

领克20三季度上市在即标配800V高压平台与6C补能倍率成亮点

热门内容

本栏最新

iCAR V27大版本OTA升级：HSD V2.0赋能，智驾座舱全面进化

零跑B10新动作来袭！官宣新车色，配置亮点与价格信息一览

一汽丰田2027款格瑞维亚上市携手复星旅文打造家庭出行新体验

优必选“机器人伴侣”引热议：高售价订单火爆，是噱头还是新趋势？

2027款丰田格瑞维亚上市，配置升级二排体验提升，焕新权益价23.68万起

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.