当前的数字化视频处理系统虽发展迅速,但在面对复杂的空间移动和物理规律时,依然表现出明显的“理解缺失”。它们或许能描述画面内容,却难以回答诸如“红车是否在蓝车转弯前通过路口”或“皮球运行轨迹最高点在哪”等涉及精细物理逻辑的问题。
究其根本,在于高质量运动参考数据的极度匮乏。现有的参考信息规模有限,且高度依赖高昂的人工识别,难以支撑计算系统学习真实世界中的细粒度物理运动。针对这一痛点,来自MIT、英伟达(NVIDIA)、加州大学伯克利分校等机构的研究团队提出了 FoundationMotion:一套完全不依赖人工参与的自动化数据生成管线。
该管线的工作流程如同一个全自动的“运动数据工厂”,主要分为三个阶段:
轨迹提取: 系统利用先进的目标追踪技术,将视频中的行人、车辆或机械臂等物体转化为连续的时空坐标轨迹。
语义转化: 将抽象的坐标数字转化为结构化的文本说明,结合视频帧信息,为系统提供一份详尽的“运动说明书”。
自动质检与生成: 最终通过逻辑整合,生成包含速度、方向、时序关系及空间位置的精细化问答数据。
令人惊讶的是,实验结果显示,仅依靠这套管线生成的数据进行优化后,一个拥有 150 亿参数的视频分析系统在运动理解任务上的准确率达到了 90.6%。这一表现不仅超越了拥有 720 亿参数的大型开源架构,甚至优于目前市面上主流的商业闭源系统。
研究人员指出,这一提升完全归功于数据的纯净度与准确性,证明了在自动驾驶、机器人协作等领域,系统对物理世界的直觉可以通过海量、高质量的自动化数据训练来建立。这标志着数字化系统在通向具备“物理常识”的具身技术道路上迈出了关键一步。











