近日,科技领域传来新动态,苹果公司在空间计算与 Vision Pro 头显项目上的进展备受关注。此前有消息称,苹果公司内部搁置了新款 Vision Pro 的研发,将团队重心转向 Siri 和 AI 智能眼镜,然而最新公开的三项研究却表明,苹果并未放弃 Vision Pro 头显项目。
苹果此次公开的三项研究分别涉及多模态大模型空间推理评测、美式手语视频标注以及 3D 头部重建。其中,在机器学习博客发布的《From Where Things Are to what They’re For:Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》论文颇具亮点。该论文提出了 SFI-Bench,用于测试多模态大模型对空间布局的理解以及物体功能的认知能力。这套视频基准包含 134 段室内视频扫描,并整理出 1555 道专家标注问题。与以往只测试空间识别的旧方法不同,SFI-Bench 不仅会问模型“这是什么、在哪里”,还会追问“它怎么用、出了故障怎么办”。例如,让模型从柜子里找出同品牌数量最多的一组瓶子,理解洗衣机当前程序如何取消,或者判断电视遥控器的用途,这些测试更贴近日常家庭场景,也更接近未来空间助手需要处理的真实任务。在测试结果中,Google Gemini 3.1 Pro 总分最高,OpenAI GPT-5.4-High 排名第二,Gemini-3.1-Flash-Lite 排名第三。不过,论文也指出,几乎所有模型都不擅长“带条件的全局计数”,并且在空间记忆、功能知识整合以及将眼前画面与外部知识关联等方面存在明显限制。
另一项研究《Bootstrapping Sign Language Annotations with Sign Language Models》聚焦于美式手语视频标注。研究团队尝试利用 AI 自动生成候选标注,以减少手工标注的时间成本。团队建立了近 500 条人工英文字词到术语标注,并扩展到超过 300 小时的 ASL STEM Wiki 和 7.5 小时的 FLEURS-ASL 数据。其手指拼写模型在 FSBoard 上达到 6.7% CER,在 ASL Citizen 数据集上达到 74% top-1 准确率。
第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》则把重点放在了 3D 头像重建上。苹果提出了 HeadsUp 方法,能够从大规模多摄像头采集中重建高质量的 3D Gaussian 头部模型。测试使用了包含超过 10000 名受试者的内部数据集,规模比现有多视角人头数据集高一个数量级。这一研究成果可能与 Vision Pro 的 Persona 功能,或者 visionOS 中更自然的人脸捕捉与表情渲染相关。
苹果公司全球营销高级副总裁格雷格·乔斯维亚克(Greg Joswiak)曾表示,Vision Pro 展示了数字世界与物理世界融合的未来形态,这种融合是必然的。当被问及“空间计算”何时能成为主流时,他坦言无法预测具体时间,但坚信这一发展方向不可逆转。








