科技媒体近日披露,苹果公司正通过一系列前沿研究深化空间计算领域布局,三篇最新公开的论文显示其仍在持续投入Vision Pro头显相关技术研发。尽管此前有报道称苹果内部暂停了新款Vision Pro的开发,转而聚焦Siri与AI智能眼镜项目,但新研究成果表明该公司并未放弃这一战略方向。
在机器学习领域,苹果团队开发了名为SFI-Bench的测试框架,用于评估多模态大模型的空间功能理解能力。该基准包含134段室内场景扫描视频,并设计了1555个专家标注问题。与传统测试不同,SFI-Bench不仅要求模型识别物体及其位置,还需回答"如何使用""故障处理"等复杂问题。例如测试场景中,模型需要从柜子中找出同品牌数量最多的瓶子,或理解如何取消洗衣机当前程序。实验结果显示,Google Gemini 3.1 Pro在综合评分中领先,但所有模型在"带条件的全局计数"任务中表现欠佳,空间记忆与功能知识整合能力仍有待提升。
另一项研究聚焦美国手语(ASL)标注自动化。研究人员构建了包含近500条人工标注的英文字词-术语对应库,并扩展出超过300小时的ASL STEM Wiki数据集和7.5小时的FLEURS-ASL数据。通过手指拼写模型训练,该系统在FSBoard测试中达到6.7%的字符错误率(CER),在ASL Citizen数据集上实现74%的top-1准确率。这项技术有望将传统需要数百小时的手工标注工作大幅简化。
第三项研究突破在于3D头部重建技术。苹果提出的HeadsUp方法利用层级建模技术,通过多视角图像采集重建高精度3D高斯头部模型。测试采用包含超万名受试者的内部数据集,其规模较现有同类数据集提升一个数量级。这项技术或与Vision Pro的Persona功能及visionOS系统中的面部捕捉技术存在关联,可能为虚拟化身创建提供更自然的表情渲染方案。
苹果全球营销高级副总裁格雷格·乔斯维亚克曾公开表示,Vision Pro代表了数字与物理世界融合的必然趋势。虽然他拒绝预测"空间计算"成为主流的具体时间表,但强调这一技术发展方向具有不可逆转性。三篇论文的集中发布,恰逢苹果被传调整头显研发策略之际,显示出该公司在空间计算领域的持续技术积累。










