麻省理工学院与Empirical Health的研究团队近日宣布,他们利用大规模可穿戴设备数据开发出一种新型健康预测模型,在疾病早期识别领域取得突破性进展。该研究通过分析300万“人-天”的Apple Watch数据,成功构建了能够处理不规则时间序列的基础模型,为利用消费级设备进行健康监测开辟了新路径。
研究核心基于meta前首席AI科学家Yann LeCun提出的联合嵌入预测架构(JEPA)。与传统AI模型直接重建缺失数据不同,JEPA架构通过上下文推断缺失部分的语义表征。例如在图像处理中,该架构会将被遮蔽区域与可见区域映射到共享空间,仅推断其表征而非还原原始像素。这种设计使模型更擅长理解环境动态,而非简单记忆数据模式。
研究团队将JEPA架构创新应用于医疗健康领域,针对可穿戴设备数据的特殊性进行优化。他们收集了16,522名参与者长期记录的63项生理指标,包括心率、睡眠质量、活动量等,这些数据在时间维度上存在显著不连续性——部分指标仅0.4%的时间被记录,而另一些则出现在99%的日常读数中。面对这种极端不平衡的数据结构,传统监督学习模型往往束手无策。
为解决这一难题,研究人员开发了自监督预训练框架。他们将每条观测数据转化为由日期、数值、指标类型组成的“三元组”,进而生成可处理的“token”。通过掩码编码技术,模型先学习整个数据集的潜在模式,再在仅15%标注数据的子集上进行微调。这种训练方式使模型能够从海量无标签数据中提取有效信息,突破了传统方法对标注数据的依赖。
在性能验证阶段,新模型(JETS)与多个基线模型展开对比测试。结果显示,其在多项疾病预测任务中表现优异:高血压识别AUROC值达86.8%,慢性疲劳综合征达81%,病态窦房结综合征同样达到86.8%。尽管在房扑预测(70.5%)等个别任务中稍逊于某些模型,但整体优势显著。研究特别指出,AUROC和AUPRC指标反映的是模型对病例的排序能力,而非简单准确率,这在实际医疗场景中更具应用价值。
该研究的突破性在于证明了消费级可穿戴设备的潜在价值。尽管用户不会全天佩戴设备,导致数据存在大量缺失,但通过新型模型架构与训练策略,仍能从中提取有意义的健康信号。研究团队强调,这种方法特别适合处理现实世界中的“不完整数据”,为开发低成本、广覆盖的健康监测系统提供了技术基础。随着可穿戴设备普及率的提升,此类模型有望在疾病早期预警和个性化健康管理中发挥关键作用。








