麻省理工学院与Empirical Health的研究团队近日在健康数据建模领域取得重要进展。他们基于Yann LeCun提出的联合嵌入预测架构(JEPA),开发出名为JETS的自监督时间序列模型,成功利用可穿戴设备产生的非结构化健康数据预测多种疾病风险。这项研究已被NeurIPS会议研讨会接收,标志着医疗AI从传统监督学习向环境动态建模的范式转变。
研究核心突破在于处理不规则时间序列数据的能力。团队使用的数据集包含16,522名佩戴Apple Watch的参与者,累计记录约300万人-天的健康指标。这些数据涵盖心率、睡眠时长、活动量等63项变量,但存在显著的时间不连续性——部分指标仅0.4%的时间被记录,而另一些则出现在99%的日常读数中。传统模型面对这种极端不平衡数据时往往失效,而JETS通过创新的数据处理方式解决了这一难题。
研究人员将每条观测数据重构为"日期-数值-指标类型"的三元组,转化为可计算的token序列。通过掩码编码技术,模型学习从上下文推断缺失数据的语义表征,而非直接还原原始数值。这种自监督预训练策略使模型能够利用全部数据,即使仅有15%的参与者拥有标注医疗史。在后续微调阶段,模型仅需少量标注数据即可优化特定任务预测能力。
实验结果显示,JETS在疾病预测任务中表现突出。针对高血压的预测AUROC值达到86.8%,病态窦房结综合征同样取得86.8%的优异成绩,慢性疲劳综合征预测准确率达81%,房扑预测准确率为70.5%。尽管在部分任务中未超越基线模型,但整体性能显著优于依赖完整数据集的传统方法。值得注意的是,AUROC和AUPRC指标更侧重模型对病例的排序能力,而非简单分类准确率。
该架构的创新性体现在对JEPA原理念的深度适配。不同于图像处理中遮蔽局部区域的场景,健康时间序列数据存在系统性缺失——不同指标的记录频率差异可能达数百倍。研究团队通过动态调整掩码策略和嵌入空间维度,使模型能够同时捕捉短期生理波动与长期健康趋势。这种处理方式为可穿戴设备数据的深度挖掘提供了新范式。
技术实现层面,JETS采用分层编码器结构处理不同时间尺度的特征。底层编码器捕捉分钟级的心率变异等瞬时变化,中层编码器整合小时级的活动模式,顶层编码器则提取日级别的睡眠周期规律。这种多尺度建模方式使模型能够理解健康指标间的复杂交互关系,例如睡眠质量与心血管健康的关联性。
研究证实,即使数据记录存在显著缺口,日常可穿戴设备积累的海量信息仍具有巨大价值。传统医疗分析往往因数据不完整而放弃大部分记录,而JETS模型证明,通过创新的架构设计,这些"碎片化"数据能够转化为可靠的健康预警信号。这项突破为开发低成本、广覆盖的早期疾病筛查系统奠定了基础,特别适用于医疗资源匮乏地区的健康管理。











