由清华大学计算机系崔鹏教授团队与稳准智能联合研发的结构化数据通用大模型“极数”(LimiX)近日正式开源。这一突破标志着我国在结构化数据智能处理领域实现了技术自主创新与生态开放,为降低工业领域AI应用门槛提供了关键解决方案。特别是在泛工业场景中,该模型将有效破解工业数据价值挖掘难题,推动智能制造与新型工业化进程。
泛工业领域长期面临结构化数据处理的技术瓶颈。传统方法主要依赖语言大模型(LLM)或私有数据+专用模型的组合,但存在准确率不足、泛化能力弱、通用性差、成本高昂等缺陷。这些局限性严重制约了AI技术在工业场景中的规模化应用,尤其在数据质量参差不齐、环境异质性强的条件下,传统模型难以满足实际需求。
“极数”大模型通过创新的数据因果关系学习机制,实现了对因果变量与数据分布的动态捕捉能力。该模型可自适应完成分类、回归、缺失值预测、数据生成及因果推断等任务,展现出跨场景、多任务的通用性优势。在产业实践中,单一模型已成功适配多个工业场景,获得合作企业的高度认可,成为泛工业垂直行业智能化的核心基础设施。
研发团队由清华大学计算机系崔鹏教授领衔,成员包括国家杰出青年科学基金获得者、国家自然科学二等奖得主及ACM杰出科学家等顶尖学者。团队在模型评测中选取了Talent等权威开源数据集作为基准,该数据集涵盖上百个真实场景,是当前结构化数据领域最具代表性的评测体系之一。实验结果显示,“极数”在分类任务中AUC、ACC、F1Score和ECE四项指标均达到最优水平,显著超越24个领域内最优模型。
在回归任务评测中,“极数”大模型在R2和RMSE指标上均取得平均最优成绩,尤其在数据存在干扰特征或无效特征时,性能优势更为突出。这种抗干扰能力使其在复杂工业环境中具有显著优势,为解决实际生产中的数据噪声问题提供了有效方案。
目前,“极数”已在多个关键工业领域实现落地应用。在工业运维方面,该模型为钢铁、能源电力等行业的设备监测、故障预警及健康评估提供核心支持;在工艺优化领域,成为化工、制造、生物等行业的“生产智囊”;在市场预测方面,助力能源、零售、农业等行业应对市场波动,为风险控制、成本优化及盈利提升提供决策依据。该模型现已通过GitHub、Huggingface、Modelscope等平台开源,搜索“LimiX”即可获取相关资源。