由清华大学计算机系崔鹏教授团队与稳准智能联合研发的结构化数据通用大模型“极数”(LimiX)近日正式开源,标志着我国在结构化数据智能应用领域实现技术突破,并为产业生态开放提供关键支撑。该模型通过降低AI技术门槛,将推动泛工业领域智能化转型,助力破解工业数据价值挖掘难题,为智能制造与新型工业化注入新动能。
在泛工业领域,结构化数据的智能处理能力直接影响生产效率与科研创新。传统方法依赖语言大模型(LLM)或私有数据+专用模型,但存在准确率低、泛化能力差、通用性不足及成本高昂等问题,严重制约AI技术在工业场景中的落地应用。“极数”大模型通过学习数据因果关系,构建了适应多任务场景的智能底座,可高效完成分类、回归、缺失值预测、数据生成及因果推断等任务,为工业生产全流程提供智能化解决方案。
研发团队由清华大学计算机系崔鹏教授领衔,成员包括国家杰出青年科学基金获得者、国家自然科学二等奖得主及国际计算机协会(ACM)杰出科学家。团队在学术研究与产业落地方面兼具深厚积累,为模型性能突破提供保障。评测阶段,“极数”选取Talent等权威开源数据集作为基准,覆盖上百个真实工业场景。在分类任务中,该模型AUC、ACC、F1Score及ECE指标均达最优,显著超越24个领域内最优模型;在回归任务中,R2与RMSE指标平均表现最优,尤其在数据存在干扰特征时优势更为突出。
目前,“极数”大模型已在多个关键工业场景中实现规模化应用。在工业运维领域,模型为钢铁、能源电力等行业提供设备运行监测、故障预警及健康度评估服务;在工艺优化领域,模型成为化工、制造、生物等行业的“生产智囊”,助力工艺参数动态调整;在市场预测领域,模型为能源、零售、农业及消费品等行业提供风险规避、成本控制与盈利提升的决策支持,成为应对市场波动的“交易智囊”。其通用建模能力有效突破传统专用模型在数据稀缺、质量参差及环境异质场景下的局限,形成面向泛工业垂直行业的智能核心。
“极数”大模型现已开源,用户可通过Github、Huggingface及Modelscope等平台搜索LimiX获取代码与文档。该模型的发布不仅推动了结构化数据智能技术的普及,更为我国产业技术变革与优化升级提供了可复制、可扩展的解决方案。