随着大模型与智能体技术的快速发展,数据基础设施正面临前所未有的变革压力。在近日于上海举办的第八届金猿大数据产业发展论坛暨AI Infra & Data Agent趋势论坛上,来自政产学研用各界的专家达成共识:传统数据处理方式已难以满足智能时代需求,高质量数据供给与新型数据架构成为推动产业升级的关键要素。
上海市数商协会秘书长卢勇指出,人工智能应用中约90%的投入集中在后续软件工程领域,现有基础架构在算力、存储及数据治理方面存在明显短板。以公积金行业为例,盐城市住房公积金管理中心技术信息处副处长叶光辉透露,该行业数据量近年呈几何级增长,但单条数据即使准确无误,若缺乏多样性仍无法直接应用于智能场景。这种供需矛盾在制造业采购环节尤为突出——某新能源车内饰件供应商因定制化需求激增,约三分之一的采购岗位面临被智能系统替代的风险。
数据价值评估体系正在发生根本性转变。华院计算高级技术专家赵康宁强调,大模型时代对数据质量的考量已超越传统完整度、整齐度等指标,转向数据与模型演进方向的契合度、安全可靠性及动态评估机制。中国数联科技创新部总经理沈旸则揭示了企业数据利用的深层矛盾:互联网公司训练大模型使用的公开数据价值有限,而企业内部99.9%的过程管理数据尚未数字化,这些沉淀管理过程的私有数据才是构建AI核心竞争力的关键。
金融行业实时反欺诈系统的实践印证了高质量数据的战略价值。某头部商业银行通过整合上百个数据源,在50毫秒内完成风险数据采集、清洗与模型推理,其成功关键在于建立贯穿全链路的数据溯源与质量监控体系。这种需求推动着数据治理向智能化、实时化方向演进,上海纽约大学信息技术部高级主任常潘形象比喻:"就像学车不能只在空旷场地训练,大模型需要高密度高质量数据才能实现能力跃迁。"
构建"用户反馈-场景数据-模型迭代"闭环成为产业共识。叶光辉提出"小步快跑"实施路径:先基于真实业务场景梳理数据,再建立专用模型进行训练,最后通过人工反馈实现快速迭代。这种动态优化机制在制造业供需匹配中已见成效——上海某工业互联网平台通过数据智能匹配,帮助陶瓷行业小作坊精准对接市场需求,实现经济效益最大化。
面向未来智能形态,数据基础设施需突破多重局限。沈旸指出,大语言模型作为概率模型的本质缺陷,使其难以直接处理结构化数据,未来数据底座可能需要向端到端架构演进。赵康宁则展望,当机器迈向通用智能,数据将不再是被处理对象,而是成为影响机器决策的核心要素,这要求建立全新的数据治理架构。常潘特别强调数据权限管理的变革:在智能时代,数据权限中心应从人类转向机器,以匹配AI处理需求。
这场数据与智能的深度对话揭示,我们正从数据治理时代迈向智能驱动时代。当数据成为智能体的"感官"与"经验",当机器开始自主决定数据的使用方式,数据架构与治理体系必将迎来颠覆性创新。这种变革不仅是技术层面的突破,更是人类认知世界方式的根本性重构。











