在人工智能技术迅猛发展的当下,真实数据在成本、隐私、质量及可控性等方面面临的限制,正逐渐成为制约AI进一步突破的关键因素。特别是在医疗等高价值领域,真实数据获取难度极大,传统依赖数据自然产生的模式已难以满足需求。在此背景下,合成数据正从真实数据的补充角色,转变为构建高质量训练与评估数据的核心机制。
近期,南洋理工大学、清华大学、四川大学及中山大学的研究人员,基于对300余篇代表性文献的系统梳理,提出了一个全新的合成数据分类框架——How / Why / Where框架。该框架突破了“生成模型=合成数据”的传统认知,将反演、仿真与数据增强等方法纳入合成数据范畴,并从应用层面勾勒出更完整的发展路径。
传统观念中,合成数据常被等同于“用生成模型制造数据”,但新框架明确指出,合成数据的方法边界远不止于此。研究人员通过分类框架,将合成数据方法划分为反演、仿真、增强及生成模型四大类,并详细梳理了各类方法的特点与适用场景。例如,反演方法通过逆向工程从输出反推输入,适用于数据稀缺但模型可解释性要求高的场景;仿真方法则通过构建虚拟环境生成数据,在自动驾驶、机器人训练等领域具有显著优势。
在应用层面,新框架将合成数据的作用组织为一条逐步演进的能力路径,涵盖数据中心AI、模型中心AI、可信AI及具身AI四个层次。数据中心AI作为最基础层次,旨在解决真实数据稀缺、获取成本高及隐私受限等问题,通过合成数据扩展训练集并提升数据质量。模型中心AI则进一步利用合成数据提升模型推理、编码与对齐能力,并构建可控的评测基准。可信AI阶段,合成数据被广泛应用于隐私保护、安全防护、公平性提升及模型可解释性分析。最终,在具身AI层次,合成数据支持智能体在复杂物理环境中进行感知、交互与泛化,推动AI从数字空间走向现实世界。
为更系统地指导实践,研究人员将上述四类应用场景细化至30余个具体机器学习任务层级。例如,在数据中心AI中,涵盖零/少样本学习、联邦学习、无数据学习及数据蒸馏等任务;在模型中心AI中,细分为模型通用能力提升、推理能力增强及基于合成数据的模型评测等任务;可信AI则聚焦于隐私保护、模型攻击防护及可解释性分析等;具身AI则延伸至感知、交互及跨场景泛化等面向真实环境的任务。
尽管合成数据在方法体系与应用落地方面已取得显著进展,但其发展仍面临诸多挑战。模型坍塌是其中之一,当模型反复在自身生成的数据上迭代训练时,可能导致数据分布收缩、多样性下降,进而影响模型性能与泛化能力。数据效用与隐私保护的权衡也是长期存在的问题,过强的隐私约束可能降低数据可用性,而过高的数据保真度则可能带来隐私泄露风险。当合成数据用于模型评测时,还可能引入生成-评测偏差,导致评估结果失真。
在方法层面,主动式数据合成与多模态数据合成等前沿方向仍有待探索。主动式数据合成强调根据模型需求动态生成最有价值的数据,以提升数据利用效率;多模态数据合成则关注如何生成语义一致、跨模态对齐的高质量数据,这对多模态模型的发展尤为关键。同时,如何系统性评估合成数据的质量仍是基础但尚未完全解决的问题,目前仍缺乏统一且标准化的评测体系。











