AI合成数据简析

发布者：乐晴

马斯克近期表示，现实世界中用于训练AI模型的数据几乎已经耗尽，他认为合成数据是未来的解决方案，也就是让AI自己生成训练数据。

此外，英伟达旗下Omniverse持续推动合成数据业务发展，并支持使用本地部署和NVIDIAOmniverse™Cloud解决方案使用合成数据来创建应用。

AI会进行自我评估，并通过这一自我学习的过程不断优化自己。

合成数据，即人工智能系统生成的人工数据。

其依赖少部分的高质量真实数据用于初始创建，将大幅减少算法训练所需的真实数据量，提供了一种更快捷高效的方式来获取所需数据。

合成数据也能填补真实数据集中可能存在的数据缺失、数据不足、数据不均衡等问题，提高机器学习算法的鲁棒性和泛化能力。

科技公司通过利用自己的人工智能模型，生成合成数据（这也被认为是虚假数据），然后将这些数据用以训练其系统的未来迭代。

也可以说，合成数据做真实数据的“杠杆”，弥补真实数据“数量不足”。

目前主要通过四种技术路径来获取合成数据：基于深度学习生成、基于模拟生成、基于语义规则生成以及基于蒙特卡罗方法生成。

合成数据产业重点环节包括结构化数据（表格数据）、非结构化数据（视频、图像等）、测试数据等。

应用领域来看，早期主要应用于计算机视觉领域，现在正向自动驾驶、金融、医疗、零售和运营商领域拓展。

据Gartner预测，到2030年合成数据将完全盖过AI模型中的真实数据，成为AI模型训练使用数据的主要来源。

AI.Reverie是比较著名的合成数据也初创公司，其开发的平台可以为AI项目自动生成大型合成训练数据集，已被头部互联网企业Meta收购。

国内相关布局厂商包括AI算法研究且拥有庞大数据的公司，包括百度、阿里、腾讯、金山办公、中国电信等。

混元团队开发了一套完整的高质量数据合成流程，主要包括四个步骤：指令生成、指令进化、回答生成和回答过滤。

汉仪股份利用AI技术探索提升字体等内容素材的创造效率，在“合成数据”方面有相关积累，通过自研的AI生成技术，在300-500个样字基础上即可生成风格一致的全套字库，有自研字体识别算法，应用于京东等平台上，帮助平台识别图片的字体类别；星环科技有研究和使用合成数据；光轮智能结合生成式AI和仿真技术，为企业提供高质量的3D合成数据。其合成数据以一小部分真实数据为蓝本，通过自研的Sim2Real模型；群核科技旗下的CoohomCloud（群核云）平台提供合成数据服务。

*本文内容仅作为行业分析参考，不构成投资建议！