AI合成数据简析
发布者:乐晴
马斯克近期表示,现实世界中用于训练AI模型的数据几乎已经耗尽,他认为合成数据是未来的解决方案,也就是让AI自己生成训练数据。
此外,英伟达旗下Omniverse持续推动合成数据业务发展,并支持使用本地部署和NVIDIAOmniverse™Cloud解决方案使用合成数据来创建应用。
AI会进行自我评估,并通过这一自我学习的过程不断优化自己。
合成数据,即人工智能系统生成的人工数据。
其依赖少部分的高质量真实数据用于初始创建,将大幅减少算法训练所需的真实数据量,提供了一种更快捷高效的方式来获取所需数据。
合成数据也能填补真实数据集中可能存在的数据缺失、数据不足、数据不均衡等问题,提高机器学习算法的鲁棒性和泛化能力。
科技公司通过利用自己的人工智能模型,生成合成数据(这也被认为是虚假数据),然后将这些数据用以训练其系统的未来迭代。
也可以说,合成数据做真实数据的“杠杆”,弥补真实数据“数量不足”。
目前主要通过四种技术路径来获取合成数据:基于深度学习生成、基于模拟生成、基于语义规则生成以及基于蒙特卡罗方法生成。
合成数据产业重点环节包括结构化数据(表格数据)、非结构化数据(视频、图像等)、测试数据等。
应用领域来看,早期主要应用于计算机视觉领域,现在正向自动驾驶、金融、医疗、零售和运营商领域拓展。
据Gartner预测,到2030年合成数据将完全盖过AI模型中的真实数据,成为AI模型训练使用数据的主要来源。
AI.Reverie是比较著名的合成数据也初创公司,其开发的平台可以为AI项目自动生成大型合成训练数据集,已被头部互联网企业Meta收购。
国内相关布局厂商包括AI算法研究且拥有庞大数据的公司,包括百度、阿里、腾讯、金山办公、中国电信等。
混元团队开发了一套完整的高质量数据合成流程,主要包括四个步骤:指令生成、指令进化、回答生成和回答过滤。
汉仪股份利用AI技术探索提升字体等内容素材的创造效率,在“合成数据”方面有相关积累,通过自研的AI生成技术,在300-500个样字基础上即可生成风格一致的全套字库,有自研字体识别算法,应用于京东等平台上,帮助平台识别图片的字体类别;星环科技有研究和使用合成数据;光轮智能结合生成式AI和仿真技术,为企业提供高质量的3D合成数据。其合成数据以一小部分真实数据为蓝本,通过自研的Sim2Real模型;群核科技旗下的CoohomCloud(群核云)平台提供合成数据服务。
*本文内容仅作为行业分析参考,不构成投资建议!