AI大模型数据标注解析
发布者:乐晴
AI数据集是大模型训练和测试的基础。
数据标注是数据集最核心的环节,贯穿大模型全生命周期。
当前AI大模型和智能体持续涌现,高质量和专业化的数据标注成为刚需。
数据标注对原始数据进行标记和分类,转化为机器学习模型可识别和可处理信息,为模型提供结构化的训练数据。
数据标注中的二八定律:通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。
行业当前处于半自动化阶段,大多数据标注还是以人工为主,离全自动化标注仍有距离,且成本较高。AI赋能的自动标注工具可以提升标注的效率和质量,也是数据标注企业降本增效的核心竞争点。
AI数据标注产业链包括上游数据资源提供方、中游数据标注核心服务方和下游应用领域。
上游数据资源包括数据采集和预处理,数据采集主要厂商有拓尔思、东方国信、海康、大华等。
中游核心环节数据标注主要竞争点在于技术能力和场景资源。
技术能力方面,数据闭环工具链的自动化水平关键;工程能力包括数据标注企业清晰的需求分析、准确理解数据需求的能力。而拥有高质量场景资源和数据基础设施的企业有先发优势。
国内一些大模型公司和AI企业选择自建标注团队和管线;专业数据服务提供商在垂直领域帮助企业完成私有化部署。
海天瑞声是Llama2唯一中国合作伙伴,Llama2是由Meta开发、与微软联合推出的AI模型。海天瑞声在语音、图像和文本等多模态数据标注全方位布局,发布了超大规模中文多轮对话数据集DOTS-NLP-216,合作企业超810家,包括微软、百度、腾讯、阿里、字节等互联网厂商,例如海天瑞声为字节旗下豆包大模型提供数据标注等服务;此外,与海康威视等以及中国科学院、清华大学等科研机构建立了合作关系。
法本信息提供地图标注、数据标注相关服务,有先进的地图绘制技术和丰地理信息数据,曾为百度、高德等地图服务提供商提供地理位置搜巡等后台服务,法本信息的FarAI人工智能平台包含了自动化数据标注工具。
博彦科技为大模型公司提供数据标注服务,包括多种数据类型和标注任务,能够提供定制化的数据标注服务比如地图POI标注、医疗影像标注等,和科大讯飞、智谱清言、百川智能等大模型厂商进行生态协作。
中科软有数据标注平台,在医疗领域有相关应用;易华录已经拥有24个数据湖进入运营期,将申报建设国家级数据标注基地;汉王科技获得了发明专利授权“医疗领域标注数据的获取方法、装置、电子设备”;数据堂、云测数据、龙猫数据、星尘数据等数据标注专业型服务商是创业代表公司。
*本文仅作为行业分析参考,不构成投资建议!