No.202200
数据标注产业发展研究报告
数据标注产业发展研究报告
(2025年)
(2025年)
中国信息通信研究院人工智能研究所
中国信息通信研究院
2025年3月
2025年5月
版权声明
本专题报告版权属于中国信息通信研究院,并受法律保
护。转载、摘编或利用其它方式使用本白皮书文字或者观点
的,应注明“来源:中国信息通信研究院”。违反上述声明者,
本院将追究其相关法律责任。
前言
习近平总书记指出,数据是新的生产要素,是基础性资源和战略
性资源,也是重要生产力。党的十九届四中全会首次提出将数据作为
生产要素。新一代高水平数据标注在推动数据资源汇聚、提升数据质
量、激活数据要素价值方面发挥着日益重要的作用,是支撑人工智能
技术演进和应用落地的重要抓手。2024年12月,国家数据局印发《关
于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),
对数据标注产业高质量发展具有重要的意义。我们要紧紧抓住数据标
注这个小切口,以服务国家战略大视野,着力推动产业高质量发展。
数据标注在人工智能产业结构中占据举足轻重的地位,是连接数
据资源、算法模型与实际应用场景的关键桥梁,是人工智能高质量数
据集的核心生产力。狭义的数据标注产业是指将原始数据标记人类知
识转换成机器可识别信息的过程。广义的数据标注产业通常指人工智
能数据基础服务产业,通过数据采集、数据清洗、数据标注和数据质
检等手段将数据处理为人工智能算法可使用的高质量数据集。当前,
以数据标注为代表的人工智能基础数据服务,连结上游数据来源方和
下游人工智能算法研发方,其产业发展和服务水平直接影响人工智能
应用效果和场景落地。
本研究报告首先回顾了数据标注产业发展的总体概况,全面总结
了数据标注产业发展的六大核心要素,提出了当前数据标注产业发展
面临的问题与挑战,分析了未来数据标注产业发展总体趋势,提出数
据标注产业下一步发展的建议,可为政策制定者、行业从业者及企业
投资者等提供全面的行业洞察、策略建议与决策依据。面向未来,数
据标注产业发展仍存在诸多问题与挑战,还需要产学研各界紧密合作,
共同推进数据标注产业技术创新与产业发展,为行业高质量数据集的
构建和大模型训练提供有力支撑。
目录
一、数据标注产业总体概况1
(一)数据标注定义范畴1
(二)数据标注方式类型3
(三)数据标注服务模式5
(四)数据标注产业结构6
(五)数据标注发展意义7
二、数据标注产业发展现状和机遇10
(一)“央地一体”的政策体系初步建立10
(二)大模型蓬勃发展带来新的数据标注需求17
(三)数据标注行业与市场蓬勃发展21
三、数据标注产业发展核心要素与实践24
(一)技术创新24
(二)行业赋能26
(三)生态培育30
(四)标准应用31
(五)人才培养33
(六)安全保障35
四、数据标注产业发展趋势37
(一)高技术含量37
(二)高知识密度38
(三)高价值应用39
五、推动数据标注产业发展的建议40
(一)不断加强数据标注技术创新能力40
(二)持续提升数据标注行业赋能水平41
(三)积极完善数据标注生态体系41
(四)大力推动数据标注标准编制和应用42
(五)着重强化数据标注人才培养力度42
(六)切实保障数据安全可靠42