ICS35.240.01
CCSL70
中华人民共和国国家标准
GB/TXXXXX—XXXX
`
高质量数据集分类指南
Highqualitydataset—Classificationguidelines
(点击此处添加与国际标准一致性程度的标识)
(草案)
在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。
XXXX-XX-XX发布XXXX-XX-XX实施
GB/TXXXXX—XXXX
目次
前言II
引言III
1范围1
2规范性引用文件1
3术语和定义1
4类型划分2
类型要素2
类型特征2
4.2.1通识数据集2
4.2.2行业通识数据集2
4.2.3行业专识数据集3
分类细则3
参考文献5
I
GB/TXXXXX—XXXX
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件由全国数据标准化技术委员会(SAC/TC609)提出并归口。
本文件起草单位:
本文件主要起草人:
II
GB/TXXXXX—XXXX
引言
当前,随着新一代信息技术持续快速发展,人工智能正加速融入各行业领域,赋能实体经济高质量
发展。高质量数据集是开发和训练人工智能模型的重要支撑,通用模型、行业模型、场景模型等不同类
型模型需要不同类型的数据集,相应数据集需蕴含通用知识、行业领域通用知识、行业领域专业知识,
然而,我国高质量数据集分类目前仍缺乏统一的标准规范。制定高质量数据集分类指南,明确类型划分
的类型要素、类型特征、分类细则,为组织机构开展高质量数据集分类工作提供指导,对于提升数据集
供需匹配,促进数据集流通使用,有力支持人工智能模型开发和训练,更好赋能经济社会发展至关重要。
III
GB/TXXXXX—XXXX
高质量数据集分类指南
1范围
本文件规定了高质量数据集的类型划分,给出了类型要素、类型特征、分类细则。
本文件可为组织机构开展高质量数据集分类工作提供指导。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T36344-2018信息技术数据质量评价指标
3术语和定义
下列术语和定义适用于本文件。
高质量数据集high-qualitydataset
经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的
集合。
通用知识generalknowledge
面向社会公众的通用