基本信息
文件名称:3. 《高质量数据集 分类指南》标准草案.pdf
文件大小:227.5 KB
总页数:11 页
更新时间:2025-05-17
总字数:约6.46千字
文档摘要

ICS35.240.01

CCSL70

中华人民共和国国家标准

GB/TXXXXX—XXXX

`

高质量数据集分类指南

Highqualitydataset—Classificationguidelines

(点击此处添加与国际标准一致性程度的标识)

(草案)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

XXXX-XX-XX发布XXXX-XX-XX实施

GB/TXXXXX—XXXX

目次

前言II

引言III

1范围1

2规范性引用文件1

3术语和定义1

4类型划分2

类型要素2

类型特征2

4.2.1通识数据集2

4.2.2行业通识数据集2

4.2.3行业专识数据集3

分类细则3

参考文献5

I

GB/TXXXXX—XXXX

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件由全国数据标准化技术委员会(SAC/TC609)提出并归口。

本文件起草单位:

本文件主要起草人:

II

GB/TXXXXX—XXXX

引言

当前,随着新一代信息技术持续快速发展,人工智能正加速融入各行业领域,赋能实体经济高质量

发展。高质量数据集是开发和训练人工智能模型的重要支撑,通用模型、行业模型、场景模型等不同类

型模型需要不同类型的数据集,相应数据集需蕴含通用知识、行业领域通用知识、行业领域专业知识,

然而,我国高质量数据集分类目前仍缺乏统一的标准规范。制定高质量数据集分类指南,明确类型划分

的类型要素、类型特征、分类细则,为组织机构开展高质量数据集分类工作提供指导,对于提升数据集

供需匹配,促进数据集流通使用,有力支持人工智能模型开发和训练,更好赋能经济社会发展至关重要。

III

GB/TXXXXX—XXXX

高质量数据集分类指南

1范围

本文件规定了高质量数据集的类型划分,给出了类型要素、类型特征、分类细则。

本文件可为组织机构开展高质量数据集分类工作提供指导。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T36344-2018信息技术数据质量评价指标

3术语和定义

下列术语和定义适用于本文件。

高质量数据集high-qualitydataset

经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的

集合。

通用知识generalknowledge

面向社会公众的通用