基本信息
文件名称:数字媒体生成式AI内容安全治理技术规范.docx
文件大小:27.77 KB
总页数:15 页
更新时间:2025-08-14
总字数:约5.29千字
文档摘要

1

T/XJBX0065—2025

数字媒体生成式AI内容安全治理技术规范

1范围

本文件规定了数字媒体生成式人工智能内容安全治理的基本原则、风险分类与分级管理、技术控制要求、运行监测与应急处置、数据与模型管理以及质量评估等内容,适用于涉及生成式AI内容生产、编辑、发布、传播、存储和应用的各类组织与平台。

本文件适用于从事生成式AI算法研发、模型训练、内容生成及分发的企业、科研机构、平台运营方以及为其提供相关技术支持和服务的第三方机构。主要包括但不限于文本生成、图像生成、视频合成、语音生成、虚拟人生成、三维内容建模等数字媒体内容的安全治理活动。

本文件不适用于纯内部测试、且不对外公开发布的生成式AI内容生产活动,但其中涉及的数据采集、模型训练和安全管理可参照本规范执行。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T22239—2019

信息安全技术

网络安全等级保护基本要求

GB/T25069—2022

信息安全技术

术语

GB/T35273—2020

信息安全技术

个人信息安全规范

GB/T41867—2022

信息技术人工智能术语

3术语和定义

下列术语和定义适用于本文件。

3.1

生成式人工智能generativeartificialintelligence(GAI)

利用机器学习模型(特别是深度学习模型)生成与训练数据分布相似的新数据内容的人工智能技术,包括但不限于文本、图像、音视频、语音和三维模型生成。

3.2

数字媒体digitalmedia

2

T/XJBX0065—2025

通过数字化方式生成、存储、传播和展示的各类信息内容,包括文本、图片、音频、视频、动画和虚拟现实等形式。

3.3

内容安全contentsecurity

在数字媒体生产与传播过程中,确保内容符合法律法规、伦理规范及平台政策的综合管理与技术保障措施,防止违法、违规、有害或不当信息的产生与传播。

3.4

风险分级管理risk-basedclassificationmanagement

根据生成式AI内容的潜在安全风险程度、传播范围与影响力,将内容划分等级并实施差异化的管理与处置策略。

3.5

数据溯源dataprovenance

记录、追踪和验证生成式AI模型训练数据及其来源、加工过程、版本变化的技术与方法,确保数据合规与可追溯。

3.6

模型可解释性modelinterpretability

AI模型在决策或生成内容时,其内部运行机制和输出结果能够被人类理解和解释的特性。3.7

深度合成deepsynthesis

利用深度学习等人工智能技术对原始数据进行生成、替换或合成,从而生成具有高度真实感的图像、音频或视频内容的过程。

3.8

有害内容harmfulcontent

可能对个人、群体或社会造成负面影响的内容,包括但不限于虚假信息、暴力、色情、歧视性言论、恐怖主义宣传等。

4基本原则

4.1合法合规

生成式AI内容的生产、发布、传播应严格遵守国家法律法规、行业规范及平台管理政策,确保数据采集、模型训练、内容生成和分发的全过程合规。

4.2安全可控

T/XJBX0065—2025

3

在技术架构和运行机制中,应纳入内容安全防护措施,确保生成内容的可控性和可预测性,防止出现不可预期的违规、有害或误导性信息。

4.3责任可追溯

建立从训练数据、算法模型到最终生成内容的全链路记录与追踪机制,确保在出现违规或有害内容时能够明确责任主体,并实现快速溯源与处置。

4.4技术与管理并重

在内容安全治理中,应将技术手段与管理制度相结合,通过算法过滤、人工审核、用户反馈等多重机制实现风险防控。

4.5风险分级与动态管理

根据生成式AI内容的潜在风险等级,实施差异化管理措施,并根据风险变化动态调整安全策略与处置方案。

4.6透明与可解释性

在保障商业秘密和用户隐私的前提下,应适度公开生成式AI的运行机制、数据使用情况及内容审核标准,提升用户与公众的信任度。

4.7尊重伦理与人权

确保生成内容尊重社会公德、文化多样性与个人合法权益,不得生成歧视性、侮辱性、侵犯隐私或侵犯知识产权的内容。

5风险分类与分级管理

5.1风险分类

生成式AI内容的风险可根据其性质和潜在危害分为以下主要类别:

——违法违规内容:违反法律法规、危害国家安全、扰乱社会秩序的内容,如反动言论、恐怖主义宣传等;

——有害不当内容:虽不触犯法律,但违反社会公德、损害青少年身心健康的内容,如色情、暴力、恶意诽谤等;

——虚假