T/XJBX0065—2025
数字媒体生成式AI内容安全治理技术规范
1范围
本文件规定了数字媒体生成式人工智能内容安全治理的基本原则、风险分类与分级管理、技术控制
要求、运行监测与应急处置、数据与模型管理以及质量评估等内容,适用于涉及生成式AI内容生产、编
辑、发布、传播、存储和应用的各类组织与平台。
本文件适用于从事生成式AI算法研发、模型训练、内容生成及分发的企业、科研机构、平台运营方
以及为其提供相关技术支持和服务的第三方机构。主要包括但不限于文本生成、图像生成、视频合成、
语音生成、虚拟人生成、三维内容建模等数字媒体内容的安全治理活动。
本文件不适用于纯内部测试、且不对外公开发布的生成式AI内容生产活动,但其中涉及的数据采集、
模型训练和安全管理可参照本规范执行。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T22239—2019信息安全技术网络安全等级保护基本要求
GB/T25069—2022信息安全技术术语
GB/T35273—2020信息安全技术个人信息安全规范
GB/T41867—2022信息技术人工智能术语
3术语和定义
下列术语和定义适用于本文件。
3.1
生成式人工智能generativeartificialintelligence(GAI)
利用机器学习模型(特别是深度学习模型)生成与训练数据分布相似的新数据内容的人工智能技术,
包括但不限于文本、图像、音视频、语音和三维模型生成。
3.2
数字媒体digitalmedia
1
T/XJBX0065—2025
通过数字化方式生成、存储、传播和展示的各类信息内容,包括文本、图片、音频、视频、动画和
虚拟现实等形式。
3.3
内容安全contentsecurity
在数字媒体生产与传播过程中,确保内容符合法律法规、伦理规范及平台政策的综合管理与技术保
障措施,防止违法、违规、有害或不当信息的产生与传播。
3.4
风险分级管理risk-basedclassificationmanagement
根据生成式AI内容的潜在安全风险程度、传播范围与影响力,将内容划分等级并实施差异化的管理
与处置策略。
3.5
数据溯源dataprovenance
记录、追踪和验证生成式AI模型训练数据及其来源、加工过程、版本变化的技术与方法,确保数据
合规与可追溯。
3.6
模型可解释性modelinterpretability
AI模型在决策或生成内容时,其内部运行机制和输出结果能够被人类理解和解释的特性。
3.7
深度合成deepsynthesis
利用深度学习等人工智能技术对原始数据进行生成、替换或合成,从而生成具有高度真实感的图像、
音频或视频内容的过程。
3.8
有害内容harmfulcontent
可能对个人、群体或社会造成负面影响的内容,包括但不限于虚假信息、暴力、色情、歧视性言论、
恐怖主义宣传等。
4基本原则
4.1合法合规
生成式AI内容的生产、发布、传播应严格遵守国家法律法规、行业规范及平台管理政策,确保数据
采集、模型训练、内容生成和分发的全过程合规。
4.2安全可控
2
T/XJBX0065—2025
在技术架构和运行机制中,应纳入内容安全防护措施,确保生成内容的可控性和可预测性,防止出
现不可预期的违规、有害或误导性信息。
4.3责任可追溯
建立从训练数据、算法模型到最终生成内容的全链路记录与追踪机制,确保在出现违规或有害内容
时能够明确责任主体,并实现快速溯源与处置。
4.4技术与管理并重
在内容安全治理中,应将技术手段与管理制度相结合,通过