针对生成式AI模型（如大语言模型）的对抗性攻击与防御研究_实践型研究课题.docx

基本信息

文件名称：针对生成式AI模型（如大语言模型）的对抗性攻击与防御研究_实践型研究课题.docx

文件大小：65.53 KB

总页数：22 页

更新时间：2026-03-28

总字数：约1.89万字

文档摘要

PAGE

PAGE1

针对生成式AI模型（如大语言模型）的对抗性攻击与防御研究

第一章实践问题识别与需求分析

1.1现实问题背景与紧迫性分析

1.1.1行业现状与问题表现

随着生成式人工智能技术的爆发式增长，以大语言模型为代表的生成式AI应用已深入渗透至软件开发、内容创作、客户服务等关键领域。然而，技术的快速落地伴随着严峻的安全挑战，其中“提示注入”攻击已成为威胁模型安全应用的首要风险。当前行业现状显示，攻击者通过精心构造的恶意提示词，能够绕过模型的安全对齐机制，诱导模型输出仇恨言论、暴力犯罪指导、隐私数据等有害内容。这种攻击方式不仅破坏了服务的正常秩序，更使得模型在面对复杂