生成式人工智能课件任务一探索生成式AI的原理.pptx

基本信息

文件名称：生成式人工智能课件任务一探索生成式AI的原理.pptx

文件大小：5.88 MB

总页数：28 页

更新时间：2025-06-05

总字数：约5.35千字

文档摘要

任务一项目八揭秘生成式AI原理与编程应用探索生成式AI的原理

在人工智能技术飞速发展的今天，自然语言处理和机器学习领域不断取得新突破。Transformer模型和GPT模型作为其中的关键技术，被广泛应用于各种智能应用中。作为一名对人工智能编程感兴趣的学习者，需要了解这些模型的工作原理，为后续学习和应用奠定基础，以便更好地理解生成式AI在编程中的应用逻辑。

深入研读Transformer模型和GPT模型的相关资料，理解其理论知识。通过对模型架构图的分析、核心组件的功能剖析以及执行流程的梳理，掌握Transformer模型处理序列数据的方式和GPT模型的文本生成机制。同时，对比不同版本的GPT模型，总结其技术演进特点，明确无监督预训练和有监督微调在提升模型性能方面的作用。

简述Transformer模型架构分析Transformer核心组件简述GPT系列技术演进能简述软件工程的发展历程能分析AI在软件工程生命周期各个阶段的具体赋能方式能说明常用AI编程工具之间的差异01知识目标:

能够针对不同的GPT模型版本,结合实际业务需求,进行科学的选型具备对不同AI编程工具进行客观评价和综合分析的能力02能力目标

培养严谨的科学态度和创新精神,在探索生成式AI原理及应用过程中,勇于尝试新方法、新思路树立正确的技术价值观03素质目标

8.1.1认知Transformer模型任务实施Transformer模型在2017年的论文《Attention?is?All?You?Need》中提出,是自然语言处理和机器学习领域的突破性架构,在自然语言处理领域得到了广泛应用,如机器翻译、文本生成、问答系统、文本摘要等。它的核心优势在于通过自注意力机制处理序列数据,摒弃了传统的循环神经网络和卷积神经网络的顺序处理方式,这使得Transformer在处理长序列数据时具有更高的并行性和更好的性能。模型整体架构由输入、编码器Encoder和解码器Decoder与输出四个大部分构成

?输入部分?编码器Encoder解码器Decoder输出部分Transformer架构图

Transformer模型核心组件输入嵌入:在自然语言处理中,原始输入通常是离散的符号,比如文本中的单词。输入嵌入的作用就是将这些离散的符号映射到一个连续的向量空间中,每个符号对应一个低维、稠密的向量,这个向量包含了该符号的语义信息。通过这种方式,模型可以更好地理解和处理输入数据,捕捉单词之间的语义关系。位置编码：由于Transformer模型本身不包含循环神经网络或卷积神经网络中的顺序结构，无法直接利用序列中元素的位置信息。因此，引入位置编码来为每个元素添加位置信息。常见的位置编码方法是使用正弦和余弦函数生成固定的位置向量，然后将其与词向量相加，作为模型的输入

Transformer模型核心组件自注意力机制（Self-Attention）：这是Transformer的核心组件，它允许模型在处理序列数据时，计算序列中每个元素与其他元素之间的关联程度，从而动态地分配注意力权重。以自然语言处理中的句子为例，自注意力机制可以让模型在处理每个单词时，考虑句子中其他单词对它的影响，捕捉单词之间的长距离依赖关系(1)生成向量：对于输入序列中的每个元素，首先将其嵌入表示分别映射到三个不同的向量空间，得到查询向量（Query，简称Q）、键向量（Key，简称K）和值向量（Value，简称V）(2)计算注意力分数(3)计算注意力权重：对归一化后的注意力分数应用Softmax函数，得到注意力权重(4)计算输出向量：根据注意力权重对值向量进行加权求和，得到自注意力机制的输出向量

Transformer模型核心组件多头自注意力机制（Multi-HeadSelf-Attention）：多头自注意力机制本质上是对自注意力机制的扩展与深化。它通过使用多个不同的“头”（Head）来并行执行自注意力计算，这些不同的头能够从不同的角度捕捉输入序列中元素之间的关系，从而使模型可以更全面、深入地理解序列信息，提升模型的表示能力和效果多头自注意力机制

Transformer模型核心组件10为什么要设置不同的head？不同的head关注的信息可能是不同的，有的head关注的是局部信息，有的关注的是较长距离的信息(类似分组卷积，同样使用多个卷积核)。将bi,1，bi,2作concatenate操作，并乘权重生成bi。使用Multi-head的数目为h，若单头的维度为d，则多头中每个头的维度为d/n。

Transformer模型核心组件）多头映射给定输入序列,首先将其经过嵌入层得到嵌入向量。对于每个嵌入向量,分别通过多个不同的线性变换矩阵,生成多个头对应的查询向量(Quer