大语言模型通识课件：大模型基础.pptx

基本信息

文件名称：大语言模型通识课件：大模型基础.pptx

文件大小：1.38 MB

总页数：86 页

更新时间：2025-05-21

总字数：约2.2千字

文档摘要

;;大模型基础;;PART01;2.1什么是语言模型;语言模型是这样一个模型：对于任意的词序列，它能够计算出这个序列是一句话的概率。例如，词序列A：“这个网站|的|文章|真|水|啊”，这个明显是一句话，一个好的语言模型也会给出很高的概率。再看词序列B：“这个网站|的|睡觉|苹果|好快”，这明显不是一句话，如果语言模型训练的好，那么序列B的概率就会很小。;2.1.1语言模型的定义;语言模型的另一种等价定义是：能够计算p(wi|w1,w2,...,wi-1)的模型就是语言模型。

从文本生成角度来看，也可以给出如下的语言模型定义：给定一个短语（一个词组或一句话），语言模型可以生成（预测）接下来的一个词。;在统计学模型为主体的自然语言处理时期，主要成果是N-gram语言模型。为了简化p(wi|w1,w2,...,wi-1)的计算，引入一阶马尔可夫假设：每个词只依赖前一个词；也可以引入二阶马尔可夫假设：每个词依赖前两个词。有了马尔可夫假设，就可以方便的计算条件概率。此外，还有前馈神经网络语言模型、循环神经网络语言模型及其他预训练语言模型。;2.1.1语言模型的定义;2.1.2注意力机制;2.1.2注意力机制;2.1.2注意力机制;2.1.2注意力机制;2.1.2注意力机制;2.1.2注意力机制;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;2.1.3开源还是闭源;;2.2大模型发展三阶段;2.2.1基础模型阶段;2.2.1基础模型阶段;2.2.2能力探索阶段;2.2.2能力探索阶段;2.2.3突破发展阶段;2.2.3突破发展阶段;;2.3Transformer模型;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.1Transformer过程;2.3.2Transformer结构;2.3.2Transformer结构;2.3.2Transformer结构;2.3.2Transformer结构;2.3.3Transformer模块;2.3.3Transformer模块;2.3.3Transformer模块;2.3.3Transformer模块;;2.4生成式预训练语言模型GPT;2.4生成式预训练语言模型GPT;2.4生成式预训练语言模型GPT;2.4生成式预训练语言模型GPT;;2.5大模型的结构;2.5.1LLaMA的模型结构;2.5.1LLaMA的模型结构;2.5.2LLaMA的注意力机制;2.5.2LLaMA的注意力机制;2.5.2LLaMA的注意力机制;（1）全局注意力：为了增强模型建模长距离依赖关系的能力，可以加入一些全局节点。

（2）带状注意力：大部分数据都带有局部性，限制查询只与相邻的几个节点进行交互。

（3）膨胀注意力：通过增加空隙获取更大的感受野。

（4）随机注意力：通过随机采样，提升非局部的交互能力。

（5）局部块注意力：使用多个不重叠的块来限制信息交互。;现有的稀疏注意力机制通常是上述五种基于位置的稀疏注意力机制的复合模式（见图2-16）。

图2-16典型的稀疏注意力模型;Star-Transformer使用带状注意力和全局注意力的组合，它只包括一个全局注意力节点和宽度为3的带状注意力，其中任意两个非相邻节点通过一个共享的全局注意力连接，相邻节点则直接相连。Longformer使用带状注意力和内部全局节点注意力的组合，此外，它将上层中的一些带状注意力头部替换为具有膨胀窗口的