基本信息
文件名称:《大语言模型》课件 第4--6章 残差链接与逐层归一化、Transformers模型、预训练语言模型.ppt
文件大小:4.65 MB
总页数:145 页
更新时间:2025-11-13
总字数:约4.23万字
文档摘要

.图6-2图6-3对于语言生成类的任务,这种结构是效果最好的结构之一。因为只能看到上文、但看不到下文,由于对于很多语言理解类任务,信息损失很大,所以这种结构适合做语言生成类的任务,而不适合语言理解类的任务。解码器自回归语言模型是一种基于Transformer架构的模型,它在自然语言处理任务中表现出色,尤其是在文本生成方面。这种模型的核心特点是解码器部分采用自回归的方式生成文本,即每个时间步的输出作为下一个时间步的输入。6.2.3解码器自