《深度学习项目案例开发》课件 8.1使用BERT预训练医学语言模型-Transformer基本结构.pptx

基本信息

文件名称：《深度学习项目案例开发》课件 8.1使用BERT预训练医学语言模型-Transformer基本结构.pptx

文件大小：1.84 MB

总页数：17 页

更新时间：2025-06-10

总字数：约2.86千字

文档摘要

成都职业技术学院软件分院-张明任务八使用BERT预训练医学语言模型8.1Transformer基本结构

任务导入任务目标任务导学任务知识点工作任务

1.任务导入任务导入近年来，随着自然语言处理技术的快速发展，预训练语言模型在各种任务中展现出了强大的性能。其中，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型因其在广泛领域的出色表现而备受关注。在医学领域，语言模型的应用尤为重要，因为医学文本数据复杂且专业性强。使用BERT预训练医学语言模型可以有效地提升医疗文本的理解和处理能力。在医学语言处理任务中，BERT模型可用于信息抽取、命名实体识别、文本分类、医学问答等多个任务。例如，在电子健康记录中，BERT可以帮助自动提取患者的诊断信息、治疗方案以及药物使用情况，极大地提高了医疗信息处理的效率和准确性。此外，基于BERT的模型在医学文献的自动综述和疾病预测方面也展现出了潜力。

2.任务目标知识目标?了解序列到序列?(seq2seq)?模型基本原理?了解Transformer基本原理?掌握Transformer的架构?掌握分词器的工作原理?掌握分词器、嵌入的工作原理?了解注意力机制的原理能力目标能调用Transformer模型能使用分词器完成分词能使用嵌入嵌入机制处理完成嵌入词向量的生成能使用多头注意力机制计算注意力矩阵拓展能力能按照任务要求搭建基于Transformer的模型拓展能力知识任务目标

4.任务知识任务导学-什么是TransformerRNN和LSTM在处理长序列时难以并行化，训练时间较长，且容易遇到梯度消失或爆炸问题，导致捕捉长距离依赖能力不足。为了解决这一问题，2017年提出了Transformer，它是一种革命性的神经网络架构，专为处理序列数据而设计。与传统的循环神经网络（RNNs）和长短时记忆网络（LSTMs）不同，Transformer基于自注意力机制来建模序列中的依赖关系。其核心思想是通过允许模型在处理每个输入位置时，对整个序列的其他位置进行注意力集中，增强了长距离依赖的捕捉能力，并提高了训练效率和模型的表达能力。

4.任务知识任务导学-什么是Transformer目前常用的语言大模型GPT和BERT都是基于Transformer架构的。GPT使用Transformer的解码器部分，通过自回归方法进行单向预训练，主要用于生成任务。而BERT使用Transformer的编码器部分，通过掩码语言模型进行双向预训练，主要用于理解任务。

4.任务知识序列到序列(seq2seq)模型序列到序列（Sequence-to-Sequence，简称Seq2Seq）模型是一种广泛应用于自然语言处理任务的神经网络架构，旨在将一个序列转换为另一个序列。Seq2Seq模型通常由两个主要部分组成，编码器（Encoder）接收并处理输入序列，将其编码为一个固定长度的上下文向量（也称为隐状态或编码状态）。编码器通常是一个循环神经网络（RNN）、长短期记忆网络（LSTM）或门控循环单元（GRU）等

4.任务知识序列到序列(seq2seq)模型的工作原理大部分seq2seq模型均由编码器和解码器构成。编码器会接收输入序列，并将其映射至某些中间表示（即一种n维向量）。然后，解码器会接收这个抽象向量，并将其转换成输出序列。下图以机器翻译作为序列到序列的问题的例子，展示了编码器-解码器的架构。

4.任务知识序列到序列(seq2seq)模型的工作原理在输入阶段，输入序列被逐个词地输入到编码器中，编码器将每个词的嵌入表示传递到下一个时间步，并最终生成一个上下文向量。编码阶段，编码器的最后一个隐状态作为上下文向量，包含了整个输入序列的信息。解码阶段，解码器从上下文向量开始，通过每一步预测下一个输出词。每一步的输入是前一步生成的词，直到生成终止标记为止。

4.任务知识Transformer与传统序列模型的区别Transformer模型和时间序列模型在一些方面有相似之处，但它们在设计和应用上有显著不同。传统时间序列模型通常依赖于时间步之间的顺序关系而Transformer使用编码器-解码器结构，通过多头自注意力机制并行处理整个序列Transformer不依赖于顺序计算，因此更容易并行化，适合处理长序列数据。

4.任务知识Transformer与传统序列模型的区别RNN/LSTM/GRU等传统时间序列模型由于其顺序计算的特性，训练和推理时计算效率较低，尤其在处理长序列时更为明显。Transformer由于其并行计算的特性，通过自注意力机制，可以显著提高计算效率，尤其在处理长序列时表现更好。Transformer模型和时间序列模型都用于处理序列数据，传统的序列