基本信息
文件名称:《深度学习项目案例开发》课件 8.2使用BERT预训练医学语言模型-Transformer工作流程.pptx
文件大小:1.46 MB
总页数:17 页
更新时间:2025-06-10
总字数:约3千字
文档摘要

成都职业技术学院软件分院-张明任务八使用BERT预训练医学语言模型8.2-Transformer工作流程

分词器嵌入式处理注意力机制编码解码

4.任务知识分词器分词器可将原始文本转换为由标记(即子词)组成的文本的初始数值表征。分词器之所以是模型的重要构成部分之一分词器可将凝集性语言中的词分解为更易管理的组成部分、处理原始语料库中不存在的新词或外来词/特殊字符,并确保模型生成紧凑的文本表征。每种语言都有可选用的数量众多且各不相同的分词器。大部分基于Transformer的架构均使用经过训练的分词器,这些分词器旨在充分缩短典型序列的长度。WordPiece(应用于BERT)、SentencePiece(应用于T5或RoBerta)等分词器同样具有多个变体,

4.任务知识分词器通常使用tokenizer来实现分词器的功能,它能将将输入的自然语言文本分割成独立的词或子词单元,使得模型能够理解和处理文本数据。将句子Thecatsatonthemat分割成[The,cat,sat,on,the,mat]。还需要将分割后的词或子词转换成模型可以处理的数字表示。例如,句子Thecatsatonthemat可能被转换成[2,17,35,10,2,49],其中每个数字对应词汇表中的一个词或子词。最后还需要将特殊标记(如[CLS]表示分类,[SEP]表示分隔符)添加到输入序列中,模型输出后Tokenizer还负责将模型生成的数字序列转换回自然语言文本。这一步骤通常称为解码(Decoding)。

4.任务知识分词嵌入式处理分词后的文本将由嵌入机制处理。嵌入向量是通过一种算法生成的,该算法可将原始数据转换为神经网络可使用的数值表征。这种数值表征通常被称为文本嵌入。常用的算法有Word2Vec、GloVe或fastText,它们将离散的词或子词表示为连续的、密集的向量,使得模型可以更高效地进行计算。通过训练,词嵌入向量能够捕捉到词之间的语义关系。

4.任务知识分词嵌入式处理分词的嵌入式处理过程分为两步,第一步输入的词或子词通过嵌入层转换为固定维度的向量。这一步骤通常使用一个可训练的嵌入矩阵来完成。第二步加入位置编码,由于Transformer模型不具备处理序列顺序的内置机制,需要加入位置编码(PositionalEncoding)以提供序列位置信息。位置编码向量被添加到词嵌入向量中,使模型能够区分不同位置的词。位置编码通常使用正弦和余弦函数来生成,以确保不同位置的编码具有独特的表示。

4.任务知识分词嵌入式处理位置编码通常使用正弦和余弦函数来生成,以确保不同位置的编码具有独特的表示。以下是位置编码的计算公式:其中:pos是词在序列中的位置。i是嵌入向量的维度索引。?dmodel是嵌入向量的维度。

4.任务知识分词嵌入式处理下面是实现Transformer词嵌入和位置编码的实例,使用TransformerEmbedding类同时实现了词嵌入和位置编码。输入的词ID通过嵌入层转换为向量,并添加位置编码以提供序列位置信息。输出的结果是一个包含词嵌入和位置编码的向量表示。

4.任务知识分词嵌入式处理代码中输入一个形状为[2,5]的张量,其中2是批次大小,5是序列长度。输入张量表示两个序列,每个序列由五个词组成。input_seq这个张量表示第一个句子由词ID[1,2,3,4,5]组成。第二个句子由词ID[6,7,8,9,10]组成。模型将输入的词ID转换为嵌入向量,并添加位置编码。输出将是一个形状为[2,5,512]的张量,其中512是嵌入向量的维度

4.任务知识什么是注意力机制当一个场景进入人类视野时,往往会先关注场景中的一些重点,如动态的点或者突兀的颜色,剩下的静态场景可能会暂时性的忽略。例如在下面的图像中,按照人类的关注点使用颜色对重要的部分进行了标注。

4.任务知识什么是注意力机制同样的在文本处理中,也需要根据上下文的信息去关注重点的文字信息,通过观察输入序列,并在每个输入时间步判断序列中的其它部分哪些是重要的。例如在下面的例子中,可以看到“ball”对“tennis”和“playing”有强烈的注意力,但“tennis”和“dog”之间的联系很微弱。

4.任务知识注意力机制原理注意力机制允许模型在处理序列数据时更加关注重要的信息,从而提高模型的精度和效率。注意力机制的核心思想是根据输入数据的不同部分赋予不同的权重,以高权重去聚焦重要信息,低权重去忽略不相关的信息,并且还可以不断调整权重,使得模型能够根据当前的任务需求动态地选择关注哪