预训练大模型与医疗:从算法研究到应用单击此处添加副标题汇报人姓名汇报日期
20Pag2e23单击此处添加文本具体内容预训练大模型概述理解大模型的内在机理赋予模型精准性与可解释性医疗领域应用清华探索:数基生命单击此处添加文本具体内容CONTENTS单击此处添加文本具体内容目录CONTENTS
③精准可解释④医疗应用②剖析大模型①关于预训练预训练大模型(学习共性)大数据(低成本无标注)少量特定领域标注数据(成本高)微调小模型(学习特性)⑤数基生命模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练;数据角度:将训练任务拆解成共性学习和特性学习两个步骤。20Pag2e33预训练:从大数据到小数据
③精准可解释④医疗应用⑤数基生命②剖析大模型①关于预训练英文20Pag2e43英文英文电子病历后结构化电子病历后结构化电子病历后结构化A不懂英文B懂英文C懂英文的医生以英文电子病历后结构化为示例
③精准可解释④医疗应用⑤数基生命②剖析大模型①关于预训练从word2vec到Transformer从context-free到context-aware20Pag2e53Transformer架构:预训练的基石
③精准可解释④医疗应用⑤数基生命②剖析大模型①关于预训练两类典型的大语言模型BERT:BidirectionalEncoderRepresentationsfromTransformers双向模型,同时考虑前文和后文采用掩码语言模型(maskedlanguagemodel)和下一句预测任务(nextsentenceprediction)进行预训练,使得模型能够学习到上下文关系和词汇语义通常用于文本分类、序列标注、问答等任务GPT:GenerativePre-trainedTransformer单向模型,只考虑前文,不考虑后文采用自回归(autoregressive)的方式生成文本,即逐个生成下一个词通常用于生成文本、对话、问答等任务20Pag2e63BERT和GPT
③精准可解释④医疗应用⑤数基生命②剖析大模型①关于预训练BERT主要采用掩码语言模型(maskedlanguagemodel,对应图MaskLM)和下一句预测任务(nextsentenceprediction,对应图NSP)进行预训练,使得模型能够学习到上下文关系和词汇语义。预训练好的BERT可以用于对输入文本进行编码,得到具有语义的向量表示。预训练好的BERT也可以通过微调(fine-tuning)方式适配各类NLP任务:TheStanfordQuestionAnsweringDataset问答(SQuAD)、命名实体识别(NER)、MNLI任务(大规模分类任务,目标是预测第二个句子相对于第一个句子是包含,矛盾还是中立)20Pag2e73BERT训练
③精准可解释④医疗应用⑤数基生命②剖析大模型①关于预训练RepresentedIntoSymbolicSpaceLatentSpace20Pag2e83BERT表示能力
③精准可解释④医疗应用⑤数基生命②剖析大模型①关于预训练2018年10月GoogleAI提出BERT模型参数量1.15亿,3.4亿数据量约16GB.2020年2月GoogleAI提出的轻量化BERT模型参数量0.2亿,0.61亿,2.4亿数据量约16GB2019年7月FacebookAI基于BERT模型的扩展参数量1.15亿,3.4亿数据量约160GB2021年10月MicrosoftAI在BERT模型上引入解码与注意力解耦参数量3.4亿数据量约78GB20Pag2e932019年8月清华大学提出知识注入BERT模型,后由BaiduAI更新迭代到3.0版本参数量1.15亿,1.25亿,100亿数据量约12GB,22.9G,4TB2020年3月GoogleAI在BERT模型引入GAN参数量3.4亿数据量约16GBBERT类模型
③精准可解释④医疗应用⑤数基生命②剖析大模型①关于预训练解码器部分为GPT发展奠定基础2017年6月Google提出Transformer模型2017年6月OpenAI提出Few-shotGPT-1模型参数量1.17亿数据量约5GB赋予GPT预测下一个字符串能力2019年2月OpenAI提出One-shotGPT-2模型参数量15亿数据